ChatGPT również „mówi”: teraz akceptuje także żądania głosowe z aplikacji. A jeśli wyślesz zdjęcie, to Ci pomoże.

OpenAI ogłosiło różne innowacje, które całkowicie wpychają ChatGPT w zakres asystentów, takich jak Alexa, Siri i Google Assistant: pytaj i odpowiadaj w ciągu kilku sekund, z poziomu aplikacji.
ChatGPT teraz mówi. W nadchodzących tygodniach osoby zarejestrowane w planach Pro i Enterprise będą mogły używać aplikacji mobilnej ChatGPT do aktywowania żądania za pomocą głosu, zamiast wpisywać je w polu tekstowym; ale także wykorzystuj zdjęcia i inne obrazy, aby zainicjować żądanie i odpowiedzieć na ChatGPT.
Operacja jest bardzo podobna do tej, którą wykonywano od lat z wirtualnymi asystentami, takimi jak Alexa czy Siri: naciskasz przycisk i zaczynasz mówić, aby sformułować prośbę o przesłanie do ChatGPT .
Następnie ChatGPT – za kulisami – dokonuje transkrypcji żądania głosowego, formułuje odpowiedź tekstową, którą następnie tłumaczy na głos i zwraca użytkownikowi: wszystko dzieje się w ciągu kilku sekund.
Ta funkcja nie jest domyślnie aktywowana, ale należy ją zastosować w ustawieniach aplikacji. Początkowo będzie ona dostępna wyłącznie w języku angielskim.
Udostępnianie zdjęć może dotyczyć komentarza do panoramy lub pomocy w gotowaniu, znalezienia przepisu zaczynając od tego, co jest w lodówce lub, powołując się na przykład podany przez OpenAI, wyregulowania siodełka rowerowego i znalezienia w skrzynce narzędziowej odpowiedniego narzędzia, aby to zrobić.
„ Nowa funkcja głosowa jest obsługiwana przez nowy model zamiany tekstu na mowę, zdolny do generowania dźwięku podobnego do ludzkiego na podstawie samego tekstu i kilkusekundowego próbkowania głosu” – wyjaśnił OpenAI . „ Przy tworzeniu każdego z głosów współpracowaliśmy z profesjonalnymi aktorami głosowymi. Używamy również Whisper, naszego systemu rozpoznawania mowy typu open source, do transkrypcji wypowiadanych słów na tekst ”.
W ramach tej innowacji OpenAI ogłosiło współpracę ze Spotify w celu tłumaczenia , przy użyciu systemu opartego na sztucznej inteligencji, niektórych anglojęzycznych podcastów na inne języki, takie jak hiszpański i francuski.
Wynik końcowy jest wiarygodny : głos jest odtwarzany w sposób syntetyczny, przy czym wciąż jest wiele do poprawienia, ponieważ nadal brzmi trochę robotycznie. Na razie funkcja ta jest przeznaczona dla małej grupy podcasterów.
„ Nowa technologia głosowa, zdolna do tworzenia realistycznego, syntetycznego głosu z zaledwie kilku sekund prawdziwej mowy, otwiera drzwi do wielu kreatywnych i zorientowanych na dostępność aplikacji ” – dodał OpenAI. „ Jednak możliwości te stwarzają również nowe zagrożenia, takie jak możliwość podszywania się przez złośliwe podmioty pod osoby publiczne lub popełniania oszustw ”. Z tego powodu dystrybucja tych funkcji będzie stopniowa, począwszy od użytkowników Pro i Enterprise.
dday