OpenAI wprowadza funkcję Vision dla ulepszonego trybu głosowego w ChatGPT

Emocje w społeczności AI wzrosły, gdy OpenAI zaprezentowało Advanced Voice Mode w maju. Podczas premiery swojego najnowszego flagowego modelu, GPT-4o, firma podkreśliła jego niezwykłe funkcje multimodalne.

Jednak przez kilka miesięcy był to jedynie pokaz potencjału. OpenAI początkowo zapewniało użytkowników, że Advanced Voice Mode będzie wkrótce dostępny, ale zajęło to znacznie więcej czasu niż oczekiwano i nie wszyscy otrzymali dostęp od razu. Ponadto w tym czasie nie było funkcji wizji. Teraz OpenAI w końcu wprowadza Vision w Advanced Voice Mode.

Ta aktualizacja pojawia się w szóstym dniu inicjatywy OpenAI pod nazwą „12 dni wysyłki”, podczas której Sam Altman i inni członkowie zespołu ujawnili różne aktualizacje, zarówno duże, jak i małe, aby szerzyć świąteczną radość.

Wśród najważniejszych niedawnych premier można wymienić subskrypcję ChatGPT Pro, pełne wdrożenie modelu wnioskowania o1, publiczną premierę Sora, modelu wideo oraz ulepszoną wersję Canvas dostępną dla wszystkich użytkowników.

Ogłoszenie Vision następuje tuż po pokazie Google ulepszonej wersji Project Astra i nowego prototypu, Project Mariner, z zaawansowanymi możliwościami. Jednak OpenAI ponownie objęło prowadzenie, ponieważ Project Astra nadal nie jest publicznie dostępny.

Dzięki dodaniu Vision w Advanced Voice Mode użytkownicy mogą teraz bezpośrednio udostępniać transmisję wideo na żywo ze swojej kamery lub wyświetlać ekran swojego telefonu w ChatGPT. Ta aktualizacja jest bardzo oczekiwana, szczególnie ze względu na jej potencjalne korzyści dla osób niedowidzących.

W prostej prezentacji udostępnionej dzisiaj zespół OpenAI wykorzystał wsparcie ChatGPT do przygotowania kawy metodą przelewową.

Źródło: OpenAI

Obecnie funkcja Vision w Advanced Voice Mode ma zostać uruchomiona wyłącznie w aplikacji mobilnej ChatGPT. Użytkownicy mają nadzieję na jej szybkie wprowadzenie w wersjach na komputery stacjonarne, ponieważ zmniejszy to utrudnienia podczas korzystania z pomocy ChatGPT podczas wykonywania wielu zadań jednocześnie lub kodowania.

To wdrożenie będzie dostępne dla wszystkich użytkowników Teams, podczas gdy użytkownicy Plus i Pro na całym świecie, z wyłączeniem tych w UE, mogą zacząć korzystać z niego już dziś; pełne wdrożenie ma zostać ukończone do końca tygodnia. Użytkownicy Edu i Enterprise będą musieli poczekać dłużej, a dostęp ma być dostępny na początku przyszłego roku.

Chociaż tryb Advanced Voice Mode w ChatGPT był wcześniej przydatny, brakowało mu podstawowej funkcjonalności wizualnej, co uniemożliwiało mu stanie się naprawdę praktycznym asystentem. Wraz z wydaniem funkcji wizualnej nie mogę się doczekać, aby zobaczyć, jaki transformacyjny wpływ może mieć.

W ramach świątecznego ruchu OpenAI wprowadziło również nowy tryb Santa Mode w ChatGPT, który będzie dostępny globalnie na wszystkich platformach — mobilnych, stacjonarnych i internetowych. Tryb ten można aktywować zarówno w trybie Advanced, jak i Standard Voice Mode. Gdy po raz pierwszy włączysz tryb Santa Mode, OpenAI odświeży Twój limit Advanced Voice Mode, co oznacza, że nadal możesz cieszyć się świętami, nawet jeśli osiągnąłeś swój limit. A jeśli wyczerpiesz swój limit Advanced Voice Mode, Standard Santa zawsze będzie przy Tobie.

OpenAI wprowadza funkcję Vision dla ulepszonego trybu głosowego w ChatGPT

Powiązane artykuły:

Jak naprawić problemy z zawieszaniem się Instagrama: 6 najlepszych rozwiązań

5 najlepszych rozwiązań problemów z odtwarzaniem filmów na YouTube

Dodaj komentarz Anuluj pisanie odpowiedzi