OpenAI запускает функцию Vision для улучшенного голосового режима в ChatGPT

Волнение в сообществе ИИ возросло, когда OpenAI представила Advanced Voice Mode еще в мае. Во время запуска своей последней флагманской модели GPT-4o компания подчеркнула ее замечательные мультимодальные функции.

Однако в течение нескольких месяцев это была лишь демонстрация потенциала. OpenAI изначально заверила пользователей, что Advanced Voice Mode будет доступен в ближайшее время, но это заняло значительно больше времени, чем ожидалось, и не все получили доступ немедленно. Более того, функции Vision в то время отсутствовали. Теперь OpenAI наконец представляет Vision в Advanced Voice Mode.

Это обновление появилось на шестой день инициативы OpenAI «12 дней поставок», в течение которой Сэм Альтман и другие члены команды представили различные обновления, как крупные, так и мелкие, чтобы создать праздничное настроение.

Среди недавних значимых запусков — подписка на ChatGPT Pro, полное развертывание модели рассуждений o1, публичный запуск Sora, видеомодели и улучшенного Canvas, доступного всем пользователям.

Анонс Vision последовал сразу за демонстрацией Google обновленной версии Project Astra и нового прототипа Project Mariner с расширенными возможностями. Однако OpenAI снова взял на себя инициативу, поскольку Project Astra все еще не доступен для общественности.

С добавлением Vision в Advanced Voice Mode пользователи теперь могут напрямую делиться видеопотоком в реальном времени со своей камеры или отображать экран своего телефона в ChatGPT. Это обновление очень ожидаемо, особенно из-за его потенциальных преимуществ для людей с нарушениями зрения.

В сегодняшней наглядной демонстрации команда OpenAI использовала поддержку ChatGPT для приготовления кофе методом проливания.

Источник: OpenAI

В настоящее время функция Vision в Advanced Voice Mode должна быть запущена исключительно в мобильном приложении ChatGPT. Пользователи надеются на ее быстрое внедрение в настольных вариантах, поскольку это уменьшит помехи при поиске помощи ChatGPT во время многозадачности или кодирования.

Этот выпуск будет доступен всем пользователям Teams, а пользователи Plus и Pro по всему миру, за исключением тех, кто находится в ЕС, могут начать использовать его уже сегодня; ожидается, что полное развертывание будет завершено к концу недели. Пользователям Edu и Enterprise придется подождать дольше, доступ ожидается в начале следующего года.

Хотя расширенный голосовой режим ChatGPT был ранее полезен, ему не хватало необходимой функциональности зрения, что не позволяло ему стать по-настоящему практичным помощником. С выпуском зрения я с нетерпением жду возможности стать свидетелем преобразующего воздействия, которое он может оказать.

В праздничном стиле OpenAI также представила новый режим Санты в ChatGPT, который будет доступен глобально на всех платформах — мобильных, настольных и веб-платформах. Этот режим можно активировать как в расширенном, так и в стандартном голосовом режиме. Когда вы впервые включаете режим Санты, OpenAI обновит ваш лимит расширенного голосового режима, то есть вы все равно сможете наслаждаться праздником, даже если достигли своего лимита. И если вы исчерпаете свой лимит расширенного голосового режима, стандартный Санта всегда будет рядом с вами.