OpenAI lance la fonctionnalité Vision pour le mode vocal amélioré dans ChatGPT

L’enthousiasme de la communauté de l’IA a augmenté lorsque OpenAI a dévoilé le mode vocal avancé en mai dernier. Lors du lancement de son dernier modèle phare, le GPT-4o, la société a mis en avant ses remarquables fonctions multimodales.

Pendant plusieurs mois, il ne s’agissait que d’une démonstration de potentiel. OpenAI avait initialement assuré aux utilisateurs que le mode vocal avancé serait bientôt disponible, mais cela a pris beaucoup plus de temps que prévu et tout le monde n’y a pas eu accès immédiatement. De plus, les fonctions de vision étaient absentes à ce moment-là. Aujourd’hui, OpenAI introduit enfin Vision dans le mode vocal avancé.

Cette mise à jour arrive le sixième jour de l’initiative d’OpenAI, « 12 jours d’expédition », au cours de laquelle Sam Altman et d’autres membres de l’équipe ont révélé diverses mises à jour, majeures et mineures, pour répandre un peu de joie festive.

Parmi les lancements récents marquants figurent l’abonnement ChatGPT Pro, le déploiement complet de leur modèle de raisonnement o1, le lancement public de Sora, leur modèle vidéo et un Canvas amélioré disponible pour tous les utilisateurs.

L’annonce de Vision suit de près la présentation par Google d’une version améliorée du projet Astra et d’un nouveau prototype, le projet Mariner, doté de fonctionnalités avancées. Cependant, OpenAI a une fois de plus pris les devants, car le projet Astra n’est toujours pas disponible au public.

Avec l’ajout de Vision en mode vocal avancé, les utilisateurs peuvent désormais partager directement un flux vidéo en direct depuis leur caméra ou afficher l’écran de leur téléphone sur ChatGPT. Cette mise à jour est très attendue, notamment pour ses avantages potentiels pour les personnes malvoyantes.

Dans une démonstration simple partagée aujourd’hui, l’équipe OpenAI a utilisé le support de ChatGPT pour préparer du café versé.

Source : OpenAI

Actuellement, la fonctionnalité Vision du mode vocal avancé est prévue pour être lancée exclusivement sur l’application mobile ChatGPT. Les utilisateurs espèrent son introduction rapide sur les variantes de bureau, car cela réduira les obstacles lors de la recherche de l’assistance de ChatGPT lors du multitâche ou du codage.

Ce déploiement sera accessible à tous les utilisateurs de Teams, tandis que les utilisateurs Plus et Pro du monde entier, à l’exception de ceux de l’UE, peuvent commencer à l’utiliser dès aujourd’hui. Le déploiement complet devrait être terminé d’ici la fin de la semaine. Les utilisateurs Edu et Enterprise devront attendre plus longtemps, l’accès étant prévu au début de l’année prochaine.

Bien que le mode vocal avancé de ChatGPT ait déjà été utile, il manquait de la fonctionnalité de vision essentielle, ce qui l’empêchait de devenir un assistant vraiment pratique. Avec la sortie de la vision, j’ai hâte de voir l’impact transformateur qu’elle pourrait avoir.

Dans un geste festif, OpenAI a également introduit un nouveau mode Père Noël dans ChatGPT, qui sera disponible dans le monde entier sur toutes les plateformes : mobile, ordinateur de bureau et Web. Ce mode peut être activé dans les modes vocaux avancé et standard. Lorsque vous activez le mode Père Noël pour la première fois, OpenAI actualise votre limite de mode vocal avancé, ce qui signifie que vous pouvez toujours profiter des festivités même si vous avez atteint votre limite. Et si vous épuisez votre allocation de mode vocal avancé, le Père Noël standard sera toujours là pour vous.