OpenAI führt Vision-Funktion für erweiterten Sprachmodus in ChatGPT ein

Die Aufregung in der KI-Community stieg, als OpenAI im Mai den Advanced Voice Mode vorstellte. Bei der Einführung seines neuesten Flaggschiffmodells, GPT-4o, hob das Unternehmen dessen bemerkenswerte multimodale Funktionen hervor.

Mehrere Monate lang war dies jedoch nur eine Demonstration des Potenzials. OpenAI hatte den Benutzern zunächst versichert, dass der erweiterte Sprachmodus bald verfügbar sein würde, aber es dauerte deutlich länger als erwartet und nicht jeder erhielt sofort Zugriff. Darüber hinaus fehlten zu diesem Zeitpunkt die Vision-Funktionen. Jetzt führt OpenAI Vision endlich im erweiterten Sprachmodus ein.

Dieses Update erscheint am sechsten Tag der OpenAI-Initiative „12 Days of Shipping“, in deren Verlauf Sam Altman und andere Teammitglieder verschiedene größere und kleinere Updates vorgestellt haben, um etwas festliche Stimmung zu verbreiten.

Zu den wichtigsten Neuerungen zählen das ChatGPT Pro-Abonnement, die vollständige Einführung des O1-Argumentationsmodells, die öffentliche Einführung von Sora, des Videomodells und ein verbessertes Canvas, das allen Benutzern zur Verfügung steht.

Die Vision-Ankündigung folgt kurz auf Googles Präsentation einer aktualisierten Version von Project Astra und eines neuen Prototyps, Project Mariner, mit erweiterten Funktionen. OpenAI hat jedoch erneut die Führung übernommen, da Project Astra noch nicht öffentlich verfügbar ist.

Mit der Erweiterung um Vision im erweiterten Sprachmodus können Benutzer jetzt direkt einen Live-Video-Feed von ihrer Kamera teilen oder den Bildschirm ihres Telefons an ChatGPT anzeigen. Dieses Update wird mit Spannung erwartet, insbesondere aufgrund seiner potenziellen Vorteile für sehbehinderte Personen.

In einer heute geteilten, unkomplizierten Demonstration nutzte das OpenAI-Team die Unterstützung von ChatGPT, um Filterkaffee zuzubereiten.

Quelle: OpenAI

Derzeit soll die Vision-Funktion im erweiterten Sprachmodus ausschließlich in der mobilen ChatGPT-Anwendung eingeführt werden. Benutzer hoffen auf eine baldige Einführung in Desktop-Varianten, da dies die Hindernisse verringert, wenn sie beim Multitasking oder Codieren die Unterstützung von ChatGPT in Anspruch nehmen.

Diese Einführung wird allen Teams-Benutzern zugänglich sein, während Plus- und Pro-Benutzer weltweit (mit Ausnahme der Benutzer in der EU) sie heute nutzen können. Die vollständige Bereitstellung wird voraussichtlich bis Ende der Woche abgeschlossen sein. Edu- und Enterprise-Benutzer müssen länger warten, da der Zugriff voraussichtlich Anfang nächsten Jahres erfolgen wird.

Obwohl der erweiterte Sprachmodus von ChatGPT bisher nützlich war, fehlte ihm die grundlegende Vision-Funktionalität, sodass er kein wirklich praktischer Assistent werden konnte. Mit der Vision-Version bin ich gespannt, welche transformative Wirkung er haben könnte.

In einer festlichen Aktion hat OpenAI auch einen neuen Weihnachtsmannmodus in ChatGPT eingeführt, der weltweit auf allen Plattformen verfügbar sein wird – mobil, Desktop und Web. Dieser Modus kann sowohl im erweiterten als auch im Standard-Sprachmodus aktiviert werden. Wenn Sie den Weihnachtsmannmodus zum ersten Mal aktivieren, aktualisiert OpenAI Ihr Limit für den erweiterten Sprachmodus, sodass Sie die Festlichkeiten auch dann noch genießen können, wenn Sie Ihr Limit erreicht haben. Und sollten Sie Ihr Limit für den erweiterten Sprachmodus erschöpft haben, ist der Standard-Weihnachtsmann immer für Sie da.

OpenAI führt Vision-Funktion für erweiterten Sprachmodus in ChatGPT ein

Verwandte Artikel:

Personalisierte Suchergebnisse in Google deaktivieren: Eine Schritt-für-Schritt-Anleitung

Die 5 besten Lösungen für Probleme mit der Wiedergabe von YouTube-Videos

Schreibe einen Kommentar Antwort abbrechen