Im Mai begeisterte die Vorführung des Advanced Voice Mode von OpenAI das Publikum und löste eine Welle der Begeisterung aus. Die anfängliche Begeisterung verwandelte sich jedoch schnell in Enttäuschung, als bekannt wurde, dass die Funktion erst später in diesem Jahr verfügbar sein würde.
Ein paar Monate später hat OpenAI den Advanced Voice Mode für alle Benutzer von ChatGPT eingeführt, darunter sowohl kostenlose als auch kostenpflichtige Abonnenten. Da die Technologie nun für eine breitere Nutzung verfügbar ist, ist es an der Zeit, ihre Leistung zu bewerten und zu sehen, ob sie die hohen Erwartungen erfüllt, die bei der ersten Präsentation geweckt wurden.
Bewertung der Fähigkeiten und Grenzen
Eine spürbare Enttäuschung machte sich bei den Benutzern breit, die erwartet hatten, dass der erweiterte Sprachmodus die beeindruckenden Funktionen der früheren Demo widerspiegeln würde. Wichtige Funktionen wie Multimodalität, Internetkonnektivität und Datei-Upload-Funktionen fehlen merklich. Trotz der Einführung von ChatGPT Search fehlt dem Sprachmodus immer noch der Echtzeit-Internetzugang und Updates.
Darüber hinaus ist die Funktionalität eingeschränkt, da Sprachgespräche aus vorherigen textbasierten Interaktionen nicht fortgesetzt werden können. Dieser Mangel steht in krassem Gegensatz zu den vielversprechenden Funktionen, die während der Demo hervorgehoben wurden, und weckt bei den Benutzern den Wunsch nach Funktionen, die nicht realisiert werden.
Verbesserungen im Gesprächsfluss
Trotz seiner Einschränkungen weist der erweiterte Sprachmodus gegenüber seinem Vorgänger deutliche Verbesserungen auf. Gespräche wirken natürlicher und Benutzer können unterbrechen, ohne darauf warten zu müssen, dass die KI „nachdenkt“, was zu einem ansprechenderen Erlebnis führt.
Während einige über die Backend-Prozesse des neuen Sprachmodus spekulieren, lässt meine Erfahrung darauf schließen, dass es nur eine minimale Verzögerung zwischen dem Sprechen und dem Empfangen einer Antwort gibt. Diese Unmittelbarkeit fördert ein Gefühl des Dialogs, das einem menschlichen Gespräch ähnelt.
Auch die Möglichkeit, zwischen Sprachen wie Hindi, Punjabi, Englisch und Französisch zu wechseln, ist lobenswert. Allerdings ist es manchmal schwierig, zwischen Hindi und Punjabi zu unterscheiden, und der Sprachmodus könnte von einer Live-Transkriptionsfunktion zum Sprachenlernen profitieren.
Vielfältige und ansprechende Sprachoptionen
Die Stimmenauswahl von ChatGPT verbessert das Benutzererlebnis. Derzeit werden die folgenden Stimmen angeboten:
- Arbor (M) – Lässig und vielseitig
- Vale (F) – Hell und neugierig
- Breeze (M) – Lebhaft und ernst
- Sol (F) – Clever und entspannt
- Maple (F) – Fröhlich und offen
- Cove (M) – Gelassen und direkt
- Ember (M) – Selbstbewusst und optimistisch
- Juniper (F) – Offen und optimistisch
- Fichte (M) – Ruhig und bejahend
Die lebendige Natur dieser Stimmen macht die Interaktion weitaus angenehmer als bei Konkurrenzprodukten wie Gemini Live und Copilot, denen eine vergleichbare Gesprächsflüssigkeit fehlt.
Herausforderungen durch Einschränkungen
Der Sprachmodus kann zwar emotionale Nuancen beim Geschichtenerzählen effektiv vermitteln, ist aber aufgrund zu strenger Einschränkungen unzureichend. In der früheren Demo erlebten Benutzer eine breitere Palette an Funktionen, darunter die Möglichkeit zu singen, die entfernt wurde, um mögliche Urheberrechtsverletzungen zu vermeiden.
Leider beeinträchtigen diese Einschränkungen das Gesamterlebnis. Benutzer können auf Ablehnungen vernünftiger Anfragen stoßen, wie z. B. die Generierung von Dialogen für Schauspielübungen, was zu Frustration führt. Der erweiterte Sprachmodus kann gelegentlich einige kreative Anfragen mit ein wenig Aufforderung erfüllen, aber oft hat man das Gefühl, dass Inkonsistenz seine Benutzerfreundlichkeit beeinträchtigt.
Gedächtnisleistung und Kontextbewusstsein
Ein bemerkenswertes Merkmal des erweiterten Sprachmodus ist die Möglichkeit, Informationen abzurufen. Allerdings ist es nicht möglich, Sprachgespräche in bestehenden Chats mit Text oder Bildern weiterzuverfolgen, was eine erhebliche Einschränkung darstellt.
Im Vergleich dazu unterstützt Gemini Live den laufenden Dialog unabhängig vom vorherigen Chat-Kontext. Dies verdeutlicht einen Bereich, in dem OpenAI möglicherweise Verbesserungen vornehmen muss, um wettbewerbsfähig zu bleiben.
Schnelle Reaktionszeiten
Schnelle Antworten verbessern zwar die Gesprächsdynamik, können aber manchmal den Dialogfluss stören. Die KI neigt dazu, Pausen als Aufforderung zur Antwort zu interpretieren, was zu Unterbrechungen führt, die den Gedankengang des Benutzers entgleisen lassen können.
Eine Funktion, mit der Benutzer längere Pausen signalisieren können, ähnlich einer „Halten“-Taste, würde die Natürlichkeit dieser Interaktionen erheblich verbessern.
Gelegentliche kleinere Störungen
Die meisten Interaktionen mit dem erweiterten Sprachmodus verlaufen reibungslos, aber gelegentlich kann es zu kleineren Störungen kommen, wie z. B. kurzen statischen Störungen oder unerwarteten Stimmänderungen. Diese Probleme sind zwar im Allgemeinen geringfügig, können aber gelegentlich das Benutzererlebnis beeinträchtigen.
Überlegungen zu Kosten und Zugänglichkeit
Der erweiterte Sprachmodus ist im kostenlosen ChatGPT-Plan für etwa 15 Minuten pro Monat verfügbar, für den vollständigen Zugriff ist jedoch ein Abonnement erforderlich. Dies steht im Gegensatz zu Wettbewerbern wie Copilot und Gemini Live, die ihre Sprachfunktionen den Benutzern kostenlos anbieten.
Die Abonnementgebühr und das Fehlen von Funktionen wie Internetzugang, die bei anderen Modellen vorhanden sind, werfen Fragen über den Wert des Dienstes auf, insbesondere für Benutzer, die ausschließlich an den Sprachfunktionen interessiert sind.
Abschließende Bewertung
Obwohl der Advanced Voice Mode zweifellos beeindruckende technologische Fortschritte aufweist, kann er derzeit nicht alles liefern, was in der Demo versprochen wurde. Seine praktischen Einsatzmöglichkeiten sind begrenzt und ohne wesentliche Verbesserungen ist er eher eine Neuheit als ein notwendiges Werkzeug.
Für diejenigen, die ChatGPT bereits wegen Funktionen wie Canvas, Suche oder dem Reasoning-Modell abonniert haben, kann der erweiterte Sprachmodus eine nette Ergänzung sein. Allerdings rechtfertigt er allein möglicherweise kein Abonnement.
Schreibe einen Kommentar