Googles „Made by Google“-Event, bei dem das Unternehmen die neueste Produktreihe seiner Flaggschiff-Smartphones der Pixel-Serie vorstellte, ist offiziell zu Ende gegangen. Die Gerüchteküche hat in den letzten Wochen fleißig darüber gebrütet und viele Gerüchte wurden nun endlich wahr. Darüber hinaus gab es bei dem Event erwartungsgemäß auch mehr als nur ein paar – nun ja, eigentlich ziemlich viele – Erwähnungen von KI.
Neben anderen KI-Themen war die Einführung von Gemini Live eine wichtige Ankündigung. Google hat Gemini Live Anfang des Jahres auf seiner I/O-Konferenz angekündigt. Es ist nun endlich für Abonnenten von Gemini Advanced auf Android in englischer Sprache verfügbar, die Einführung in weiteren Sprachen und für iOS (über die Google-App) ist in Kürze geplant.
Mit Gemini Live ist Gemini nun in der Lage, natürlichere, wechselseitige Gespräche zu führen. Sie können es auch mitten in einer Antwort unterbrechen, genau wie bei jedem natürlichen Gespräch. Sie können die Gemini-App auf Android aufrufen, um mit dem Chatbot zu sprechen.
Dies ähnelt dem erweiterten Sprachmodus in der ChatGPT-App, der jetzt in einer begrenzten Alpha-Version für ChatGPT Plus-Benutzer verfügbar ist. Ausnahmsweise hat Google OpenAI im Veröffentlichungszeitplan einen Schritt voraus sein lassen, indem es eine breitere Einführung eingeleitet hat.
Gemini Live ist auch freihändig verfügbar, sodass Sie mit Gemini im Hintergrund oder sogar bei gesperrtem Telefon sprechen können. Sie können Gespräche auch mittendrin beenden und später weiterführen.
Google führt Gemini Live mit 10 neuen Stimmen ein, damit sich Ihre Gespräche mit der KI für Sie noch authentischer anfühlen; Sie können die Stimme und den Ton wählen, die Ihnen am besten gefallen.
Insbesondere kann Gemini Live keine andere Stimme als die 10 in der App verfügbaren Stimmen simulieren, möglicherweise um Urheberrechtsprobleme zu vermeiden. ChatGPT-4o folgt derselben Richtlinie. Es gibt einen Bereich, in dem Gemini Live nicht mit dem Sprachmodus von ChatGPT-4o identisch ist. Ersteres kann Ihre Emotionen nicht anhand Ihres Tons erkennen, was OpenAIs Chatbot-Demonstration zufolge konnte.
Darüber hinaus gibt es eine Funktion von Gemini Live, die Google auf der I/O-Konferenz vorgeführt hat und die zum Start nicht verfügbar sein wird. Ja, wir sprechen von multimodalen Eingaben. Wenn Sie nicht wissen, was das ist, keine Sorge. Hier eine Zusammenfassung: Mit multimodalen Eingaben kann Gemini Live Eingaben von der Kamera Ihres Telefons (sowohl Fotos als auch Videos) in Echtzeit entgegennehmen und alle Fragen beantworten oder Ihnen helfen, Objekte zu identifizieren, auf die Sie zeigen. Sie können es beispielsweise auf eine DJ-Ausrüstung richten und es bitten, den Namen eines Teils zu identifizieren, oder Sie können es auf Ihren Bildschirm richten und fragen, was ein bestimmter Teil eines Codes macht.
Aber die multimodalen Funktionen verzögern sich derzeit, und Google hat lediglich angekündigt, dass sie später in diesem Jahr verfügbar sein werden, ohne jedoch Einzelheiten zu nennen. Interessanterweise soll der erweiterte Sprachmodus von ChatGPT-4o ähnliche Funktionen haben, aber auch sie wurden nicht mit der begrenzten Alpha-Version eingeführt.
Insbesondere stellt Gemini Live für Google einen Schritt auf dem Weg zur Verwirklichung des Projekts Astra dar.
Mit einem Chatbot zu sprechen ist manchmal viel bequemer, als etwas einzutippen, insbesondere wenn Sie über etwas brainstormen möchten. Und mit Gemini Live kann die Konversation viel reibungsloser ablaufen. Oder, wenn man die Live-Demos vom Made by Google-Event als Anhaltspunkt nimmt, nahtlos genug. (Der Chatbot hat während der Live-Demo anscheinend halluziniert und es gibt einige Reibungen, wenn die Funktion „Gemini in der Mitte unterbrechen“ zum Testen eingesetzt wird). Mal sehen, wie es sich in der realen Welt schlägt, oder? Machen Sie sich bereit, Gemini Live in den kommenden Wochen ab heute auf Ihrem Pixel, Samsung oder anderen Android-Geräten zu testen.
Schreibe einen Kommentar