Google hat kürzlich eine Reihe von Updates für sein Gemini-KI-Modell angekündigt, darunter mehrere Upgrades und neue Modelle. Besonders viel Aufmerksamkeit erregte dabei Gemini Live, ein multimodales KI-Modell mit Video- und Sprachfunktionen.
Seit Bard im Februar in Gemini umbenannt wurde, dient das KI-Modell als Ersatz für Google Assistant auf Android-Geräten. Allerdings ist es in seinen Möglichkeiten derzeit recht eingeschränkt. Mit Gemini Live möchte Google dies ändern und ein leistungsfähigeres und vielseitigeres KI-Modell anbieten.
Was ist Gemini Live?
Um den Benutzern ein verbessertes KI-Erlebnis zu bieten und es mit dem durch GPT-4o verbesserten ChatGPT von OpenAI aufzunehmen, hat Google kürzlich auf seiner I/O Developer Conference Gemini Live angekündigt. Gemini Live ermöglicht Benutzern natürliche und personalisierte Gespräche in Echtzeit per Sprache und später auch per Video.
Das neue KI-Modell ist Teil von Googles Projekt Astra, dem Versuch des Suchgiganten, einen universellen KI-Assistenten zu entwickeln, der verschiedene Arten von Eingaben aus dem Alltag nutzen kann, um Hilfe zu leisten. Beispielsweise kann Gemini Live Text, Bilder von Ihrer Smartphone-Kamera und Ihre Stimme verwenden, um Fragen zu beantworten.
Laut Google wird das neue natürliche Sprachmodell den Benutzern nicht nur dabei helfen, Probleme zu lösen und verschiedene Aktionen auszuführen, sondern sich bei Interaktionen auch völlig natürlich anfühlen. Benutzer können Gemini Live starten, indem sie auf das Sprachsymbol auf ihrem Telefon tippen. Daraufhin wird die KI im Vollbildmodus mit einem Audio-Wellenformeffekt angezeigt.
Sie können sich dann mit der KI unterhalten, als ob Sie mit einem echten persönlichen Assistenten sprechen würden. Ein hervorragendes Beispiel dafür, wie Ihnen das verbesserte KI-Modell helfen kann, ist, wenn Sie es bitten, Ihnen bei der Vorbereitung auf ein Vorstellungsgespräch zu helfen. Gemini Live schlägt Ihnen die Fähigkeiten vor, die Sie hervorheben sollten, gibt Ihnen Tipps zum öffentlichen Reden und vieles mehr.
Merkmale
Gemini Live verfügt über einige Funktionen, die es zu einem viel besseren KI-Assistenten machen als Google Assistant, Apples Siri oder Amazons Alexa.
Zwei-Wege-Sprachgespräche
Mit Gemini Live können Sie sich unterhalten und erhalten menschenähnliche verbale Antworten, was zu spannenden und intuitiven Gesprächen führt. Sie können es beispielsweise nach dem Wetter fragen und es wird Ihnen ein genaues und präzises Update geben.
Smart Assistant-Funktionen
Das KI-Modell kann als intelligenter Assistent dienen und Aufgaben wie das Zusammenfassen von Informationen aus E-Mails und das Aktualisieren Ihres Kalenders ausführen. Sie können beispielsweise ein Foto von einem Konzertflyer machen und Gemini fügt das Ereignis Ihrem Kalender hinzu.
Visuelle Fähigkeiten
Mithilfe der Kamera Ihres Smartphones kann Gemini Live Videos in Echtzeit aufnehmen. So kann es Objekte identifizieren und Fragen dazu beantworten. Wenn Sie beispielsweise die Kamera Ihres Smartphones auf einen Lautsprecher richten und Gemini bitten, ihn zu identifizieren, wird es Ihnen sagen, um was für einen Lautsprecher es sich handelt und sogar Marke und Modell identifizieren.
Wie funktioniert Gemini Live?
Project Astra kann Sprach- und visuelle Eingaben kombinieren, sodass sie für das KI-Modell leicht verständlich sind. Es kann dann auf die Informationen reagieren und die erforderliche Unterstützung bieten. Wie OpenAIs GPT-4o-basiertes ChatGPT ist Gemini Live eine multimodale KI und verlässt sich nicht ausschließlich auf Text als Eingabe.
Während Gemini Live bei der Erstveröffentlichung zunächst Spracheingaben zur Erfassung und Analyse von Daten nutzt, wird es in den kommenden Monaten erweitert und kann nun auch Videos verarbeiten und analysieren, indem es diese zum besseren Verständnis und zur besseren Interaktion Bild für Bild zerlegt.
Die KI kann sich an die Sprechgeschwindigkeit verschiedener Benutzer anpassen und Sie können sie sogar unterbrechen, um um Klarstellung zu bitten oder weitere Informationen bereitzustellen. Ihre Fähigkeit, menschliche Dialoge nachzuahmen, kann für eine ansprechendere Interaktion sorgen. So können Sie mit ihr ein Hin- und Her-Gespräch führen, genau wie mit einem menschlichen Assistenten. Darüber hinaus können Sie zwischen zehn verschiedenen Stimmen für die KI wählen.
GPT-4o vs. Gemini Live
Obwohl es sich bei GPT-4o und Gemini Live beide um multimodale KI-Modelle handelt, lässt sich derzeit nur schwer sagen, welches von beiden in der Praxis besser abschneidet, insbesondere, da keines der beiden Modelle derzeit öffentlich verfügbar ist.
Im Gegensatz zu ChatGPT verlässt sich Gemini Live jedoch auf andere KI-Modelle wie Google Veo und Imagen 3, um die Ausgabe in Form von Videos und Bildern zu liefern. Trotzdem wirkte ChatGPT in den von OpenAI und Google gezeigten Demos natürlicher und das neue GPT-4o-Modell konnte sogar menschliche Emotionen anhand der Stimmlage erkennen und simulieren.
Darüber hinaus kann es sich an Ihre gewünschten Antworten anpassen, was Gemini Live zumindest in seinem aktuellen Zustand nicht kann.
Gemini Live-Verfügbarkeit
Gemini Live wird für Abonnenten von Gemini Advanced verfügbar sein, der kostenpflichtigen Version des KI-Chatbots. Die Einführung erfolgt in den kommenden Monaten und wird voraussichtlich bis Ende des Jahres allgemein verfügbar sein.
Apps wie Google Messages können die Vorteile von Gemini Live voll ausschöpfen und ermöglichen Benutzern die direkte Interaktion mit der KI in der Messaging-App.
Gemini Live könnte das nächste große Upgrade für Googles KI-Chatbot sein und genau das, was er braucht, um es mit Konkurrenten wie OpenAIs ChatGPT aufzunehmen. Mit multimodaler Funktionalität und leistungsstarken Sprachfunktionen kann das verbesserte Modell Google dabei helfen, einen vielseitigen und zuverlässigen digitalen Assistenten bereitzustellen.
Bisher hat Google lediglich angekündigt, dass das neue KI-Modell kostenpflichtigen Abonnenten zur Verfügung gestellt wird. Zwar sind damit die kostenlosen Nutzer, die einen großen Teil der Google-Nutzerbasis ausmachen, außen vor, aber wir hoffen, dass Google seine Haltung ändert und beschließt, die Verfügbarkeit von Gemini Live zu erweitern.
Schreibe einen Kommentar