Dieses neue V2A-Tool von Google DeepMind könnte das letzte Puzzleteil für KI-generierte Filme sein

Als das erste KI-generierte Video veröffentlicht wurde, hätte niemand gedacht, dass KI-Tools zur Videogenerierung in so kurzer Zeit so weit kommen würden. Heute gibt es jedoch unzählige Plattformen, mit denen Benutzer qualitativ hochwertige und unglaublich detaillierte Videos erstellen können, wie etwa Synthesia und Luma AIs Dream Machine. Allerdings gibt es noch einige Herausforderungen, die verhindern, dass sich diese Tools im Mainstream durchsetzen.

Und das größte Problem ist vielleicht der Audiogenerierungsprozess. Während die meisten Videogenerierungsplattformen Videos in guter Qualität produzieren können, handelt es sich dabei meist um stumme Videos ohne Ton. Selbst wenn Ton vorhanden ist, wird dieser normalerweise separat hinzugefügt und entspricht nicht den Erwartungen der Benutzer.

Wenn Sie beispielsweise die Dream Machine-Seite von Luma AI besuchen, können Sie einige sehr beeindruckende Videos sehen, der dazugehörige Ton ist jedoch ziemlich generisch und von geringer Qualität. Mit Googles neuer Video-to-Audio-Technologie (V2A) könnte sich dies jedoch bald ändern.

Dadurch soll eine qualitativ hochwertige Audiogenerierung für Videos für die breite Masse zugänglich gemacht werden. Das heißt, Sie können möglicherweise endlich KI-generierte Filme mit ordentlichen Soundtracks und Audio produzieren und damit alle derzeit produzierten KI-generierten Videos übertreffen.

KI-generiertes Audio für

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Was ist die Video-zu-Audio-Forschung von Google DeepMind?

Die von Googles DeepMind entwickelte Video-to-Audio-Technologie (V2A) dient zum Erstellen von Soundtracks für KI-generierte Videos. Diese Technologie ermöglicht es, Videos und Audio gleichzeitig zu generieren, indem natürliche Sprachanweisungen mit Videopixeln kombiniert werden, um Sounds für die im Video stattfindenden Aktionen zu erzeugen.

Diese Technologie kann mit KI-Modellen wie Veo kombiniert werden, die zur Videogenerierung verwendet werden, und kann dabei helfen, realistische Dialoge und Soundeffekte sowie dramatische Filmmusiken zu erstellen, die zum Video passen. Noch wichtiger ist, dass die neue V2A-Technologie nicht nur auf mit KI erstellte Videos beschränkt ist, sondern auch zur Generierung von Soundtracks für auf herkömmliche Weise produzierte Videos verwendet werden kann. Sie können sie also für Stummfilme, Archivmaterial und mehr verwenden.

Mit der V2A-Technologie können Benutzer unbegrenzt viele Soundtracks für Videos erstellen und sogar positive und negative Eingabeaufforderungen verwenden, um den Tonerzeugungsprozess zu steuern und die erforderlichen Sounds einfach zu erhalten. Dies ermöglicht auch mehr Flexibilität, sodass Sie mit verschiedenen Ausgaben experimentieren und herausfinden können, was für ein bestimmtes Video am besten geeignet ist.

Eine Audioprobe einer unter Wasser pulsierenden Qualle. Quelle: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

Wie funktioniert die V2A-Technologie?

Laut Google hat das Unternehmen mit diffusionsbasierten und autoregressiven Techniken experimentiert und festgestellt, dass erstere für die Tonproduktion am besten geeignet sind. Sie führt zu hochrealistischen Klängen und funktioniert, indem das Video in ein komprimiertes Format kodiert wird.

Anschließend wird das Diffusionsmodell verwendet, um zufälliges Rauschen vom Video zu trennen, indem auf natürliche Sprachaufforderungen und das Video zurückgegriffen wird. Die Aufforderungen helfen dabei, realistisches Audio zu erzeugen, das perfekt mit dem Video synchronisiert ist. Anschließend wird das Audio dekodiert, anschließend in eine Audiowellenform umgewandelt und mit dem Video zusammengeführt.

Googles DeepMind lieferte weitere Informationen zum Trainieren der KI, mit denen Benutzer den Audiogenerierungsprozess auf die gewünschten Klänge ausrichten können und die Plattform Audio in höherer Qualität produzieren kann. Zu diesen Informationen gehörten Transkripte gesprochener Dialoge und detaillierte Klangbeschreibungen mit von der KI generierten Anmerkungen.

Wenn die V2A-Technologie anhand solcher Informationen trainiert wird, kann sie verschiedene visuelle Szenen mit bestimmten Audioereignissen verknüpfen.

Funktionsweise der V2A-Technologie. Quelle: Google

Was steht am Horizont?

Die V2A-Technologie von DeepMind ist deutlich leistungsfähiger als andere V2A-Lösungen, da sie nicht immer eine Texteingabeaufforderung benötigt und Videopixel verstehen kann. Auch muss die Tonausgabe nicht manuell auf das Video abgestimmt werden. Allerdings gibt es noch gewisse Einschränkungen der Technologie, die Google durch weitere Forschung überwinden möchte.

So hängt beispielsweise die Qualität des generierten Audios von der Qualität des als Eingabe verwendeten Videos ab. Wenn das Video Verzerrungen oder Artefakte enthält, kann das KI-Modell diese nicht erkennen, da sie nicht in sein Training einbezogen wurden, was letztlich zu einer verringerten Audioqualität führt.

Darüber hinaus arbeitet das Unternehmen an der Verbesserung der Lippensynchronisation für Videos mit menschlicher Sprache. Die V2A-Technologie versucht, Sprache mithilfe der Eingabetranskripte zu generieren und sie dann an die Lippenbewegungen der Charaktere im Video anzupassen. Wenn das Video jedoch nicht auf Transkripte angewiesen ist, kommt es zu einer Nichtübereinstimmung zwischen Audio und Lippenbewegungen.

Mit besseren Möglichkeiten zur Audiogenerierung können KI-Modelle Videos erstellen, die nicht nur beeindruckend aussehen, sondern auch großartig klingen. Google integriert seine V2A-Technologie auch in SynthID, das alle mithilfe von KI generierten Inhalte mit Wasserzeichen versieht. Dies kann dazu beitragen, Missbrauch zu verhindern und vollständige Sicherheit zu gewährleisten.

Darüber hinaus will das Unternehmen seine V2A-Technologie rigoros testen, bevor sie der Öffentlichkeit zugänglich gemacht wird. Nach dem, was Google bisher präsentiert und für die Zukunft versprochen hat, entwickelt sich diese Technologie zu einem großen Fortschritt bei der Audiogenerierung für KI-generierte Videos.