{"id":2681,"date":"2024-06-20T12:08:05","date_gmt":"2024-06-20T12:08:05","guid":{"rendered":"https:\/\/howtogeek.blog\/es\/?p=2681"},"modified":"2024-06-20T12:08:05","modified_gmt":"2024-06-20T12:08:05","slug":"this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-es","status":"publish","type":"post","link":"https:\/\/howtogeek.blog\/es\/this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-es\/","title":{"rendered":"Esta nueva herramienta V2A de Google DeepMind podr\u00eda ser la \u00faltima pieza del rompecabezas para las pel\u00edculas generadas por IA"},"content":{"rendered":"<p>Cuando se lanz\u00f3 el primer video generado por IA, nadie podr\u00eda haber imaginado que las herramientas de IA para generar videos llegar\u00edan tan lejos en tan poco tiempo. Sin embargo, hoy tenemos innumerables plataformas que permiten a los usuarios generar videos de alta calidad e incre\u00edblemente detallados, como Synthesia y Dream Machine de Luma AI. Dicho esto, todav\u00eda hay algunos desaf\u00edos que impiden que estas herramientas se generalicen.<\/p>\n<p>Y quiz\u00e1s el m\u00e1s importante sea el proceso de generaci\u00f3n de audio. Si bien la mayor\u00eda de las plataformas de generaci\u00f3n de videos pueden producir videos de buena calidad, en su mayor\u00eda son videos silenciosos sin audio. Incluso si hay audio, normalmente se a\u00f1ade por separado y no cumple con las expectativas del usuario.<\/p>\n<p>Por ejemplo, si visitas la p\u00e1gina Dream Machine de Luma AI, podr\u00e1s ver algunos v\u00eddeos muy impresionantes, pero el sonido que los acompa\u00f1a es bastante gen\u00e9rico y de baja calidad. Pero eso puede estar a punto de cambiar con la nueva tecnolog\u00eda de v\u00eddeo a audio (V2A) de Google.<\/p>\n<p>Esto promete llevar la generaci\u00f3n de audio de buena calidad para videos a las masas, lo que significa que finalmente puede permitirle producir pel\u00edculas generadas por IA con bandas sonoras y audio adecuados, superando todos los videos generados por IA que se est\u00e1n produciendo actualmente.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>Audio generado por IA para<\/span><\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ<\/a><\/p>\n<h2 id=\"what-is-google-deepminds-video-to-audio-research\">\u00bfQu\u00e9 es la investigaci\u00f3n de v\u00eddeo a audio de Google DeepMind?<\/h2>\n<p>La tecnolog\u00eda Video-to-Audio (V2A) desarrollada por DeepMind de Google est\u00e1 dise\u00f1ada para crear bandas sonoras para videos generados por IA. Esta tecnolog\u00eda permite generar videos y audio simult\u00e1neamente combinando indicaciones en lenguaje natural con p\u00edxeles de video para generar sonidos para cualquier acci\u00f3n que tenga lugar en el video.<\/p>\n<p>Esta tecnolog\u00eda se puede combinar con modelos de inteligencia artificial utilizados para generar videos, como Veo, y puede ayudar a crear di\u00e1logos y efectos de sonido realistas junto con partituras dram\u00e1ticas que coincidan con el video. M\u00e1s importante a\u00fan, la nueva tecnolog\u00eda V2A no se limita s\u00f3lo a v\u00eddeos generados con IA, sino que tambi\u00e9n puede utilizarse para generar bandas sonoras para v\u00eddeos producidos de forma tradicional. Por lo tanto, puedes utilizarlo para pel\u00edculas mudas, material de archivo y m\u00e1s.<\/p>\n<p>La tecnolog\u00eda V2A permite a los usuarios generar bandas sonoras ilimitadas para v\u00eddeos e incluso utilizar indicaciones positivas y negativas para guiar el proceso de generaci\u00f3n de sonido y obtener los sonidos necesarios f\u00e1cilmente. Esto tambi\u00e9n permite una mayor flexibilidad, por lo que puede experimentar con distintas salidas y encontrar la que sea mejor para un v\u00eddeo en particular.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>Una muestra de audio de una medusa pulsando bajo el agua.<\/span> Fuente: Google<\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI<\/a><\/p>\n<h2 id=\"how-does-the-v2a-technology-work\">\u00bfC\u00f3mo funciona la tecnolog\u00eda V2A?<\/h2>\n<p>Seg\u00fan Google, la empresa experiment\u00f3 con t\u00e9cnicas autorregresivas y basadas en difusi\u00f3n y descubri\u00f3 que la primera era la m\u00e1s adecuada para la producci\u00f3n de sonido. Produce sonidos muy realistas y funciona codificando el v\u00eddeo en un formato comprimido.<\/p>\n<p>Despu\u00e9s de eso, el modelo de difusi\u00f3n se utiliza para separar el ruido aleatorio del v\u00eddeo bas\u00e1ndose en indicaciones del lenguaje natural y el v\u00eddeo. Las indicaciones ayudan a generar audio realista que est\u00e1 perfectamente sincronizado con el video. A esto le sigue la decodificaci\u00f3n del audio, despu\u00e9s de lo cual se convierte en una forma de onda de audio y se fusiona con el v\u00eddeo.<\/p>\n<p>DeepMind de Google proporcion\u00f3 m\u00e1s informaci\u00f3n para entrenar la IA, gracias a la cual los usuarios pueden guiar el proceso de generaci\u00f3n de audio hacia los sonidos requeridos y permite que la plataforma produzca audio de mayor calidad. Dicha informaci\u00f3n inclu\u00eda transcripciones de di\u00e1logos hablados y descripciones de sonido detalladas con anotaciones generadas por IA.<\/p>\n<p>Al estar entrenada con dicha informaci\u00f3n, la tecnolog\u00eda V2A puede asociar diferentes escenas visuales con eventos de audio espec\u00edficos.<\/p>\n<figure class=\"wp-block-image\"><img alt=\"\" class=\"wp-image\" decoding=\"async\" height=\"605\" loading=\"lazy\" src=\"https:\/\/cdn.howtogeek.blog\/wp-content\/uploads\/2024\/06\/Screenshot-2024-06-20-150052-1.webp\" title=\"\" width=\"1076\"\/><figcaption><span>Funcionamiento de la tecnolog\u00eda V2A.<\/span> Fuente: Google<\/figcaption><\/figure>\n<h2 id=\"whats-on-the-horizon\">\u00bfQu\u00e9 hay en el horizonte?<\/h2>\n<p>La tecnolog\u00eda V2A de DeepMind funciona mucho mejor que otras soluciones V2A, ya que no siempre requiere un mensaje de texto y puede comprender los p\u00edxeles del v\u00eddeo. Tampoco es necesario alinear manualmente la salida de sonido con el v\u00eddeo. Sin embargo, todav\u00eda existen ciertas limitaciones de la tecnolog\u00eda que Google pretende superar con m\u00e1s investigaciones.<\/p>\n<p>Por ejemplo, la calidad del audio generado depende de la calidad del v\u00eddeo utilizado como entrada. Si hay distorsiones o artefactos en el video, el modelo de IA no los comprende, ya que no est\u00e1n incluidos en su entrenamiento, lo que en \u00faltima instancia resulta en una calidad de audio reducida.<\/p>\n<p>Adem\u00e1s, en el caso de los v\u00eddeos con voz humana, la empresa est\u00e1 trabajando para mejorar la sincronizaci\u00f3n de labios. La tecnolog\u00eda V2A intenta generar el habla utilizando las transcripciones de entrada y luego alinearla con los movimientos de los labios de los personajes del v\u00eddeo. Sin embargo, si el v\u00eddeo no se basa en transcripciones, existe un desajuste entre el audio y los movimientos de los labios.<\/p>\n<p>Con mejores capacidades de generaci\u00f3n de audio, los modelos de IA podr\u00e1n generar videos que no solo se vean impresionantes, sino que tambi\u00e9n suenen genial. Google tambi\u00e9n est\u00e1 integrando su tecnolog\u00eda V2A con SynthID, que marca con agua todo el contenido generado mediante IA. Esto puede ayudar a evitar que se use indebidamente, lo que garantiza una seguridad total.<\/p>\n<p>Adem\u00e1s, la compa\u00f1\u00eda dice que probar\u00e1 rigurosamente su tecnolog\u00eda V2A antes de lanzarla al p\u00fablico. Hasta ahora, por lo que Google ha mostrado y prometido para el futuro, esta tecnolog\u00eda se perfila como un avance importante en la generaci\u00f3n de audio para videos generados por IA.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cuando se lanz\u00f3 el primer video generado por IA, nadie podr\u00eda haber imaginado que las herramientas de IA para generar videos llegar\u00edan tan lejos en tan poco tiempo. Sin embargo, hoy tenemos innumerables plataformas que permiten a los usuarios generar videos de alta calidad e incre\u00edblemente detallados, como Synthesia y Dream Machine de Luma AI. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[182,130],"class_list":["post-2681","post","type-post","status-publish","format-standard","hentry","category-how-to","tag-artificial-intelligence","tag-microsoft"],"acf":[],"_links":{"self":[{"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/posts\/2681","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/comments?post=2681"}],"version-history":[{"count":1,"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/posts\/2681\/revisions"}],"predecessor-version":[{"id":2682,"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/posts\/2681\/revisions\/2682"}],"wp:attachment":[{"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/media?parent=2681"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/categories?post=2681"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/howtogeek.blog\/es\/wp-json\/wp\/v2\/tags?post=2681"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}