{"id":2642,"date":"2024-06-20T12:07:54","date_gmt":"2024-06-20T12:07:54","guid":{"rendered":"https:\/\/howtogeek.blog\/pt\/?p=2642"},"modified":"2024-06-20T12:07:54","modified_gmt":"2024-06-20T12:07:54","slug":"this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-pt","status":"publish","type":"post","link":"https:\/\/howtogeek.blog\/pt\/this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-pt\/","title":{"rendered":"Esta nova ferramenta V2A do Google DeepMind pode ser a \u00faltima pe\u00e7a do quebra-cabe\u00e7a para filmes gerados por IA"},"content":{"rendered":"<p>Quando o primeiro v\u00eddeo gerado por IA foi lan\u00e7ado, ningu\u00e9m poderia imaginar que as ferramentas de IA de gera\u00e7\u00e3o de v\u00eddeo chegariam t\u00e3o longe em um per\u00edodo t\u00e3o curto. No entanto, hoje temos in\u00fameras plataformas que permitem aos usu\u00e1rios gerar v\u00eddeos de alta qualidade e incrivelmente detalhados, como Synthesia e Dream Machine da Luma AI. Dito isso, ainda h\u00e1 alguns desafios que impedem que essas ferramentas se tornem populares.<\/p>\n<p>E o maior talvez seja o processo de gera\u00e7\u00e3o de \u00e1udio. Enquanto a maioria das plataformas de gera\u00e7\u00e3o de v\u00eddeo pode produzir v\u00eddeos de boa qualidade, eles s\u00e3o, em sua maioria, v\u00eddeos silenciosos, sem nenhum \u00e1udio. Mesmo que haja \u00e1udio, ele geralmente \u00e9 adicionado separadamente e fica aqu\u00e9m das expectativas do usu\u00e1rio.<\/p>\n<p>Por exemplo, se voc\u00ea visitar a p\u00e1gina Dream Machine da Luma AI, poder\u00e1 ver alguns v\u00eddeos muito impressionantes, mas o som que os acompanha \u00e9 bastante gen\u00e9rico e de baixa qualidade. Mas isso pode estar prestes a mudar com a nova tecnologia de v\u00eddeo para \u00e1udio (V2A) do Google.<\/p>\n<p>Isso promete levar gera\u00e7\u00e3o de \u00e1udio de boa qualidade para v\u00eddeos \u00e0s massas, o que significa que pode finalmente permitir que voc\u00ea produza filmes gerados por IA com trilhas sonoras e \u00e1udio adequados, superando todos os v\u00eddeos gerados por IA que est\u00e3o sendo produzidos atualmente.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>\u00c1udio gerado por IA para<\/span><\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ<\/a><\/p>\n<h2 id=\"what-is-google-deepminds-video-to-audio-research\">O que \u00e9 a pesquisa de v\u00eddeo para \u00e1udio do Google DeepMind?<\/h2>\n<p>A tecnologia Video-to-Audio (V2A) desenvolvida pela DeepMind do Google foi projetada para criar trilhas sonoras para v\u00eddeos gerados por IA. Essa tecnologia torna poss\u00edvel gerar v\u00eddeos e \u00e1udio simultaneamente combinando prompts de linguagem natural com pixels de v\u00eddeo para gerar sons para quaisquer a\u00e7\u00f5es que estejam ocorrendo no v\u00eddeo.<\/p>\n<p>Essa tecnologia pode ser pareada com modelos de IA usados \u200b\u200bpara gerar v\u00eddeos, como Veo, e pode ajudar a criar di\u00e1logos e efeitos sonoros realistas, juntamente com trilhas sonoras dram\u00e1ticas que combinam com o v\u00eddeo. Mais importante, a nova tecnologia V2A n\u00e3o se limita apenas a v\u00eddeos gerados usando IA, mas tamb\u00e9m pode ser usada para gerar trilhas sonoras para v\u00eddeos produzidos da maneira tradicional. Assim, voc\u00ea pode us\u00e1-la para filmes mudos, material de arquivo e muito mais.<\/p>\n<p>A tecnologia V2A permite que os usu\u00e1rios gerem trilhas sonoras ilimitadas para v\u00eddeos e at\u00e9 mesmo usem prompts positivos e negativos para guiar o processo de gera\u00e7\u00e3o de som e obter os sons necess\u00e1rios facilmente. Isso tamb\u00e9m permite mais flexibilidade, para que voc\u00ea possa experimentar v\u00e1rias sa\u00eddas e encontrar o que \u00e9 melhor para um v\u00eddeo espec\u00edfico.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>Uma amostra de \u00e1udio de uma \u00e1gua-viva pulsando debaixo d&#8217;\u00e1gua.<\/span> Fonte: Google<\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI<\/a><\/p>\n<h2 id=\"how-does-the-v2a-technology-work\">Como funciona a tecnologia V2A?<\/h2>\n<p>De acordo com o Google, a empresa experimentou t\u00e9cnicas baseadas em difus\u00e3o e autorregressivas e descobriu que a primeira era mais adequada para produ\u00e7\u00e3o de som. Ela resulta em sons altamente realistas e funciona codificando o v\u00eddeo em um formato compactado.<\/p>\n<p>Depois disso, o modelo de difus\u00e3o \u00e9 usado para separar ru\u00eddo aleat\u00f3rio do v\u00eddeo, confiando em prompts de linguagem natural e no v\u00eddeo. Os prompts ajudam a gerar \u00e1udio realista que \u00e9 perfeitamente sincronizado com o v\u00eddeo. Isso \u00e9 seguido pela decodifica\u00e7\u00e3o do \u00e1udio, ap\u00f3s o qual ele \u00e9 convertido em uma forma de onda de \u00e1udio e mesclado com o v\u00eddeo.<\/p>\n<p>O DeepMind do Google forneceu mais informa\u00e7\u00f5es para treinar a IA, por meio das quais os usu\u00e1rios podem guiar o processo de gera\u00e7\u00e3o de \u00e1udio em dire\u00e7\u00e3o aos sons necess\u00e1rios e permite que a plataforma produza \u00e1udio de maior qualidade. Essas informa\u00e7\u00f5es inclu\u00edam transcri\u00e7\u00f5es de di\u00e1logos falados e descri\u00e7\u00f5es detalhadas de som com anota\u00e7\u00f5es geradas pela IA.<\/p>\n<p>Sendo treinada com essas informa\u00e7\u00f5es, a tecnologia V2A pode associar diferentes cenas visuais a eventos de \u00e1udio espec\u00edficos.<\/p>\n<figure class=\"wp-block-image\"><img alt=\"\" class=\"wp-image\" decoding=\"async\" height=\"605\" loading=\"lazy\" src=\"https:\/\/cdn.howtogeek.blog\/wp-content\/uploads\/2024\/06\/Screenshot-2024-06-20-150052-1.webp\" title=\"\" width=\"1076\"\/><figcaption><span>Funcionamento da tecnologia V2A.<\/span> Fonte: Google<\/figcaption><\/figure>\n<h2 id=\"whats-on-the-horizon\">O que est\u00e1 no horizonte?<\/h2>\n<p>A tecnologia V2A da DeepMind tem um desempenho muito melhor do que outras solu\u00e7\u00f5es V2A, pois nem sempre requer um prompt de texto e pode compreender pixels de v\u00eddeo. A sa\u00edda de som tamb\u00e9m n\u00e3o precisa ser alinhada manualmente com o v\u00eddeo. No entanto, ainda existem certas limita\u00e7\u00f5es da tecnologia, que o Google pretende superar com mais pesquisas.<\/p>\n<p>Por exemplo, a qualidade do \u00e1udio gerado depende da qualidade do v\u00eddeo utilizado como entrada. Se houver distor\u00e7\u00f5es ou artefatos no v\u00eddeo, o modelo de IA n\u00e3o consegue compreend\u00ea-los, uma vez que n\u00e3o s\u00e3o inclu\u00eddos em seu treinamento, resultando em \u00faltima an\u00e1lise na redu\u00e7\u00e3o da qualidade do \u00e1udio.<\/p>\n<p>Al\u00e9m disso, para v\u00eddeos que possuem fala humana, a empresa est\u00e1 trabalhando para melhorar a sincroniza\u00e7\u00e3o labial. A tecnologia V2A tenta gerar fala usando as transcri\u00e7\u00f5es de entrada e depois alinh\u00e1-la com os movimentos labiais dos personagens do v\u00eddeo. Por\u00e9m, se o v\u00eddeo n\u00e3o contar com transcri\u00e7\u00f5es, h\u00e1 uma incompatibilidade entre o \u00e1udio e os movimentos labiais.<\/p>\n<p>Com melhores capacidades de gera\u00e7\u00e3o de \u00e1udio, os modelos de IA ser\u00e3o capazes de gerar v\u00eddeos que n\u00e3o apenas parecem impressionantes, mas tamb\u00e9m t\u00eam um som excelente. O Google tamb\u00e9m est\u00e1 integrando sua tecnologia V2A com SynthID, que marca d\u2019\u00e1gua todo o conte\u00fado gerado usando IA. Isso pode ajudar a evitar seu uso indevido, garantindo total seguran\u00e7a.<\/p>\n<p>Al\u00e9m disso, a empresa afirma que testar\u00e1 rigorosamente sua tecnologia V2A antes de lan\u00e7\u00e1-la ao p\u00fablico. At\u00e9 agora, pelo que o Google apresentou e prometeu para o futuro, esta tecnologia parece ser um grande avan\u00e7o na gera\u00e7\u00e3o de \u00e1udio para v\u00eddeos gerados por IA.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Quando o primeiro v\u00eddeo gerado por IA foi lan\u00e7ado, ningu\u00e9m poderia imaginar que as ferramentas de IA de gera\u00e7\u00e3o de v\u00eddeo chegariam t\u00e3o longe em um per\u00edodo t\u00e3o curto. No entanto, hoje temos in\u00fameras plataformas que permitem aos usu\u00e1rios gerar v\u00eddeos de alta qualidade e incrivelmente detalhados, como Synthesia e Dream Machine da Luma AI. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[182,130],"class_list":["post-2642","post","type-post","status-publish","format-standard","hentry","category-how-to","tag-artificial-intelligence","tag-microsoft"],"acf":[],"_links":{"self":[{"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/posts\/2642","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/comments?post=2642"}],"version-history":[{"count":1,"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/posts\/2642\/revisions"}],"predecessor-version":[{"id":2643,"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/posts\/2642\/revisions\/2643"}],"wp:attachment":[{"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/media?parent=2642"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/categories?post=2642"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/howtogeek.blog\/pt\/wp-json\/wp\/v2\/tags?post=2642"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}