{"id":2682,"date":"2024-06-20T12:07:25","date_gmt":"2024-06-20T12:07:25","guid":{"rendered":"https:\/\/howtogeek.blog\/it\/?p=2682"},"modified":"2024-06-20T12:07:25","modified_gmt":"2024-06-20T12:07:25","slug":"this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-it","status":"publish","type":"post","link":"https:\/\/howtogeek.blog\/it\/this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-it\/","title":{"rendered":"Questo nuovo strumento V2A di Google DeepMind potrebbe essere l&#8217;ultimo pezzo del puzzle per i film generati dall&#8217;intelligenza artificiale"},"content":{"rendered":"<p>Quando \u00e8 stato rilasciato il primo video generato dall&#8217;intelligenza artificiale, nessuno avrebbe potuto immaginare che gli strumenti di intelligenza artificiale per la generazione di video sarebbero arrivati \u200b\u200bcos\u00ec lontano in cos\u00ec poco tempo. Tuttavia, oggi abbiamo innumerevoli piattaforme che consentono agli utenti di generare video di alta qualit\u00e0 e incredibilmente dettagliati, come Synthesia e Dream Machine di Luma AI. Detto questo, ci sono ancora alcune sfide che impediscono a questi strumenti di diventare mainstream.<\/p>\n<p>E il pi\u00f9 grande forse \u00e8 il processo di generazione audio. Mentre la maggior parte delle piattaforme di generazione video pu\u00f2 produrre video di buona qualit\u00e0, sono per lo pi\u00f9 video muti senza audio. Anche se c&#8217;\u00e8 l&#8217;audio, di solito viene aggiunto separatamente e non soddisfa le aspettative degli utenti.<\/p>\n<p>Ad esempio, se visiti la pagina Dream Machine di Luma AI, potrai vedere alcuni video davvero impressionanti, ma il suono che li accompagna \u00e8 piuttosto generico e di bassa qualit\u00e0. Ma le cose potrebbero cambiare con la nuova tecnologia video-to-audio (V2A) di Google.<\/p>\n<p>Ci\u00f2 promette di portare la generazione di audio di buona qualit\u00e0 per i video alla portata di tutti, il che significa che potrebbe finalmente consentire di produrre film generati dall&#8217;intelligenza artificiale con colonne sonore e audio adeguati, superando tutti i video generati dall&#8217;intelligenza artificiale attualmente prodotti.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>Audio generato dall&#8217;intelligenza artificiale per<\/span><\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ<\/a><\/p>\n<h2 id=\"what-is-google-deepminds-video-to-audio-research\">In cosa consiste la ricerca Video-Audio di Google DeepMind?<\/h2>\n<p>La tecnologia Video-to-Audio (V2A) sviluppata da DeepMind di Google \u00e8 progettata per creare colonne sonore per video generati dall&#8217;intelligenza artificiale. Questa tecnologia consente di generare video e audio simultaneamente combinando istruzioni in linguaggio naturale con pixel video per generare suoni per qualsiasi azione si svolga nel video.<\/p>\n<p>Questa tecnologia pu\u00f2 essere abbinata a modelli di intelligenza artificiale utilizzati per generare video, come Veo, e pu\u00f2 aiutare a creare dialoghi ed effetti sonori realistici insieme a colonne sonore drammatiche che corrispondono al video. Ancora pi\u00f9 importante, la nuova tecnologia V2A non si limita solo ai video generati utilizzando l\u2019intelligenza artificiale, ma pu\u00f2 anche essere utilizzata per generare colonne sonore per video prodotti in modo tradizionale. Pertanto, puoi usarlo per film muti, materiale d&#8217;archivio e altro ancora.<\/p>\n<p>La tecnologia V2A consente agli utenti di generare colonne sonore illimitate per i video e persino di utilizzare prompt positivi e negativi per guidare il processo di generazione del suono e ottenere facilmente i suoni richiesti. Ci\u00f2 consente anche una maggiore flessibilit\u00e0, in modo da poter sperimentare vari output e trovare ci\u00f2 che \u00e8 meglio per un video particolare.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>Un campione audio di una medusa che pulsa sott&#8217;acqua.<\/span> Fonte: Google<\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI<\/a><\/p>\n<h2 id=\"how-does-the-v2a-technology-work\">Come funziona la tecnologia V2A?<\/h2>\n<p>Secondo Google, l&#8217;azienda ha sperimentato tecniche basate sulla diffusione e autoregressive e ha ritenuto che le prime fossero le pi\u00f9 adatte alla produzione del suono. Il risultato \u00e8 un suono altamente realistico e funziona codificando il video in un formato compresso.<\/p>\n<p>Successivamente, il modello di diffusione viene utilizzato per separare il rumore casuale dal video facendo affidamento sulle istruzioni del linguaggio naturale e del video. Le istruzioni aiutano a generare un audio realistico perfettamente sincronizzato con il video. Successivamente viene decodificato l&#8217;audio, dopodich\u00e9 viene convertito in una forma d&#8217;onda audio e unito al video.<\/p>\n<p>DeepMind di Google ha fornito maggiori informazioni per addestrare l&#8217;IA, grazie alle quali gli utenti possono guidare il processo di generazione audio verso i suoni richiesti e consente alla piattaforma di produrre audio di qualit\u00e0 superiore. Tali informazioni includevano trascrizioni di dialoghi parlati e descrizioni dettagliate dei suoni con annotazioni generate dall&#8217;IA.<\/p>\n<p>Grazie all&#8217;apprendimento di tali informazioni, la tecnologia V2A \u00e8 in grado di associare diverse scene visive a specifici eventi audio.<\/p>\n<figure class=\"wp-block-image\"><img alt=\"\" class=\"wp-image\" decoding=\"async\" height=\"605\" loading=\"lazy\" src=\"https:\/\/cdn.howtogeek.blog\/wp-content\/uploads\/2024\/06\/Screenshot-2024-06-20-150052-1.webp\" title=\"\" width=\"1076\"\/><figcaption><span>Funzionamento della tecnologia V2A.<\/span> Fonte: Google<\/figcaption><\/figure>\n<h2 id=\"whats-on-the-horizon\">Cosa c&#8217;\u00e8 all&#8217;orizzonte?<\/h2>\n<p>La tecnologia V2A di DeepMind offre prestazioni molto migliori rispetto ad altre soluzioni V2A poich\u00e9 non sempre richiede un messaggio di testo ed \u00e8 in grado di comprendere i pixel video. Inoltre, non \u00e8 necessario allineare manualmente l&#8217;uscita audio con il video. Tuttavia, esistono ancora alcuni limiti della tecnologia, che Google intende superare con ulteriori ricerche.<\/p>\n<p>Ad esempio, la qualit\u00e0 dell&#8217;audio generato dipende dalla qualit\u00e0 del video utilizzato come input. Se nel video sono presenti distorsioni o artefatti, il modello AI non riesce a comprenderli poich\u00e9 non sono inclusi nel suo addestramento, con conseguente riduzione della qualit\u00e0 audio.<\/p>\n<p>Inoltre, per i video che contengono voce umana, l&#8217;azienda sta lavorando per migliorare la sincronizzazione labiale. La tecnologia V2A cerca di generare la voce usando le trascrizioni di input e poi di allinearla con i movimenti labiali dei personaggi nel video. Tuttavia, se il video non si basa sulle trascrizioni, c&#8217;\u00e8 una discrepanza tra l&#8217;audio e i movimenti labiali.<\/p>\n<p>Con migliori capacit\u00e0 di generazione audio, i modelli AI saranno in grado di generare video che non solo sembrano impressionanti ma hanno anche un suono eccezionale. Google sta inoltre integrando la sua tecnologia V2A con SynthID, che filigrana tutti i contenuti generati utilizzando l&#8217;intelligenza artificiale. Ci\u00f2 pu\u00f2 aiutare a prevenirne l&#8217;uso improprio, garantendo la completa sicurezza.<\/p>\n<p>Inoltre, l&#8217;azienda afferma che tester\u00e0 rigorosamente la sua tecnologia V2A prima di rilasciarla al pubblico. Finora, da quanto Google ha mostrato e promesso per il futuro, questa tecnologia si sta configurando come un importante progresso nella generazione audio per i video generati dall&#8217;intelligenza artificiale.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Quando \u00e8 stato rilasciato il primo video generato dall&#8217;intelligenza artificiale, nessuno avrebbe potuto immaginare che gli strumenti di intelligenza artificiale per la generazione di video sarebbero arrivati \u200b\u200bcos\u00ec lontano in cos\u00ec poco tempo. Tuttavia, oggi abbiamo innumerevoli piattaforme che consentono agli utenti di generare video di alta qualit\u00e0 e incredibilmente dettagliati, come Synthesia e Dream [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[182,130],"class_list":["post-2682","post","type-post","status-publish","format-standard","hentry","category-how-to","tag-artificial-intelligence","tag-microsoft"],"acf":[],"_links":{"self":[{"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/posts\/2682","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/comments?post=2682"}],"version-history":[{"count":1,"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/posts\/2682\/revisions"}],"predecessor-version":[{"id":2683,"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/posts\/2682\/revisions\/2683"}],"wp:attachment":[{"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/media?parent=2682"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/categories?post=2682"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/howtogeek.blog\/it\/wp-json\/wp\/v2\/tags?post=2682"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}