{"id":2640,"date":"2024-06-20T12:07:39","date_gmt":"2024-06-20T12:07:39","guid":{"rendered":"https:\/\/howtogeek.blog\/pl\/?p=2640"},"modified":"2024-06-20T12:07:39","modified_gmt":"2024-06-20T12:07:39","slug":"this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-pl","status":"publish","type":"post","link":"https:\/\/howtogeek.blog\/pl\/this-new-v2a-tool-from-google-deepmind-could-be-the-last-piece-of-the-puzzle-for-ai-generated-movies-pl\/","title":{"rendered":"To nowe narz\u0119dzie V2A od Google DeepMind mo\u017ce by\u0107 ostatnim elementem uk\u0142adanki w przypadku film\u00f3w generowanych przez sztuczn\u0105 inteligencj\u0119"},"content":{"rendered":"<p>Kiedy ukaza\u0142 si\u0119 pierwszy film wygenerowany przez sztuczn\u0105 inteligencj\u0119, nikt nie m\u00f3g\u0142 przypuszcza\u0107, \u017ce narz\u0119dzia AI do generowania wideo osi\u0105gn\u0105 tak daleko w tak kr\u00f3tkim czasie. Jednak dzisiaj mamy niezliczone platformy, kt\u00f3re pozwalaj\u0105 u\u017cytkownikom generowa\u0107 wysokiej jako\u015bci, niezwykle szczeg\u00f3\u0142owe filmy, takie jak Dream Machine Synthesia i Luma AI. To powiedziawszy, nadal istnieje kilka wyzwa\u0144, kt\u00f3re uniemo\u017cliwiaj\u0105 tym narz\u0119dziom wej\u015bcie do g\u0142\u00f3wnego nurtu.<\/p>\n<p>By\u0107 mo\u017ce najwi\u0119kszym z nich jest proces generowania d\u017awi\u0119ku. Chocia\u017c wi\u0119kszo\u015b\u0107 platform do generowania wideo mo\u017ce generowa\u0107 filmy dobrej jako\u015bci, s\u0105 to przewa\u017cnie ciche filmy bez d\u017awi\u0119ku. Nawet je\u015bli jest d\u017awi\u0119k, zwykle jest on dodawany osobno i nie spe\u0142nia oczekiwa\u0144 u\u017cytkownika.<\/p>\n<p>Na przyk\u0142ad, je\u015bli odwiedzisz stron\u0119 Luma AI Dream Machine, mo\u017cesz zobaczy\u0107 kilka naprawd\u0119 imponuj\u0105cych film\u00f3w, ale d\u017awi\u0119k, kt\u00f3ry im towarzyszy, jest do\u015b\u0107 generyczny i niskiej jako\u015bci. Ale to mo\u017ce si\u0119 zmieni\u0107 dzi\u0119ki nowej technologii wideo-audio (V2A) firmy Google.<\/p>\n<p>Obiecuje to udost\u0119pni\u0107 szerokiej publiczno\u015bci wysokiej jako\u015bci generowanie d\u017awi\u0119ku do film\u00f3w, co oznacza, \u017ce \u200b\u200bmo\u017ce w ko\u0144cu umo\u017cliwi\u0107 produkcj\u0119 film\u00f3w generowanych przez sztuczn\u0105 inteligencj\u0119 z odpowiedni\u0105 \u015bcie\u017ck\u0105 d\u017awi\u0119kow\u0105 i d\u017awi\u0119kiem, przewy\u017cszaj\u0105c wszystkie obecnie produkowane filmy generowane przez sztuczn\u0105 inteligencj\u0119.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>D\u017awi\u0119k generowany przez sztuczn\u0105 inteligencj\u0119 dla<\/span><\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=VYjZlF6m3nQ<\/a><\/p>\n<h2 id=\"what-is-google-deepminds-video-to-audio-research\">Na czym polega badanie Google DeepMind dotycz\u0105ce konwersji wideo na d\u017awi\u0119k?<\/h2>\n<p>Technologia Video-to-Audio (V2A) opracowana przez Google DeepMind zosta\u0142a zaprojektowana do tworzenia \u015bcie\u017cek d\u017awi\u0119kowych do film\u00f3w generowanych przez sztuczn\u0105 inteligencj\u0119. Technologia ta umo\u017cliwia jednoczesne generowanie obrazu i d\u017awi\u0119ku poprzez po\u0142\u0105czenie podpowiedzi w j\u0119zyku naturalnym z pikselami wideo w celu wygenerowania d\u017awi\u0119k\u00f3w niezale\u017cnie od tego, co dzieje si\u0119 w filmie.<\/p>\n<p>Technologi\u0119 t\u0119 mo\u017cna po\u0142\u0105czy\u0107 z modelami AI u\u017cywanymi do generowania film\u00f3w, takimi jak Veo, i mo\u017ce pom\u00f3c w tworzeniu realistycznych dialog\u00f3w i efekt\u00f3w d\u017awi\u0119kowych wraz z dramatyczn\u0105 \u015bcie\u017ck\u0105 d\u017awi\u0119kow\u0105 pasuj\u0105c\u0105 do filmu. Co wa\u017cniejsze, nowa technologia V2A nie ogranicza si\u0119 tylko do film\u00f3w generowanych przy u\u017cyciu sztucznej inteligencji, ale mo\u017ce by\u0107 r\u00f3wnie\u017c wykorzystywana do generowania \u015bcie\u017cek d\u017awi\u0119kowych do film\u00f3w produkowanych w tradycyjny spos\u00f3b. Dzi\u0119ki temu mo\u017cna go u\u017cywa\u0107 do niemych film\u00f3w, materia\u0142\u00f3w archiwalnych i nie tylko.<\/p>\n<p>Technologia V2A pozwala u\u017cytkownikom generowa\u0107 nieograniczon\u0105 liczb\u0119 \u015bcie\u017cek d\u017awi\u0119kowych do film\u00f3w, a nawet u\u017cywa\u0107 pozytywnych i negatywnych podpowiedzi, aby poprowadzi\u0107 proces generowania d\u017awi\u0119ku i \u0142atwo uzyska\u0107 wymagane d\u017awi\u0119ki. Zapewnia to r\u00f3wnie\u017c wi\u0119ksz\u0105 elastyczno\u015b\u0107, dzi\u0119ki czemu mo\u017cna eksperymentowa\u0107 z r\u00f3\u017cnymi wynikami i znale\u017a\u0107 to, co jest najlepsze dla konkretnego filmu.<\/p>\n<figure class=\"wp-block-image\"><figcaption>\n<p><span>Pr\u00f3bka d\u017awi\u0119kowa meduzy pulsuj\u0105cej pod wod\u0105.<\/span> \u0179r\u00f3d\u0142o: Google<\/p>\n<\/figcaption><\/figure>\n<p><a class=\"youtube_link_to_unwrap\" href=\"https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI\" referrerpolicy=\"strict-origin-when-cross-origin\">https:\/\/www.youtube.com\/watch?v=9Q0-t8D9XFI<\/a><\/p>\n<h2 id=\"how-does-the-v2a-technology-work\">Jak dzia\u0142a technologia V2A?<\/h2>\n<p>Wed\u0142ug Google firma eksperymentowa\u0142a z technikami dyfuzyjnymi i autoregresyjnymi i stwierdzi\u0142a, \u017ce \u200b\u200bta pierwsza jest najbardziej odpowiednia do produkcji d\u017awi\u0119ku. Daje bardzo realistyczne d\u017awi\u0119ki i dzia\u0142a poprzez kodowanie wideo do skompresowanego formatu.<\/p>\n<p>Nast\u0119pnie do oddzielenia losowego szumu od wideo wykorzystuje si\u0119 model dyfuzji, opieraj\u0105c si\u0119 na podpowiedziach w j\u0119zyku naturalnym i na obrazie wideo. Monity pomagaj\u0105 wygenerowa\u0107 realistyczny d\u017awi\u0119k, kt\u00f3ry jest doskonale zsynchronizowany z wideo. Nast\u0119pnie nast\u0119puje dekodowanie d\u017awi\u0119ku, po czym jest on konwertowany na fal\u0119 audio i \u0142\u0105czony z wideo.<\/p>\n<p>Narz\u0119dzie DeepMind firmy Google dostarczy\u0142o wi\u0119cej informacji do szkolenia sztucznej inteligencji, dzi\u0119ki kt\u00f3rym u\u017cytkownicy mog\u0105 kierowa\u0107 procesem generowania d\u017awi\u0119ku w kierunku wymaganych d\u017awi\u0119k\u00f3w i umo\u017cliwia platformie wytwarzanie d\u017awi\u0119ku o wy\u017cszej jako\u015bci. Informacje takie obejmowa\u0142y transkrypcje m\u00f3wionych dialog\u00f3w i szczeg\u00f3\u0142owe opisy d\u017awi\u0119k\u00f3w z adnotacjami generowanymi przez sztuczn\u0105 inteligencj\u0119.<\/p>\n<p>Wyszkolona w zakresie takich informacji, technologia V2A mo\u017ce powi\u0105za\u0107 r\u00f3\u017cne sceny wizualne z okre\u015blonymi zdarzeniami d\u017awi\u0119kowymi.<\/p>\n<figure class=\"wp-block-image\"><img alt=\"\" class=\"wp-image\" decoding=\"async\" height=\"605\" loading=\"lazy\" src=\"https:\/\/cdn.howtogeek.blog\/wp-content\/uploads\/2024\/06\/Screenshot-2024-06-20-150052-1.webp\" title=\"\" width=\"1076\"\/><figcaption><span>Dzia\u0142anie technologii V2A.<\/span> \u0179r\u00f3d\u0142o: Google<\/figcaption><\/figure>\n<h2 id=\"whats-on-the-horizon\">Co wida\u0107 na horyzoncie?<\/h2>\n<p>Technologia V2A firmy DeepMind dzia\u0142a znacznie lepiej ni\u017c inne rozwi\u0105zania V2A, poniewa\u017c nie zawsze wymaga monitu tekstowego i potrafi zrozumie\u0107 piksele wideo. Wyj\u015bcie d\u017awi\u0119ku r\u00f3wnie\u017c nie musi by\u0107 r\u0119cznie wyr\u00f3wnane z wideo. Istniej\u0105 jednak pewne ograniczenia technologii, kt\u00f3re Google zamierza przezwyci\u0119\u017cy\u0107 dzi\u0119ki dalszym badaniom.<\/p>\n<p>Na przyk\u0142ad jako\u015b\u0107 generowanego d\u017awi\u0119ku zale\u017cy od jako\u015bci wideo u\u017cytego jako dane wej\u015bciowe. Je\u015bli w wideo wyst\u0119puj\u0105 zniekszta\u0142cenia lub artefakty, model AI nie potrafi ich zrozumie\u0107, poniewa\u017c nie s\u0105 one uwzgl\u0119dnione w jego szkoleniu, co ostatecznie prowadzi do obni\u017cenia jako\u015bci d\u017awi\u0119ku.<\/p>\n<p>Ponadto w przypadku film\u00f3w z ludzk\u0105 mow\u0105 firma pracuje nad popraw\u0105 synchronizacji ust. Technologia V2A pr\u00f3buje generowa\u0107 mow\u0119 przy u\u017cyciu transkrypt\u00f3w wej\u015bciowych, a nast\u0119pnie dopasowuje j\u0105 do ruch\u00f3w ust postaci w filmie. Jednak je\u015bli film nie opiera si\u0119 na transkryptach, wyst\u0119puje niezgodno\u015b\u0107 mi\u0119dzy d\u017awi\u0119kiem a ruchami ust.<\/p>\n<p>Dzi\u0119ki lepszym mo\u017cliwo\u015bciom generowania d\u017awi\u0119ku modele AI b\u0119d\u0105 w stanie generowa\u0107 filmy, kt\u00f3re nie tylko b\u0119d\u0105 wygl\u0105da\u0107 imponuj\u0105co, ale tak\u017ce \u015bwietnie brzmi\u0105. Google integruje tak\u017ce swoj\u0105 technologi\u0119 V2A z SynthID, kt\u00f3ry oznacza znaki wodne wszystkich tre\u015bci generowanych przy u\u017cyciu sztucznej inteligencji. Mo\u017ce to pom\u00f3c zapobiec niew\u0142a\u015bciwemu u\u017cyciu, zapewniaj\u0105c pe\u0142ne bezpiecze\u0144stwo.<\/p>\n<p>Ponadto firma twierdzi, \u017ce dok\u0142adnie przetestuje swoj\u0105 technologi\u0119 V2A przed udost\u0119pnieniem jej publicznie. Jak dot\u0105d, z tego, co Google zaprezentowa\u0142o i obieca\u0142o na przysz\u0142o\u015b\u0107, ta technologia kszta\u0142tuje si\u0119 jako znacz\u0105cy post\u0119p w generowaniu d\u017awi\u0119ku dla film\u00f3w generowanych przez AI.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Kiedy ukaza\u0142 si\u0119 pierwszy film wygenerowany przez sztuczn\u0105 inteligencj\u0119, nikt nie m\u00f3g\u0142 przypuszcza\u0107, \u017ce narz\u0119dzia AI do generowania wideo osi\u0105gn\u0105 tak daleko w tak kr\u00f3tkim czasie. Jednak dzisiaj mamy niezliczone platformy, kt\u00f3re pozwalaj\u0105 u\u017cytkownikom generowa\u0107 wysokiej jako\u015bci, niezwykle szczeg\u00f3\u0142owe filmy, takie jak Dream Machine Synthesia i Luma AI. To powiedziawszy, nadal istnieje kilka wyzwa\u0144, kt\u00f3re [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[182,130],"class_list":["post-2640","post","type-post","status-publish","format-standard","hentry","category-how-to","tag-artificial-intelligence","tag-microsoft"],"acf":[],"_links":{"self":[{"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/posts\/2640","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/comments?post=2640"}],"version-history":[{"count":1,"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/posts\/2640\/revisions"}],"predecessor-version":[{"id":2641,"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/posts\/2640\/revisions\/2641"}],"wp:attachment":[{"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/media?parent=2640"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/categories?post=2640"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/howtogeek.blog\/pl\/wp-json\/wp\/v2\/tags?post=2640"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}