Mindent megváltoztat a szövegből videókat gyártó AI

Az OpenAI bemutatta a Sora-t, szövegből fotórealisztikus videót készítő mesterséges intelligenciát, amely egy izgalmas egyben szürreális jövőt hoz majd el.

OpenAI Sora

Az OpenAI bemutatta a Sorát, egy szöveg-videó mesterséges intelligencia-modellt, amely fotórealisztikus HD videókat tud generálni írott leírásokból.

Bár a kutatás még csak az előzetes szakaszban van, és nem tesztelték le teljeskörűen a modellt, a Sora állítólag a kapott eredmények alapján már most felülmúlja a meglévő szöveg-videó modelleket mind élethűségben, mind pedig konzisztenciában. 60 másodperces videókat is készít, amelyek szinte teljes egészében megkülönböztethetetlenek a valódi felvételektől. A technológia, nem meglepő módon, sokakból azonnal aggodalmat váltott ki. Hiszen ha megkülönböztethetetlenek a felvételek a valóságtól, akkor teljesen hamis videók széles körben terjedhetnek el pillanatok alatt. Ez pedig további kérdéseket vet fel az online tartalmakba vetett bizalommal kapcsolatban.

A fejlesztés megkérdőjelezi azt a hagyományos felfogást, hogy a fotórealisztikus videókat kamerák rögzítik. A Sora tulajdonképpen elmossa a határt az igazság és a fikció között. Az a könnyedség, amellyel a Sora a valósághű videókat készíti, komoly veszélyt jelenthet az online tartalmak, és a történelmi felvételek hitelességére nézve.

A kulturális szingularitás koncepciója, ahol az igazság és a fikció megkülönböztethetetlenné válik, közelebb van, mint azt eddig brámikor gondoltuk.

Így működik a Sora

A Sora egy úgynevezett diffúziós modellt használ, hasonlóan más AI modellekhez. Ezt használja például a DALL-E 3 és a Stable Diffusion is. Videókat generál a zaj fokozatos átalakításával, felismeri a tárgyakat és fogalmakat a megadott utasításokból. A modell úgy éri el az időbeli konzisztenciát, hogy egyszerre több képkockát is előre lát, és ez biztosítja a folytonosságot akkor is, ha a téma átmenetileg eltűnik a látómezőből. Az OpenAI a videókat adatfoltok gyűjteményeként jeleníti meg, lehetővé téve, hogy a diffúziós transzformátorokat különféle vizuális adatokra tanítsák, beleértve az időtartamokat, felbontásokat és képarányokat is.

Az OpenAI megközelítésének kulcsfontosságú eleme a mesterséges intelligencia modellek kombinált használata a korábbi modellekkel. A Sora hatékonyan követi az utasításokat, köszönhetően egy másik mesterséges intelligencia-modell, például a GPT-4V által generált szövegeknek. Az OpenAI a Sorát olyan modellek alapjaként képzeli el, amelyek képesek megérteni és szimulálni a valós világot, ami döntő lépés az általános mesterséges intelligencia (AGI) elérése felé.

Sokan aggódnak az AI miatt

A technikai fejlődés ellenére továbbra is fennáll az aggodalom a technológiával való esetleges visszaélések miatt. Az OpenAI nem hozta nyilvánosságra a Sora képzéséhez használt konkrét adatkészletet, ami azt feltételezi, hogy egy videojáték-motorból származó szintetikus videoadatokat és valódi videóforrásokat is alkalmazhattak. Miközben a társadalom küzd a mesterséges intelligencia által generált tartalom következményeivel, továbbra is jelentős etikai és bizalmi aggályok merülnek fel a felelősség kérdésében is.

Miközben rácsodálkozunk az OpenAI úttörő fejlesztésére, kulcsfontosságú látni a másik oldalt is. Ez a technológia megkérdőjelezi a vizuális tartalomba vetett bizalmunk alapjait. A Sora azon képessége, hogy hiperrealisztikus videókat készít pár soros szövegből, a tények és a fikció közötti határt teljesen elsöpri. Egy olyan világban, ahol nem mindig hihetünk annak, amit látunk a megkülönböztetés válik a legfontosabbá.