Az OpenAI legújabb megoldása elképesztő miket tud

A Sora, az OpenAI legújabb mesterséges intelligencia alapú videógeneráló eszköze annyira valóságos, hogy lenyűgözte a közösségi média felhasználóit. Azonban még nem áll teljesen készen a nyilvános kiadásra.

A mesterséges intelligenciával (AI) foglalkozó OpenAI cég csütörtökön mutatta be nagy visszhangot kiváltó első, szövegből videót készítő modelljét. A cég ugyanakkor elismeri, hogy a modellnek még van hova fejlődnie.

Az OpenAI február 15-én mutatta be a Sora névre keresztelt új generatív AI-modelljét, amely képes egyszerű szöveges utasításokból részletes videókat készíteni, meglévő videókat folytatni, sőt, akár állóképek alapján jeleneteket generálni.

Egy február 15-i blogbejegyzés szerint az OpenAI azt állítja, hogy az AI modell képes akár 1080p felbontásban is filmszerű jeleneteket generálni. Ezek a jelenetek több szereplőt, meghatározott típusú mozgásokat, valamint a téma és a háttér pontos részleteit tartalmazhatják.

Hogyan működik a Sora?

A Dall-E 3-hoz, az OpenAI képalapú elődjéhez hasonlóan a Sora is az úgynevezett diffúziós modell alapján működik.

A diffúzió arra utal, hogy egy generatív mesterséges intelligencia modell úgy hozza létre a kimenetét, hogy egy videót vagy képet generál valamivel, ami inkább “statikus zajnak” tűnik, majd a “zaj eltávolításával” fokozatosan átalakítja azt több lépésben.

Az AI cég azt írta, hogy a Sora a ChatGPT és a Dall-E 3 modellek korábbi kutatásaira épül, ami a cég állítása szerint, a felhasználói inputok valóságosabb megjelenítésében jobbá teszi a modellt.

Az OpenAI elismerte, hogy a Sora még mindig számos gyengeséget tartalmaz. Nehezen tudta ugyanis pontosan szimulálni egy összetett jelenet fizikáját, nevezetesen az ok és okozat természetének összekeverésével.

Előfordulhat például, hogy valaki beleharap egy sütibe, de nem biztos, hogy utána van a sütin harapásnyom.

A cég szerint az új eszköz összezavarhatja egy adott parancs “térbeli részleteit” is azáltal, hogy összekeveri a bal és a jobb oldalt, vagy nem követi az irányok pontos leírását.

A Sora képes véletlenül fizikailag valószínűtlen mozgást generálni. Forrás: OpenAI

Az OpenAI szerint az új generatív modell egyelőre csak szűk kör számára érhető el. Ilyenek a vörös csapatosok (tech kifejezés a kiberbiztonsági kutatók elnevezésére). Az ő feladatuk, hogy felmérjék a károk vagy kockázatok szempontjából kritikus területeket. Rajtuk kívül kiválasztott tervezők, vizuális művészek és filmkészítők kaptak hozzáférést, akiktől visszajelzéseket gyűjtenek a modell fejlesztésével kapcsolatban.

2023 decemberében a Stanford Egyetem jelentése feltárta, hogy a Laion mesterséges intelligencia-adatbázist használó, mesterséges intelligenciával működő képgeneráló eszközöket illegális gyermekbántalmazási anyagok képeinek ezrein fejlesztették. Ez természetesen komoly etikai és jogi aggályokat vet fel a szöveg-kép vagy videó modellek esetében.

Az X felhasználói szóhoz sem jutottak

Több tucatnyi demó videó kering az X-en a Sora működéséről, miközben a Sora nagyot megy az X-en, jelenleg több mint 173 000 hozzászólással.

Sam Altman, az OpenAI vezérigazgatója, a felhasználók egyéni videó-generálási kéréseire összesen hét Sora által generált videót osztott meg. A sárkányhátú kacsától a hegytetőn podcastot rögzítő golden retrieverekig, annak érdekében hogy megmutassa mire képes az új generatív modell az X-en.

Mckay Wrigley, AI szakértő- sokakkal együtt – azt nyilatkozta, hogy a Sora által készített videó láttán szóhoz sem jutott.

Az Nvidia vezető kutatója, Jim Fan egy február 15-i X-en írt bejegyzésében kijelentette, hogy aki azt hiszi, hogy a Sora csak egy újabb “kreatív játék”, mint a Dall-E 3, az nagyot téved.

Fan szerint a Sora inkább egy “adatvezérelt fizikamotor”, mint egy videógeneráló eszköz. Hiszen a mesterséges intelligencia modellje nem csak absztrakt videót generál, hanem determinisztikusan létrehozza a jelenetben lévő objektumok fizikai valóját is.