Az OpenAI új modellel reagált a személyes adatok kezelésének aggályaira

Cikk meghallgatása

00:00 00:00

A ChatGPT mögött álló OpenAI bemutatta a Privacy Filter nevű, speciális, nyílt forráskódú modelljét, amelyet arra terveztek, hogy felismerje és kitakarja a személyazonosításra alkalmas információkat (PII), még mielőtt azok felhőalapú szerverekhez kerülnének. Az április 22-én bemutatott eszköz az AI-kódmegosztó közösségben, a Hugging Face-en jelent meg egy megengedő Apache 2.0 licensz alatt. A megoldás arra az egyre sürgetőbb problémára akar választ adni, amelyben az érzékeny adatok kiszivárognak a tanítóadat-készletekbe, vagy nagy áteresztőképességű feldolgozás során kerülnek nyilvánosságra.

Azzal, hogy a vállalat elérhetővé tesz egy 1,5 milliárd paraméteres modellt, amely egy normál laptopon vagy közvetlenül egy webböngészőben is futtatható, a cég állítása szerint a fejlesztők kezébe gyakorlatilag egy beépített adatvédelmi eszközkészletet ad, amely olyan, mintha egy kontextustudatos digitális iratmegsemmisítő lenne.

A Privacy Filter kicsi, de erős és orvosolni próbálja az egyik legnagyobb vállalati AI-problémát

Bár az óriási adatközpontokban is együttműködő OpenAI-t kezdetben nyílt forráskódú modellek fejlesztésére alapították, a vállalat a ChatGPT korszakában áttért a kizárólag a weboldalán, alkalmazásain és API-ján keresztül elérhető, zárt forráskódú modellekre. Ezután viszont 2025-ben nagy erőkkel visszatért a nyílt forráskódhoz a gpt-oss nyelvmodellek bevezetésével. Architektúrálisan a Privacy Filter az OpenAI gpt-oss családjának egy származéka, amely az idén korábban kiadott nyílt súlyozású érvelési modellek sorozata. Azonban míg a szokásos nagy nyelvi modellek (LLM-ek) jellemzően autoregresszívek — azaz a sorozat következő tokenjét jósolják meg —, a Privacy Filter egy kétirányú tokenkiosztó. Ez a különbség kritikus fontosságú a pontosság szempontjából.

Azzal, hogy egy mondatot egyszerre vizsgál mindkét irányból, a modell mélyebb kontextusmegértésre tesz szert, amelyet egy csak előre tekintő modell esetleg elmulasztana. Például jobban meg tudja különböztetni, hogy egy név egy magánszemélyre vagy egy ismert irodalmi szereplőre utal-e, a névutáni szavak alapján — nem csupán az azt megelőzők alapján. Bár a modell összesen 1,5 milliárd paramétert tartalmaz, egyetlen előre menetben csupán 50 millió paraméter aktív. Ez a ritka aktiváció magas áteresztőképességet tesz lehetővé az LLM-ekre jellemzően hatalmas számítási terhelés nélkül. Továbbá egy 128 000 tokenes kontextusablakkal rendelkezik, amely lehetővé teszi, hogy teljes jogi dokumentumokat vagy hosszú e-mail-láncokat egyetlen menetben dolgozzon fel, anélkül hogy szövegdarabolásra lenne szükség — ez ugyanis egy olyan folyamat, amely a hagyományos PII-szűrőknél gyakran okozza az oldalváltásoknál az entitások nyomvesztését.

A modell nem külön-külön dönt minden egyes szóról, hanem egyben vizsgálja az egész mondatot, hogy a címkézés logikus és következetes maradjon. Ehhez egy BIOES nevű jelölési rendszert használ (Begin – kezdet, Inside – belső, Outside – külső, End – vég, Single – önálló). Ez a rendszer biztosítja például, hogy ha a modell felismeri, hogy a John egy név kezdete, akkor nagy valószínűséggel a Smith-et ugyanennek a névnek a folytatásaként vagy lezárásaként fogja megjelölni, és nem egy teljesen különálló entitásként. A Privacy Filter nagy áteresztőképességű munkafolyamatokhoz készült és jelenleg nyolc elsődleges PII-kategória felismerését támogatja, mint nevek, kapcsolattartási adatok, digitális azonosítók vagy kulcsok és jelszavak. Ezzel az OpenAI megpróbálja magát még vonzóbbá tenni a cégek számára, amelyek eddig a szenzitív adataik kezelése miatt nem akarták használni a termékeket. Az adatok helyi maszkolásával, mielőtt azokat egy erőteljesebb érvelési modellnek (például GPT-5-nek vagy gpt-oss-120b-nek) küldenék el, a vállalatok fenntarthatják a szigorú GDPR- vagy HIPAA-szabványoknak való megfelelést, miközben a legújabb mesterséges intelligencia képességeket is kihasználják.

A fejlesztők számára a modell a Hugging Face-en keresztül érhető el, natív transformers.js támogatással, amely lehetővé teszi, hogy teljes egészében a felhasználó böngészőjében fusson WebGPU segítségével. Mivel Apache 2.0 liszensszel fut, így gyakorlatilag a cégek úgy integrálhatják a Privacy Filtert saját, szabadalmaztatott termékeikbe, hogy jogdíj fizetése nélkül értékesíthetik azokat. A vállalatok aggályainak orvoslása mellett látható az az irány is, hogy a piac elfordul a kisméretű, de erős modellek irányába. Miközben a világ a hatalmas, 100 billió paraméteres óriásokra összpontosított, a vállalati mesterséges intelligencia gyakorlati valósága gyakran kis, gyors modelleket követel meg, amelyek egyetlen feladatot — mint például az adatvédelmi szűrést — kivételesen jól és alacsony költséggel tudnak elvégezni. Ettől függetlenül az openAI most is csak segédként hivatkozik az eszközre és semmilyen formában nem javasolja az erre való túlzott támaszkodást.

Jelen írás nem minősül befektetési tanácsadásnak. Részletes jogi információ