Randiappból adatbázis: így tanul az AI a fotóidból

Cikk meghallgatása

00:00 00:00

Nagyjából hárommillió randiapp-fotó került be mesterségesintelligencia-rendszerek tanításába úgy, hogy az érintettek erről mit sem tudtak. Az amerikai fogyasztóvédelmi hatóság, a Federal Trade Commission (FTC) megállapítása szerint a Match Group tulajdonában álló OkCupid még 2014 körül közel hárommillió felhasználói fotót, valamint demográfiai és helyadatokat adott át a Clarifai nevű vállalatnak. A képeket arcfelismerési és más gépi tanulási modellek fejlesztésére használták fel. Bár az ügyet lezártnak tekintik, az átláthatatlan adatátadás az AI-fejlesztésben is komoly jogsértésnek számíthat.

Egy „ártatlan” együttműködés háttere

A történet egy viszonylag egyszerű ötlettel indult. A Clarifai alapítója, Matthew Zeiler 2014-ben felvetette Maxwell Krohn számára, hogy az OkCupid profilképei ideális alapot jelenthetnének arcfelismerő rendszerek fejlesztéséhez. Innen azonban gyorsan olyan irányt vett a dolog, amely ma már problémásnak számít, ugyanis a képek és a hozzájuk kapcsolódó adatok lényegében formális megállapodás és felhasználói tájékoztatás nélkül kerültek át a másik céghez.

Ez azért különösen érzékeny pont, mert a platform adatvédelmi tájékoztatója azt ígérte, hogy személyes adatokat nem adnak át nem releváns harmadik feleknek. A hatóság szerint ez a gyakorlat félrevezető volt, vagyis klasszikus félrevezetés esete, hiszen a felhasználók mást hittek, mint ami valójában történt az adataikkal.

Nem hackertámadás, hanem rendszerszintű probléma

Az ügy jelentőségét az adja, hogy nem külső támadásról vagy adatlopásról van szó. Az adatokhoz legálisan hozzáférő rendszer szereplői használták fel azokat olyan módon, amelyről a felhasználók nem tudtak. Itt nem a védelem tört meg, hanem a bizalom.

A Clarifai az így megszerzett képeket olyan modellek tanítására használta, amelyek képesek voltak különböző jellemzők, mint az életkor, nem vagy akár etnikai jegyek becslésére, sőt a környezet kategorizálására is. A személyes fotók így lényegében tananyaggá váltak a gépek számára. Ez a jelenség ma már messze nem csak a társkeresőket érinti, bármely platform hordozhat hasonló kockázatokat, ahol a felhasználók képeket és adatokat töltenek fel.

Mit jelent mindez a gyakorlatban?

Az arcfelismerésen alapuló AI-rendszerek működésének kulcsa a tanítóadat. Minél több és pontosabban címkézett kép áll rendelkezésre, annál hatékonyabb a modell. A randiappok ebből a szempontból különösen értékesek, mivel a felhasználók saját maguk adják meg az alapadatokat, így a képekhez automatikusan társul egyfajta leírás is.

Ez azonban komoly dilemmát vet fel. Ami az egyik oldalon hatékony és költségtakarékos adatforrás, az a másikon a magánélet határát súrolja. A felhasználók többsége nem azért tölt fel képeket, hogy azok egy AI-rendszer tananyagává váljanak, hanem hogy kapcsolatokat építsen.

Üzleti érdekek és személyes adatok

A történet egy másik tanulsága az üzleti kapcsolatok szerepe. Amikor egy platform belső vagy befektetői körhöz köthető partnerekkel oszt meg adatokat, az további kockázatokat vet fel. Ilyenkor ugyanis nem egy külső, átlátható partner jelenik meg, hanem egy összefonódott érdekcsoport, ahol nehezebb tisztán látni, ki és milyen céllal használja az adatokat.

A felhasználók szempontjából ez azt jelenti, hogy az adatvédelem nem csupán technikai kérdés, hanem bizalmi és szabályozási is. Átlátható működés és egyértelmű szabályok nélkül könnyen elmosódnak a határok.

Mit mondanak a hatóságok?

Az FTC döntése több szempontból is iránymutató. Egyrészt világossá teszi, hogy nem csak az adatszivárgások számítanak problémának, hanem az is, ha az adatokat nem megfelelően kommunikált módon használják fel, különösen AI-fejlesztésre. A felhasználói beleegyezés és a világos tájékoztatás alapelvárássá vált.

Az ügy lezárásaként a Match Group kötelezettséget vállalt arra, hogy hosszú távon elkerüli a félrevezető adatkezelést, míg a Clarifai törölte a megszerzett adatokat és az ezekből készült modellt is. Ez azonban csak részben jelent megoldást, ami egyszer bekerült egy rendszerbe, annak hatása sokszor nem visszafordítható teljes mértékben.

Európai nézőpont: szigorodó szabályok

Európában az adatvédelem szigorúbb keretek között működik, elsősorban a General Data Protection Regulation (GDPR) miatt. Az ilyen típusú, csendben végrehajtott adatátadások egyre kevésbé férnek bele a jogi környezetbe.

A vita azonban messze nem zárult le. A személyes adatok értéke folyamatosan nő, miközben a technológia egyre több lehetőséget teremt azok újrafelhasználására. A kérdés továbbra is az, hogy hol húzódik az a határ, ahol az innováció már a magánélet rovására megy.

Jelen írás nem minősül befektetési tanácsadásnak. Részletes jogi információ