Hogyan működött valójában a Cambridge Analytica Facebook célzási modelljeMennyire lehet pontosan profilozni az interneten? Andrew Krasovitckii/Shutterstock.com

A kutató, akinek munkája áll a középpontban Facebook-Cambridge Analytica adatelemzés és politikai reklámfelhajtás elárulta, hogy módszere hasonlóan működik, mint az előző A Netflix filmeket ajánl.

A Cambridge -i Egyetem tudósa, Aleksandr Kogan egy nekem küldött e -mailben elmagyarázta, hogyan dolgozta fel statisztikai modellje a Facebook adatait a Cambridge Analytica számára. A pontosság azt állítja, hogy körülbelül ugyanúgy működik a választópolgárok célzási módszereit olyan demográfiai adatok alapján, mint a faj, az életkor és a nem.

Ha megerősítést nyernek, Kogan beszámolója azt jelentené, hogy a Cambridge Analytica digitális modellezést használta aligha a virtuális kristálygömb páran azt állították. Pedig a számokat Kogan adja azt is mutatják mi - és mi nem - valójában lehetséges by személyes adatok egyesítése gépi tanulással politikai célok érdekében.

Ami az egyik legfontosabb nyilvános aggodalmat illeti, Kogan számai azt sugallják, hogy a felhasználók személyiségére vagypszichográfia”Csak szerény része volt annak, ahogy a modell a polgárokat célozta meg. Szigorúan véve nem személyiségmodell volt, hanem inkább olyan, amely a demográfiai adatokat, a társadalmi hatásokat, a személyiséget és minden mást nagy korrelációs gombbá forralt. Úgy tűnik, hogy ez az összeszedett-korreláció-és hívja fel-személyiség megközelítés értékes kampányeszközt hozott létre, még akkor is, ha az eladott termék nem volt olyan, mint amilyennek számlázták.


belső feliratkozási grafika


A személyiségcélzás ígérete

A Cambridge Analytica által használt Trump -kampánytanácsadók felfedései nyomán 50 millió Facebook -felhasználó adatai hogy a digitális politikai hirdetéseket célozza meg a 2016 -os amerikai elnökválasztás során, a Facebook rendelkezik milliárd dollárt veszített tőzsdei értékéből, kormányok tovább mindkét oldalán az Atlanti-óceán ajánlatunkra vizsgálatokat indított, és egy születőben lévő szociális mozgalom felszólítja a felhasználókat #DeleteFacebook.

Egy kulcskérdés azonban megválaszolatlan maradt: vajon a Cambridge Analytica valóban képes volt -e hatékonyan megcélozni a kampányüzeneteket a polgároknak személyiségjellemzőik - vagy akár „belső démonok”, Ahogy egy cég bejelentője állította?

Ha valaki tudná, mit csinált a Cambridge Analytica a Facebook -adataival, Aleksandr Kogan és Joseph Chancellor lenne az. Ez volt induló Global Science Research ahonnan profiladatokat gyűjtött 270,000 XNUMX Facebook -felhasználó és tízmillió barátjuk „thisisyourdigitallife” nevű személyiségteszt alkalmazással.

Része saját kutatásom a megértésre összpontosít gépi tanulás módszerek, és készülő könyvem azt tárgyalja, hogy a digitális cégek hogyan használnak ajánlási modelleket közönségszerzéshez. Sejtettem, hogyan működik Kogan és a kancellár modellje.

Szóval e -mailt küldtem Kogannak, hogy kérdezzek. Kogan még mindig a a Cambridge Egyetem kutatója; munkatársa A kancellár most a Facebookon dolgozik. Az akadémiai udvariasság figyelemre méltó megjelenésében Kogan válaszolt.

A válasza némi kicsomagolást és némi hátteret igényel.

A Netflix -díjtól a „pszichometriáig”

Még 2006-ban, amikor még DVD-mail postacég volt, a Netflix felajánlotta a jutalom 1 millió dollár mindenkinek, aki kifejlesztett egy jobb módot arra, hogy előrejelzéseket készítsen a felhasználók filmlistáiról, mint a vállalat. A meglepetés legjobb versenyzője egy független szoftverfejlesztő, Simon Funk álnévvel, amelynek alapvető megközelítését végül beépítették a legjobb csapatok nevezéseibe. Funk adaptálta a „szinguláris érték felbontás, ”A felhasználók filmértékeléseit sűrítve a tényezők vagy összetevők sora - lényegében következtetett kategóriák halmaza, fontosság szerint rangsorolva. Ahogy Funk magyarázta egy blogbejegyzésben,

„Tehát például egy kategória akciófilmeket képviselhet, a filmek sok akcióval a tetején, a lassú filmek alul, és ennek megfelelően a felhasználók, akik szeretik az akciófilmeket a tetején, és azok, akik a lassú filmeket részesítik előnyben alsó."

A tényezők mesterséges kategóriák, amelyek nem mindig olyanok, mint az emberek. Az Funk korai Netflix modelljének legfontosabb tényezője olyan felhasználók határozták meg, akik szerették az olyan filmeket, mint a „Pearl Harbor” és az „Esküvői tervező”, miközben utálták az olyan filmeket is, mint a „Lost in Translation” vagy „Eternal Sunshine of the Spotless Mind”. Modellje megmutatta, hogy a gépi tanulás hogyan találhat összefüggéseket olyan embercsoportok és filmcsoportok között, amelyeket maguk az emberek soha nem észlelnének.

A Funk általános megközelítése az 50 vagy 100 legfontosabb tényezőt használta a felhasználók és a filmek szempontjából is, hogy tisztességesen kitalálja, hogyan értékelné minden felhasználó az egyes filmeket. Ezt a módszert gyakran hívják dimenziócsökkentés vagy mátrix faktorizálás, nem volt új. A politológusok ezt bizonyították hasonló technikák név szerinti szavazási adatok felhasználásával 90 százalékos pontossággal tudta megjósolni a kongresszus tagjainak szavazatát. A pszichológiában az "Nagy öt”Modellt a viselkedés előrejelzésére is használták azáltal, hogy a személyiség kérdéseit csoportosították, amelyekre általában hasonló választ kaptak.

Ennek ellenére a Funk modellje nagy előrelépés volt: lehetővé tette, hogy a technika jól működjön hatalmas adathalmazokkal, még azoknál is, amelyek sok hiányzó adatot tartalmaznak - például a Netflix adatkészletet, ahol egy tipikus felhasználó csak néhány tucat filmet értékelt a vállalat ezreiből könyvtár. Több mint egy évtizeddel a Netflix díjátadó vége után, SVD-alapú módszerekvagy kapcsolódó modellek az implicit adatokhoz, továbbra is számos webhely választott eszköze annak előrejelzésére, hogy a felhasználók mit fognak olvasni, nézni vagy vásárolni.

Ezek a modellek más dolgokat is megjósolhatnak.

A Facebook tudja, hogy republikánus -e

2013 -ban a Cambridge -i Egyetem kutatói, Michal Kosinski, David Stillwell és Thore Graepel közzétettek egy cikket a a Facebook -adatok előrejelző ereje, online személyiségteszt segítségével gyűjtött információk felhasználásával. Kezdeti elemzésük majdnem megegyezett a Netflix -díjjal, az SVD segítségével a felhasználókat és a nekik tetsző dolgokat is a legjobb 100 tényező közé sorolták.

A cikk kimutatta, hogy a felhasználók Facebook -lájkjaival készített faktormodell az 95 százalékos pontossággal a fekete -fehér válaszadók megkülönböztetésében, 93 százalékban pontosan megkülönbözteti a férfiakat a nőktől, és 88 százalékban pontosan megkülönbözteti a homoszexuálisnak minősülő embereket az egyenesnek vallott férfiaktól. Az esetek 85 százalékában akár helyesen is meg tudná különböztetni a republikánusokat a demokratáktól. Ez is hasznos volt, bár nem annyira pontos a felhasználók pontszámának előrejelzése a „Big Five” személyiségtesztjén.

<p></p> közfelháborodást válaszul; heteken belül volt a Facebookon priváttá tette a felhasználók lájkjait alapértelmezés szerint.

Kogan és Chancellor, akik akkoriban szintén a Cambridge -i Egyetem kutatói, a Cambridge Analytica SCL anyavállalatával való együttműködés részeként kezdték használni a Facebook adatait a választási célzáshoz. Kogan meghívta Kosinskit és Stillwellt, hogy csatlakozzanak a projektjéhez, de ez sikerült nem sikerült. Kosinski állítólag Kogannak és a kancellárnak is gyanította visszafordította a Facebook „tetszik” modelljét a Cambridge Analytica számára. Kogan tagadta ezt, mondván, hogy a projektje „minden modellünket felépítette a saját szoftvereink segítségével gyűjtött adataink felhasználásával. ”

Mit tett valójában Kogan és a kancellár?

Ahogy nyomon követtem a történet fejleményeit, világossá vált, hogy Kogan és a kancellár valóban rengeteg saját adatot gyűjtött össze ezen a digitális internetes alkalmazáson keresztül. Minden bizonnyal felépíthettek volna egy olyan prediktív SVD modellt, mint amilyen Kosinski és Stillwell publikált kutatásában szerepel.

Ezért e -mailt küldtem Kogannek, hogy megkérdezzem, vajon ezt tette -e. Némi meglepetésemre visszaírt.

„Nem pontosan az SVD -t használtuk” - írta, megjegyezve, hogy az SVD küzdhet, ha egyes felhasználóknak sokkal több „lájkja” van, mint másoknak. Ehelyett Kogan elmagyarázta: „Ezt a technikát mi magunk fejlesztettük ki… Ez nem valami közkincs.” Anélkül, hogy részletekbe bocsátkozna, Kogan a módszerüket „többlépcsősnek” minősítette együttes előfordulása megközelítés."

Üzenete azonban megerősítette, hogy megközelítése valóban hasonlít az SVD-hez vagy más mátrixfaktorizációs módszerekhez, például a Netflix-díjkiosztáshoz és a Kosinki-Stillwell-Graepel Facebook-modellhez. A Facebook -adatok méretének csökkentése volt a modellje.

Mennyire volt pontos?

Kogan azt javasolta, hogy a pontosan használt modell nem sokat számít - a lényeg az előrejelzések pontossága. Kogan szerint „a korreláció az előrejelzett és a tényleges pontszámok között [30 százalék] körül volt minden személyiségdimenzióban”. Összehasonlításképpen: egy személy korábbi Big Five pontszámai kb 70-80 százalékos pontossággal a pontszámok előrejelzésében, amikor újra elvégzik a tesztet.

Kogan pontossági állításait természetesen nem lehet függetlenül ellenőrizni. És bárki egy ilyen nagy horderejű botrány közepette ösztönzést kaphat arra, hogy alábecsüli a hozzájárulását. Az övéiben megjelenés a CNN -en, Kogan elmagyarázta az egyre hitetlenebb Anderson Coopernek, hogy valójában a modellek valójában nem működtek túl jól.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan válaszol a kérdésekre a CNN -en.

Valójában a pontosság, amit Kogan állít, kissé alacsonynak tűnik, de hihetőnek tűnik. Kosinski, Stillwell és Graepel összehasonlítható vagy valamivel jobb eredményekről számoltak be, akárcsak több egyéb akadémiai tanulmányok digitális lábnyomok segítségével előre jelezni a személyiséget (bár e tanulmányok némelyike ​​több adatot tartalmazott, mint a Facebook „kedvelései”). Meglepő, hogy Kogan és a kancellár a saját modelljének megtervezésével bajlódna, ha a polcon kívüli megoldások ugyanolyan pontosnak tűnnek.

Fontos azonban, hogy a modell személyiségpontszám -pontossága lehetővé teszi Kogan eredményeinek összehasonlítását más kutatásokkal. A közzétett modellek, amelyek azonos pontosságúak a személyiség előrejelzésében, mind sokkal pontosabbak a demográfiai és politikai változók találgatásában.

Például a hasonló Kosinski-Stillwell-Graepel SVD modell 85 százalékos pontossággal találgatta a pártok hovatartozását, még akkor is, ha a lájkokon kívül semmilyen egyéb profiladatot nem használt. Kogan modellje hasonló vagy jobb pontossággal rendelkezett. Ha csak kis mennyiségű információt is hozzáad a barátokról vagy a felhasználók demográfiai adatairól, akkor valószínűleg 90 százalék fölé növelné ezt a pontosságot. A nemre, fajra, szexuális irányultságra és más jellemzőkre vonatkozó találgatások valószínűleg több mint 90 százalékos pontosságúak lennének.

Kritikailag ezek a találgatások különösen a legaktívabb Facebook -felhasználók számára lennének jóak - azok az emberek, akiket elsősorban a modell célzott. Azok a felhasználók, akik kevesebb tevékenységet végeznek elemzésre, valószínűleg amúgy sem nagyon vannak a Facebookon.

Amikor a pszichográfia többnyire demográfia

A modell felépítésének ismerete segít megmagyarázni a Cambridge Analytica látszólag ellentmondó állításait szerepe - vagy annak hiánya - hogy a személyiségprofilozás és a pszichográfia játszott a modellezésében. Technikailag mind összhangban vannak Kogan leírásával.

Egy olyan modell, mint a Kogan, becslést adna minden felhasználó számára elérhető változóról. Ez azt jelenti, hogy automatikusan becsülje meg az Öt nagy személyiség pontszámot minden szavazóra. De ezek a személyiségpontszámok a modell kimenetei, nem pedig a bemenet. A modell annyit tud, hogy bizonyos Facebook -kedvelők és bizonyos felhasználók általában csoportosulnak.

Ezzel a modellel a Cambridge Analytica azt mondhatná, hogy olyan embereket azonosít, akiknek alacsony a nyitottsága a tapasztalatokra és magas a neurotizmus. De ugyanaz a modell, minden felhasználó esetében pontosan ugyanazokkal a jóslatokkal, ugyanolyan pontosan állíthatná, hogy kevésbé képzett idősebb republikánus férfiakat azonosít.

Kogan információi segítenek tisztázni azt a zavart is, hogy a Cambridge Analytica valójában törölte a tárházát a Facebook -adatokból, ha az adatokból épülő modellek úgy tűnik, még mindig kering, És még tovább fejlesztik.

A beszélgetésA dimenziócsökkentési modell lényege, hogy az adatokat matematikailag egyszerűbb formában ábrázoljuk. Mintha a Cambridge Analytica nagyon nagy felbontású fényképet készített volna, átméretezte kisebbre, majd törölte az eredetit. A fotó még mindig létezik - és amíg a Cambridge Analytica modelljei léteznek, az adatok is ténylegesen léteznek.

A szerzőről

Matthew Hindman, a média és a közügyek docense, George Washington Egyetem

Ezt a cikket eredetileg közzétették A beszélgetés. Olvassa el a eredeti cikk.

Kapcsolódó könyvek

at InnerSelf Market és Amazon