Zopakuje Fediverse úspěch Cambridge Analytica?

Fediverse a jiné decentralizované sítě s protokolem ActivityPub usnadňují analýzu příspěvků za účelem vytvoření psychologických profilů uživatelů a cílení politických témat. Umožňují to veřejné příspěvky, které mohou být sbírány a analyzovány pomocí robotů.

Po skandálu s Cambridge Analytica zpřísnil Facebook svá pravidla a API. Omezil přístup aplikací k datům přátel uživatelů, ukazuje uživatelům, kdo přistupuje k jejich datům, hromadnou analýzu příspěvků umožnil jen některým vědeckým pracovníkům (nakonec ji zrušil úplně, protože se bojí toho, co se bude dít před prezidentskými volby USA 2024) a zavedl automatizované nástroje pro detekci a blokování podezřelých aktivit.

Ne, že bych zde chtěl Facebook nějak chválit. A ne, že bych věřil, že to všechno funguje ve prospěch uživatelů. Spíš bych chtěl poukázat na to, že pokud Threads, připojené do Fediverse, nasbírá dostatečně velkou uživatelskou základnu, bude vytváření psychologických profilů opět snadnější a Meta bude mít na celé téma snadnou odpověď: „Způsob fungování protokolu ActivityPub nám neumožňuje zamezit hromadnému sběru dat. Uživatelé a administrátoři jednotlivých instancí by měli být informováni o rizicích a aktivně chránit své soukromí pomocí dostupných nástrojů a nastavení.“ Nebo něco na tento způsob.

O co šlo v kauze Cambridge Analytica?

Cambridge Analytica byla Britská politická poradenská firma, která se specializovala na analýzu dat a strategickou komunikaci pro volební kampaně.

Cambridge Analytica nelegálně získala osobní údaje až 87 milionů uživatelů Facebooku prostřednictvím aplikace s názvem „This Is Your Digital Life“. Aplikace shromažďovala údaje nejen od uživatelů, kteří ji používali, ale také od jejich přátel na Facebooku, což vedlo k masivnímu sběru dat.

Shromážděná data byla použita k vytvoření psychologických profilů voličů. Tyto profily pak byly využity k cílené politické reklamě a k ovlivňování veřejného mínění během různých volebních kampaní, včetně prezidentských voleb v USA v roce 2016 a referenda o brexitu ve Velké Británii.

Skandál byl odhalen bývalým zaměstnancem Cambridge Analytica Christopherem Wylie, který promluvil o praktikách firmy. Toto odhalení vedlo k obrovskému pobouření veřejnosti, právním vyšetřováním a zásahům regulátorů. Facebook čelil značné kritice za to, že neochránil data svých uživatelů a musel zaplatit pokuty a čelit přísnějším regulacím.

Skandál měl dalekosáhlé důsledky pro ochranu osobních údajů a soukromí na internetu. Zvýšil povědomí o rizicích spojených se sdílením osobních údajů na sociálních sítích a vedl k přijetí přísnějších zákonů na ochranu osobních údajů, jako je například GDPR (Obecné nařízení o ochraně osobních údajů) v Evropské unii.

Jak fungovala aplikace „This Is Your Digital Life“?

Aplikace se prezentovala jako psychologický test a uživatelé, kteří ji používali, museli udělit souhlas s přístupem k jejich osobním údajům na Facebooku.

Tato aplikace nejenže sbírala data o uživatelích, kteří ji používali, ale také měla přístup k datům jejich přátel na Facebooku. To znamená, že pokud jeden uživatel povolil aplikaci přístup, Cambridge Analytica mohla získat informace i o všech jeho přátelích, aniž by s tím tito přátelé souhlasili nebo o tom věděli.

V té době měl Facebook API, které umožňovalo vývojářům aplikací přístup k velkému množství osobních údajů uživatelů. API poskytovalo přístup nejen k veřejným informacím, ale i k soukromým datům, jako jsou lajky, přátelé, příspěvky a další interakce na Facebooku.

Před rokem 2014, kdy Facebook zpřísnil svá pravidla, měli vývojáři aplikací možnost přistupovat k datům přátel uživatele, což výrazně zvyšovalo množství získaných informací. To znamená, že i když aplikaci použilo jen několik stovek tisíc uživatelů, mohlo to vést k získání údajů o desítkách milionů dalších lidí.

Opatření, která Facebook zavedl

Facebook čelil kritice za to, že jeho tehdejší API umožňovalo široký přístup k osobním údajům bez dostatečné kontroly a ochrany soukromí. Proto omezil přístup k datům prostřednictvím svého API. V současné době je mnohem obtížnější získat osobní údaje uživatelů Facebooku ve stejném rozsahu a způsobem, jakým to udělala Cambridge Analytica.

Meta (Facebook) nyní výrazně omezuje přístup aplikací k osobním údajům uživatelů. Aplikace mohou získat pouze data, ke kterým jim uživatelé explicitně udělí souhlas, a to pouze data toho uživatele, nikoliv jejich přátel. Jak to funguje prakticky ale nevím, protože jsem z Facebooku odešel už před lety a nechci se tam vracet jen kvůli tomu, abych zkoumal jeho aktuální prostředí a možnosti. Předpokládám, že pokud uživatelé aplikaci chtějí použít, stejně nakonec podlehnou a přístup k datům aplikaci umožní.

Nicméně to vypadá, že Facebook podnikl kroky k zamezení hromadného sběru dat jeho uživatelů. Ale jak je vůči tomuto problému imunní Fediverse? Tedy aplikace jako například Mastodon, kde uživatel jakékoliv instance může vidět příspěvky jakéhokoliv uživatele, z jakékoliv jiné instance (pokud není blokovaný).

Jaká opatření nabízí Fediverse?

Uživatelé Fediverse mohou nastavit, zda jejich příspěvky budou veřejné, dostupné pouze pro jejich sledující, nebo pro vybranou skupinu uživatelů. Veřejné příspěvky jsou dostupné pro každého, kdo má přístup na Fediverse, což zahrnuje i různé instance.

Pokud jsou příspěvky veřejné, může je číst kdokoli, kdo má přístup k Fediverse. To znamená, že je možná analýza trendů a chování uživatelů na základě jejich veřejných příspěvků.

Pokud uživatel nastaví své příspěvky jako soukromé, teoreticky se tím může připravit o sledující. Pro ostatní je obtížnější zjistit, že vytváří zajímavý a užitečný obsah. Navíc to je ochrana proti hromadnému sběru dat pouze dočasná. Je jen otázkou času, kdy uživatel umožní sledování nějakému dobře maskovanému robotu.

V principu je možné vytvářet nástroje pro sledování a analýzu veřejných dat na Fediverse. Ukázal nám to Martin Malý, známý též pod přezdívkou Adent, který během několika hodiny vytvořil seznam nejaktivnějších uživatelů českého Fediverse (nyní již pod správou někoho jiného) a dále doplnil témata, kterým se daný uživatel věnuje (témata pocházejí z hashtagů, které o sobě uživatel sám na Mastodonu vyplnil).

Shrnutí

Veřejné příspěvky na platformách jako Mastodon jsou přístupné komukoliv, včetně automatizovaných nástrojů (robotů), které tato data mohou sbírat a analyzovat.

Obsah veřejných příspěvků může být analyzován za účelem zjištění názorů, postojů a nálad uživatelů vůči různým tématům, včetně politických.

Pokud robot získá přístup k vašim soukromým příspěvkům tím, že se stane vaším sledujícím, může to představovat riziko pro vaše soukromí.

Sběr obsahu: Roboti mohou procházet veřejné příspěvky a ukládat data pro další analýzu. To zahrnuje textové příspěvky, komentáře, lajky a další interakce. Současné AI modely navíc začaly umožňovat automatickou analýzu obrázkového obsahu.

Sentimentová analýza: Automatizované nástroje mohou analyzovat text příspěvků za účelem určení sentimentu (pozitivní, negativní, neutrální) a identifikace klíčových témat.

Profilování: Na základě historie příspěvků a interakcí lze vytvářet psychologické profily (Big Five) uživatelů, doplněné o jejich politické názory, preference a postoje.

Detekce trendů: Analýza velkého množství příspěvků může odhalit širší trendy a nálady ve společnosti.

Proč si myslím, že je to problém?

Ve Fediverse existuje reálné riziko sběru a analýzy veřejných příspěvků za účelem vytvoření psychologických profilů a cílení politických témat, podobně jako tomu bylo u Cambridge Analytica. Čím více uživatelů ve Fediverse bude, tím větší toto riziko bude. Díky tomu, že si kdokoliv může vytvořit vlastní instanci, může vzniknout rozsáhlá síť nenápadných robotů, pracujících pro jednoho zadavatele. Díky decentralizaci nebude možné dohledat, že tito roboti spolupracují.

Už moje data někdo sbírá?

Hromadně nejspíš ještě ne. Mastodon má v tuto chvíli asi 15 milionů uživatelů (robot@mastodonusercount@mastodon.social), u kterých by šlo analyzovat jejich příspěvky. Nemyslím si, že se v tuto chvíli vyplatí analyzovat tak malou a specifickou skupinu „podivínů“ ve Fediverse. Stačí jeden pohled a hned má člověk představu, jaká skupina lidí se ve Fediverse vyskytuje.

Ve srovnání s Threads, které se chce připojit do Fediverse, je to zanedbatelné množství. V srpnu 2024 mělo Threads 200 milionů aktivních uživatelů. To už bude dostatečně různorodá skupina. S množstvím uživatelů bude růst i množství jejich příspěvků a interakcí, bude to dostatečně reprezentativní vzorek společnosti, díky kterému půjde odhadnout nálada ve společnosti. Takže je jen otázkou času, kdy sběr a analýza dat začne.

Jak se bráním sběru dat já?

Abych pravdu řekl, nijak zvlášť se nebráním. Jako uživatelé budeme vždycky tahat za kratší konec. A jako tvůrce obsahu to mám ještě složitější. Buď se do relevantních aktuálních témat zapojím a budu vidět nebo budu takticky mlčet, nic nenapíšu a nikdo mě nebude znát.

Ostatně taktika nic nezveřejňovat, nic nekomentovat ani nelajkovat je asi jediný způsob, jak sběru dat zamezit. Proto jsou tak časté příspěvky (a nadpisy článků) plné negativních emocí. Negativní emoce vás donutí reagovat a zapojit se. Některé příspěvky jsou tedy záměrně provokující a polarizující, aby se lidé hádali a šla snadněji analyzovat nálada a názory uživatelů.

Na sociálních sítích by se ale nemělo mlčet, lepší je reagovat na správné věci, být užitečný a přemýšlet.

Moje desatero pro chování na sociálních sítích

Nechlub se, inspiruj

Nemachruj, pomáhej

Nepodporuj šíření virálního obsahu

Než nasdílíš, přemýšlej proč a za jakým účelem to někdo vytvořil

Pozor na co reaguješ, každá tvoje akce zvyšuje dosah

Nekrm trolly. Poznáš flame téma? Nezapojuj se do něj

Sleduj ty, co nešíří polarizační obsah

Sleduj ty, co sdílejí „novinářsky kvalitní“ média

Odkazuj a zvyšuj dosah užitečným

Digitální stopa = uhlíková stopa. Každý bajt žere energii, ať je tvůj bajt užitečný

Zdroje a doplňující informace k tomuto tématu

„Novinářsky kvalitní“ média lze definovat například takto https://www.nfnz.cz/rating-medii/

Datový vědec jménem Aleksandr Kogan, pracující pro britskou vojenskou konzultační firmu Cambridge Analytica, shromáždil přes 87 milionů přímých zpráv uživatelů Facebooku, novinek a příspěvků, tato data byla poté použita pro cílenou politickou reklamu během Brexitu a politické kampaně Spojených států v roce 2016.

O kousek jiný pohled nabízí článek „Proč jen blokování Meta’s Threads nebude stačit k ochraně vašeho soukromí, jakmile se připojí k fediverse„. Upozorňuje na kyberšikanu některých menšin, které následně odešli pryč z Facebooku. Tito lidé už nechtějí, aby se jejich jméno, natož pak příspěvky, dostaly znovu k lidem, před kterými z Facebooku odešli.

Seznam instancí (adminů instancí), kteří so rozhodli, že budou Threads blokovat naleznete na https://fedipact.online/

Meta ve své výroční zprávě (10-K) z roku 2022 i 2023 píše: „Pokud se nám nepodaří udržet stávající uživatele nebo přidat nové uživatele nebo pokud naši uživatelé sníží míru interakce s našimi produkty, naše příjmy, finanční výsledky a podnikání mohou být významně poškozeny.“ To znamená, že META hledá nové cesty, jak získat další uživatele.

Odtud jsem čerpal hlavně odkazy na další zdroje a pravděpodobně jsem přebral i nějakou nosnou myšlenku článku. https://www.linkedin.com/pulse/threading-argument-fediverse-patrick-delaney/