CD CD O
o
o o o
O O O O O O o o
Viktor Mayer-Schönberger Kenneth Cukier
. 4 4 4 O-p- o Io o o o o o
O O -A-
o o -a o o o o o o
o o o
o o o o- o
o
-A o o o o
p o
o
O O “A o
|o o o o p o ! O O O ¿1
DATA
o
Ö
Forradalmi módszer, amely megváltoztatja munkánkat, gondolkodásunkat és egész életünket O
4
4 4
QQ4
4 4
4 4
0 0
O
- A ........c
-"A0 0 -a~*0 Q
^ 0
;..... ..
a * ^ o o o ~ * - A ~ * o o o Q o a Q ~ * ~ A Q O ~ A ~ A ~ A ~ A a ~ A ~ A
»4 4
«a -a
4 4 4
-a. Q
4 4
p
-*
-a -» -»
O
O
-» - *
-* O
-*
........... c;}
-4 O
4 4 0 0 -~*-a~A-A~A--AQ~A-~A0 Q 0 Q O -A -A 4 O O O O ->—A gp 4 «A O « « A -A“Ao -> 4 q
-4 a « 4 « » AH W n l Á o » -4 o o O — 4 . o 4 C D4 « — 4 - i -4 4 O C D
4 4 a O o -a 4 • i m A *4 ,4 — 4 — 4 O o o . « 4 « 4 O o 4 — 4 o o o o 4 o o a . — 4o — * — 4 o -1
o
4 4 « » 4 . 4
A O < 4 4 4 O 4 4 O 4 O o m i h A4
o o O o — 4 « 4 » O 4 « — A C 4 D4
4 o
4
4 o -4 o o O o -4 O 4 4 4 o O 4 m AO O 4 — 4 — 4 o * n Aw — 4 4 4 4 o o — 4 Q .4 o -4 4 O O » 4 o O 4 — 4 — 4 4o o 4
— 4 o
4 m » Aa O « — a . O O O 4 « 4 O -4 4 « 4 O O « •a -a -4 4
-4 4
o O 4 4 o 4 Q O O 4 — A 4 4 O o 4 4
o 4 o — 4 O — o — 4 — 4 -4 4 o h * A — a . w 4 4 o o O o * _ A4 » 4 4 o
— 4 o « 4 4 4 — < 4 -4 o o o -4 o 4 o o — 4 « 4 i n w A— A 4 4
o o « 4 O « O o O — 4 -4 o — 4 4 o o O o • * * 4 — Ao -4 a 4
-A o 4 o
4
4
O C D 4 4 4 4
O o 4 4 4 « * > A
o O 4 4 o 4 4 4 4 4 o
o
Oj o o o 4
m A 4 O « 4 4 o O O O 4 4 4 4 4 o 4 O o O 4 4 o 4 4 o 4 4 4 4 O
o 4
4
o o 4
o 4 4
O 4 4 o 4 4
4 4
o 4
O o 4 4 4 4
o o -4 4 4 o
O o O 4 4 4 -A o 4 o O 4 o -4 m w A4 4 4 « 4 4 O o O
o O -4 O O C D4 — a -A o A 4 L a 4
h v g ű könyvek
4
O C D » « A I O 4 • 4 4 o 4 O 4
4 4
4 O o 4 4
o O 4 4 4 4 4
O o 4 4 o 4
4 O
„Kötelező olvasmány mindenkinek az üzleti világban, az informatikában, a politikában, a hírszerzésben és az orvostudományban de azoknak is ajánlom, akik egész egyszerűen arra kíváncsiak, milyen lesz a jövőnk.”
- John Seely Brown, a X erox Pálo A ltó -i kutatóközpontjának vezetője
„A big data feltárja azokat az összefüggé seket, amelyeket az egyes adatmorzsák kép telenek. A szerzők bemutatják, hogyan lehet a hatalmas, bonyolult és kusza adatállomá nyokat a legkülönbözőbb dolgok előrejelzésére használni, a vásárlási szokások változásaitól az influenzajárványok terjedéséig.”
- ü ay Shiirky, a Cognitive Surplus és a Here Comes E veryb od y szerzője
„A Bigdatát mindenképpen el kell olvasnunk, ha mások előtt akarunk járni annak a kulcsfontosságú folyamatnak a megismerésében, amely megváltoztatja majd a jövő üzleti életét.”
- Harc Benioff, a Salesforce.com elnök-vezérigazgatója
V ik t o r M a y e r-S d h ö n b e rg e r - K e n n e th C u k ie r
BI6 DATA FORRADALMI MÓDSZER, AMELY MEGVÁLTOZTATJA MUNKÁNKAT, GONDOLKODÁSUNKAT ÉS EGÉSZ ÉLETÜNKET
h v g 0 könyvek
A fordítás alapja: Viktor M ayer-Schönberger - K enneth Cukier: Big data: A Revolution That Will Transform How We Live, Work, and Think. Published by special arrangem ent w ith Houghton Mifflin H arcourt Publishing Company, Boston, 2013
Copyright © Kenneth Cukier - Viktor Mayer-Schönberger, 2012
Fordította: © Dankó Zsolt, 2014
Szerkesztette: Bittó Ákos
Szakmai lektor: Kékesi Zsuzsa
Borítóterv: Tabák Miklós
HVG Könyvek Kiadóvezető: Budaházy Árpád Felelős szerkesztő: Besenyő Viktória
ISBN 978-963-304-199-4
M inden jog fenntartva. Jelen könyvet vagy annak részleteit tilos reprodukálni, adatrendszerben tárolni, bárm ely formában vagy eszközzel - elektronikus, fényképészeti úton vagy más m ódon - a kiadó engedélye nélkül közölni.
Kiadja a HVG Kiadó Z rt., Budapest, 2014 Felelős kiadó: Szauer Péter www.hvgkonyvek.hu
Nyomdai előkészítés: Kedves László
Nyomás: Reálszisztéma Dabasi Nyom da Zrt. Felelős vezető: Vágó Magdolna
B-nek és v-nek V. M. S. A szüleimnek K. N. C.
TARTALOM
9
1
MOST
2
28
3
TÖBBo KUSZASÁG
4
KORRELÁCIÓ
60
5
ADATOSÍTÁS
85
6
ÉRTÉK
112
7
KÖVETKEZMÉNYEK
138
8
KOCKÁZATOK
166
9
KONTROLL
189
EZUTÁN
204
Köszönetnyilvánítás
219
Felhasznált irodalom
223
Jegyzetek
234
Név- és tárgymutató
253
10
42
MOST influenzavírust fedeztek fel. Az új törzs, amely egyesítette a madár- és a sertésinfluenzát okozó vírusok tulajdonsá gait, a H1N1 nevet kapta, és rendkívül gyorsan terjedt. Sok országban a közegészségügyi hatóságok egy borzalmas világjárvány kitörésétől tartot tak. Egyes híradások már azt emlegették, hogy hasonló méreteket ölthet, mint az 1918-as spanyolnáthajárvány, amely félmilliárd embert fertőzött meg, és több tízmillió beteggel végzett. Az új vírus ellen ráadásul nem volt oltóanyag. A hatóságok csak abban reménykedhettek, hogy lassíthatják a jár vány terjedését. Ehhez azonban ki kellett deríteni, hol ütötte már fel a fejét. Az amerikai járványügyi hivatal, a Centers for Disease Control and Pre vention (CDC) arra kérte az orvosokat, jelentsék a friss influenzás meg betegedéseket. Csakhogy a szakemberek így egy-két héttel mindig le vol tak maradva a valós helyzethez képest. Az első tünetek jelentkezése után az emberek általában vártak néhány napot, mielőtt orvoshoz fordultak volna, emellett a jelentéseket is időbe telt eljuttatni a hivatalhoz, a CDC pedig csak heti egy alkalommal készített kimutatást. Egy gyorsan terjedő kór esetében két hét késés maga az örökkévalóság, ezért a közegészségügyi hatóság épp a legválságosabb pillanatokban bizonyult tehetetlennek. Néhány héttel azelőtt, hogy a H1N1 vírus feltűnt volna az újságok cím lapján, a Google fejlesztői közreadtak egy figyelemre méltó tanulmányt a Nature című természettudományos folyóiratban.1Bár a cikk nagy feltűnést keltett a közegészségügyi és az informatikai szakmai berkekben, egyéb ként nem volt visszhangja. A szerzők kifejtették, hogyan tudná prognosz tizálni a Google a téli influenza terjedését az Egyesült Államokban, még 2 0 0 9 - b e n e g y k o r á b b a n is m e r e t l e n
10
BIG DATA
hozzá nemcsak országos szinten, hanem régiókra, sót egyes államokra lebontva is, azáltal hogy nyomon követi, mire keresnek rá az emberek az interneten. Mivel a Google nap mint nap több mint 3 milliárd keresést hajt végre és ment el, rengeteg felhasználható adat állt rendelkezésre. A Google kilistázta az amerikaiak által leggyakrabban keresett 50 millió kifejezést, majd ezt összevetette a szezonális influenza 2003-2008 közötti terjedésére vonatkozó CDC-adatokkal. Az ötlet az volt, hogy az interne tes keresések alapján feltérképezik a már fertőzött területeket. Mások is próbálkoztak már az internetes keresőkifejezések alapján ugyanezzel, csak hogy nekik nem állt rendelkezésükre olyan sok adat, akkora feldolgozó kapacitás, és nem volt olyan statisztikai szakértelmük, mint a Google-nak. Bár a Google-nál abból indultak ki, hogy az emberek az influenzával kapcsolatos információkra keresnek rá - például olyan kifejezésekre, mint „gyógyszer köhögésre és lázra" -, nem ez volt a lényeg: valójában olyan rendszert terveztek, amely magukkal a kifejezésekkel nem is foglalko zott. A programjuk nem tett egyebet, mint összefüggéseket keresett egyes keresési lekérdezések és az influenza tér- és időbeli elterjedtsége között. 450 millió különféle matematikai modellt próbáltak ki a keresési kifejezé sek tesztelésére, összevetve saját előrejelzéseiket a CDC által 2007-ben és 2008-ban rögzített influenzás megbetegedések adataival. És igazi kincsre bukkantak: szoftverjük 45 olyan keresőkifejezés-kombinációt talált, ame lyeket együttesen egy matematikai modellben alkalmazva, szoros össze függést mutattak a prognózisaik és a hivatalos országos statisztikák kö zött. A CDC-hez hasonlóan most már a Google is körvonalazni tudta az influenza területi elterjedtségét, ám a CDC-vel ellentétben szinte valós idejű járványtérképpel rendelkezett, nem pedig olyannal, amely az egy-két héttel korábbi állapotot mutatta. így történt, hogy 2009-ben, a HINl-válság kirobbanásakor a Google rendszere hasznosabbnak és pontosabbnak bizonyult a késésben lévő kor mányzati statisztikáknál. A közegészségügyi tisztviselők immár értékes információk birtokába juthattak.2 Lényeges különbség, hogy a Google módszeréhez nincs szükség kenetek vizsgálatára, és háziorvoshoz sem kell fordulni. Ez a módszer az ún. big datára épül, vagyis a társadalom azon képességére, hogy az információt új módon munkára fogva hasznos felismerésekhez, értékes árucikkekhez vagy szolgáltatásokhoz juthatunk. Ennek köszönhetően az emberiség már
MOST
11
egy korábbiaknál hatékonyabb eszköz birtokában készülhet fel egy esetle ges új világjárványra. A közegészségügy csupán egy azon területek közül, ahol a big data alap vető változást hozhat; ennek következtében ugyanis akár teljes gazdasági ágazatok is átalakulhatnak. Jó példa erre a repülőjegy-vásárlás.3 Oren Etzioni 2003-ban Seattle-ből Los Angelesbe akart repülni az öccse esküvőjére. Már hónapokkal a nagy nap előtt megvette magának a repülőjegyet az interneten, mert azt feltételezte, hogy minél korábban veszi meg, annál olcsóbban jut hozzá. A gépen azonban furdalni kezdte a kíváncsiság, és megkérdezte a mellette ülő utast, mikor és mennyiért váltott jegyet. Kiderült, hogy az illető lényegesen kevesebbet fizetett érte, mint Etzioni, bár sokkal később vásárolta. Etzioni dühbe gurult, és meg kérdezett még egy utast, majd másokat is. A legtöbben olcsóbban vették a jegyüket, mint ő. Az emberek többsége, mire leszálláshoz készülődve felhajtja az asztal káját, üléstámláját pedig függőleges pozícióba állítja, már régen túltette volna magát a ráfizetés miatt érzett csalódáson. Etzioni azonban nem vé letlenül az Egyesült Államok egyik legkiválóbb informatikai szakembe re: az egész világot big data kihívások sorának látja - olyan problémák halmazának, amelyek megoldására képesnek is tartja magát. Hiszen más sal sem foglalkozik azóta, hogy 1986-ban a Harvard informatika szakos hallgatójaként megszerezte diplomáját. A Washingtoni Egyetem munkatársaként több big data céget is alapí tott, még mielőtt a kifejezés egyáltalán elterjedt volna. Közreműködött az első internetes keresőprogram, a MetaCrawler létrehozásában, amely 1994-ben indult; később le is csapott rá az InfoSpace, amely akkoriban az egyik vezető online cég volt. Etzioni társalapítója volt a Netbotnak, az első számottevő termék-összehasonlító weboldalnak, amelyet idővel tovább adott az Excite-nak. Startup vállalkozását, a szöveges dokumentumokból kinyerhető jelentéstartalmak feldolgozásával foglalkozó ClearForestet később a Reuters vásárolta meg. Amint ismét szilárd talajt érzett a lába alatt, Etzioni eldöntötte: meg találja a módját, hogy az emberek megbizonyosodhassanak arról, hogy az interneten ajánlott árakkal jól járnak-e, vagy sem. A repülő ülőhelyei meglehetősen homogén árucikkek: ugyanazon a járaton az egyik hely
12
BI G D AT A
általában olyan, mint a másik. A jegyárak mégis nagyon eltérőek, mert az árakat számtalan tényező befolyásolja, amelyek többségét csak maguk a légitársaságok ismerik. Etzioni arra a következtetésre jutott, hogy az árkülönbségek logikájának megértésébe fölösleges energiát fektetnie. Mindössze azt kell előre jeleznie, hogy az aktuális ár emelkedésére vagy csökkenésére számíthat-e a vevő. Ez pedig lehetséges, ha nem is könnyen kivitelezhető. Csupán elemez ni kell hozzá egy adott útvonal összes jegyértékesítési adatát, valamint megvizsgálni, hogyan változnak az árak az indulásig hátralévő napok függvényében. Ha egy jegy átlagára csökkenést mutat, érdemes későbbre halasztani a foglalást, ha azonban emelkedőben van, akkor a rendszer a haladéktalan vételt javasolja az aktuális áron. Etzioninak tehát fel kellett kicsit turbóz nia tízezer méteres magasságban végzett, rögtönzött felmérését. Mindez persze nem kis informatikai feladatot jelentett, de megint csak olyat, ame lyet meg tudott oldani. így hát munkához is látott. Összesen 12 ezer jegyárat tartalmazó mintával dolgozott, amelynek adatait 41 nap alatt sikerült feldolgozásra alkalmas formában legyűjtenie egy utazási weboldalról. Etzioni előrejelző modellje szép kis megtakarítá sokat tett lehetővé szimulált utasainak, anélkül hogy értelmezte volna a miérteket - csak a mível foglalkozott. A rendszer nem ismerte a légitársa ságok díjszabását befolyásoló változókat, például a még eladatlan helyek számát, a szezonalitást vagy az afféle mágikus tényezőket, mint hogy a visszaút előtti szombat éjszakai ott-tartózkodás csökkentheti a jegyárat. Arra alapozta előrejelzését, amit tudott: más járatokra vonatkozó adatok összesítése alapján számította ki az árváltozás valószínűségét. „Venni vagy nem venni? Ez itt a kérdés!" - morfondírozott Etzioni, és stílusosan a „Hamlet" nevet adta kutatási projektjének.4 Ez a kis projekt aztán kockázatitőke-bevonás után a Farecast nevű startup vállalkozássá nőtte ki magát, amely előre jelezte, hogy egy repülő jegy ára valószínűleg csökken-e vagy emelkedik a jövőben, és azt is, hogy mennyivel, lehetővé téve a vásárlók számára, hogy eldöntsék, mikor kattintanak a „Megveszem" gombra. Olyan információval látta el őket, amely korábban elérhetetlen volt számukra. Az átláthatóságot szem előtt tartva, a Farecast a saját előrejelzései megbízhatóságát is értékelte, és ezt az infor mációt meg is osztotta felhasználóival.
MOST
13
A rendszer működéséhez rengeteg adatra volt szükség. Hogy javítsa a teljesítményét, Etzioni rátette kezét a repülőjegy-foglalási adatbázisok egyikére. Ennek birtokában a rendszer egy év távlatában készített előre jelzéseket az amerikai kereskedelmi légi közlekedés legtöbb útvonalán járó gépek minden egyes helyére. A Farecast prognózisai így már csaknem 200 milliárd jegyárral kapcsolatos adatra épültek, egy halom pénzt meg takarítva az utazóknak. A szőkésbarna hajú, mosolygós és angyalian jóképű férfiból a legtöbben ki sem néznék, hogy olyan ember, aki több millió dollárnyi potenciális bevételtől képes megfosztani a repülési ágazatot. Valójában ennél is töb bet akart: 2008-ban már azt tervezte, hogy a módszert más területeken is alkalmazza, egyebek közt szállodai szobák, koncertjegyek és használt autók árváltozásainak előrejelzésére, vagy bárhol, ahol minimális az el térés az árucikkek között, mégis jelentősek az árkülönbségek, és nagyon sok adattal lehet dolgozni. Ám mielőtt e terveit megvalósíthatta volna, a Microsoft bekopogtatott hozzá, mintegy 110 millió dollárért felvásárolta a Farecastot,5 és beépítette a Bing keresőmotorjába. 2012-re a rendszer már 75%-os pontossággal működött, ami jegyenként átlagosan 50 dollár megtakarítást jelentett az utasoknak. A Farecast a big data vállalatok iskolapéldájaként jól mutatja, merre tart a világ. Etzioni tíz, de még öt évvel korábban sem hozhatta volna létre a céget. „Képtelenség lett volna" - állította. Akkoriban ugyanis még túl költ séges volt az ehhez szükséges számítástechnikai kapacitás és tárhely. Bár a technológiai változások a megvalósítás kulcsfontosságú előfeltételei vol tak, időközben valami más is megváltozott, ami még ennél is lényegesebb volt: az adatok felhasználásával kapcsolatos szemlélet. Az adatokat már nem tekintjük statikus vagy gyorsan avuló dolgoknak, amelyek hasznossága csak addig tart, míg el nem érjük azt a célt, amiért összegyűjtöttük őket - például landolt a repülőgépünk, vagy a Google esetében befejezték egy keresés eredményének feldolgozását. Jelenleg in kább az üzleti világ nyersanyagának tekinthetők, alapvető bejövő infor mációnak, amelynek felhasználásával megteremthető a gazdasági érték egy új formája. Megfelelő gondolkodásmóddal az adatok valójában újra hasznosíthatok, hogy újítások és új szolgáltatások forrásaivá válhassanak. Titkokat árulhatnak el azoknak, akik kellő alázattal, tettrekészséggel és megfelelő eszközökkel figyelnek mondanivalójukra.
14
BIG DATA
Hadd beszéljenek az adatok! Az információs társadalom hozadéka igen látványos: minden zsebben ott lapul egy mobiltelefon, a hátizsákokban egy-egy laptop, az irodai alkal mazottak pedig komoly informatikai háttérre hagyatkoznak. Maga az in formáció azonban kevésbé szembetűnő. Fél évszázaddal a számítógépek széles körű elterjedése után akkora adatmennyiség halmozódott fel, ami valami új és különleges dolog megszületéséhez vezet. Nemcsak arról van szó, hogy a világot több információ árasztja el, mint korábban bármikor, hanem arról is, hogy az információ növekedése felgyorsult. A léptékváltás mostanra állapotváltozáshoz vezetett: a mennyiségi változás minőségi vál tozásba csapott át. A big data kifejezést azok a tudományok hívták életre, amelyek a 2000-es években elsőként tapasztalták meg az információrobba nást: a csillagászat és a genomika. Napjainkra ez a fogalom már szinte valamennyi emberi tevékenységi területen meghonosodott. A big data fogalmának nincs merev definíciója. Az alapgondolat az volt, hogy mivel a hatalmasra duzzadt információmennyiség meghalad ja az adatfeldolgozásra használt számítógépek memóriakapacitását, a mérnököknek át kellett alakítaniuk az elemzésekhez használt eszköz tárukat. így születtek meg az új adatfeldolgozási technológiák, például a Google fejlesztette MapReduce és nyílt forráskódú megfelelője, a Hadoop, amellyel a Yahoo rukkolt elő. Ezek segítségével sokkal nagyobb mennyiségű adatot kezelhetünk, mint korábban, és ami még fontos: nem kell hozzá katonás sorokba vagy klasszikus adatbázis-táblázatokba ren deznünk az állományt. Ráadásul már előkészületben vannak olyan adatfeldolgozó technológiák is, amelyeknek nincs szükségük a hajdani merev, hierarchikus rendszerekre és az adatok homogenitására. Ugyanakkor, mivel az internetes cégeknek hatalmas adattárak létrehozására nyílt le hetőségük, anyagi szempontból pedig égető kérdés volt számukra ezek alapos megértése, a legújabb adatfeldolgozási technológiák első számú felhasználóivá léptek elő, felváltva a hagyományos offline vállalatokat, amelyek egyes esetekben akár több évtizedes tapasztalattal rendelkeztek már az adatfeldolgozásban. íme, egy lehetséges módja annak, hogyan viszonyulhatunk ehhez a kérdéshez manapság (és e könyv megírásakor is ezt tartottuk szem előtt): a big data kifejezés olyan dolgokra utal, amelyeket csak nagy léptékben
MOST
15
tehetünk meg ahhoz, hogy a segítségükkel olyan új felismerésekre jus sunk vagy új értékformákat hozzunk létre, amelyek átrendezik a piaco kat, a szervezeteket, az állampolgárok és a kormányok viszonyát és még sok minden mást.6 És ez még csak a kezdet. A big data korszak megkérdőjelezi eddigi élet módunkat és a világhoz fűződő kapcsolatunkat. A legmeglepőbb azonban az, hogy a társadalomnak, legalábbis részben, meg kell szabadulnia gör csös ragaszkodásától az ok-okozati kapcsolatok feltárásához, hogy cserébe egyszerű összefüggéseket ismerhessen fel: nem kell tudnunk a miérteket, ha a mi is megteszi. Ez véget vet egy több évszázados gyakorlatnak, vala mint döntéshozatali módszereink és világlátásunk alapvető kérdéseinek újragondolására késztet bennünket. A big data egy gyökeres átalakulás kezdetét jelzi. Mint oly sok új tech nológia, ez is minden bizonnyal a Szilícium-völgy elhíresült hype (felkapottság) görbéjének áldozata lesz: miután hosszasan ünnepük a maga zinok címlapján és a szakmai konferenciákon, az újdonság varázsának elmúltával adatmániás startup cégek tömkelegé küzd majd az életben maradásért szerte a világon. Csakhogy sem a big data rajongói, sem a kárhoztatói nem ismerik fel a jelenlegi történések valódi jelentőségét. Ahogyan a távcső lehetővé tette a világűr megismerését, a mikroszkóp pedig a mikrobákét, úgy segítenek majd bennünket a hatalmas adatmenynyiségek gyűjtését és elemzését végző új technológiák a világ újszerű értel mezésében. Ezt a könyvet nem annyira a big data igehirdetőiként írtuk, mint inkább hírvivőiként. És még egyszer emeljük ki: az igazi forradalom nem az adatokkal dolgozó gépekben megy majd végbe, hanem magukban az adatokban, illetve a felhasználásuk módozataiban. Ahhoz, hogy felmérhessük, milyen fokon áll jelenleg az információs for radalom, gondoljuk át a társadalom teljes spektrumát érintő trendeket. A digitális univerzum folyamatosan tágul. Nézzük például a csillagásza tot! 2000-ben, a Sloan Digitális Égboltfelmérési Program (Sloan Digital Sky Survey, SDSS) indulásakor az Új-Mexikóban felállított távcső mű ködésének első néhány hete alatt több adatot gyűjtött össze, mint amenynyi a csillagászat egész addigi története során felhalmozódott. 2010-re a program archívumában már döbbenetes mennyiségű, 140 terabájtnyi in formációmennyiség gyűlt össze. Egyik utóda, a 2016-ban munkába álló
16
BIG D AT A
chilei Nagy Szinoptikus Égboltfelmérő Távcső (Large Synoptic Survéy Telescope, LSST) a tervek szerint ötnaponként gazdagít minket ugyan ennyi adattal. De nem kell ilyen messzire mennünk ahhoz, hogy csillagászati szá mokkal találkozzunk. Miután a tudósok 2003-ban megfejtették az emberi génállományt, további egy évtizednyi intenzív munkát igényelt a hárommilliárd alappár feltérképezése. Most, egy évtizeddel később egyetlen gép park már 24 óra alatt képes ennyi DNS szekvenálására.7 Az Egyesült Államok részvénypiacán nap mint nap mintegy 7 milliárd részvény cserél gazdát.8 E forgalom hozzávetőleg kétharmadát matema tikai modelleken alapuló számítógépes algoritmusok bonyolítják le, ame lyek adathegyeket dolgoznak fel, hogy előre jelezzék a nyereséget és csök kentsék a kockázatot. Az internetes cégek úsznak az adatok tengerében. A Google naponta több mint 24 petabájt adatot dolgoz fel;9 ez a mennyiség több ezerszerese az Egyesült Államok Kongresszusi Könyvtárában őrzött összes nyomtatott anyagnak. Az alig egy évtizede létező Facebookra óránként több mint 10 millió új fényképet töltenek fel. A tagok naponta közel 3 milliárd alka lommal lájkolnak vagy kommentelnek,10 olyan digitális nyomot hagyva maguk után, amelynek segítségével a cég megismerheti felhasználóinak fo gyasztói preferenciáit. A Google YouTube szolgáltatásának havi 800 millió felhasználója minden másodpercben több mint egyórányi videoanyagot tölt fel.11A Twitter-üzenetek száma évente mintegy 200%-kai nő, 2012-re meghaladta a napi 400 milliót.12 A természettudományoktól az egészségügyig, a banki szférától az inter netig a legkülönfélébb szektorokra érvényes az állítás: az adatok mennyi sége világszerte nemcsak a gépeink kapacitását, hanem a képzeletünket is felülmúló ütemben nő. Sokan próbálták már felbecsülni a világban fellelhető információk mennyiségét, és kiszámítani a bővülés sebességét. Ki több, ki kevesebb sikerrel járt, mivel különböző dolgokat mértek. Az egyik legátfogóbb tanul mányt Martin Hilbert, a Dél-kaliforniai Egyetem kommunikációs és mé diaiskolájának (Annenberg School fór Communication and Journalism) munkatársa készítette. Arra törekedett, hogy mindent számszerűsítsen, ami csak keletkezett, amit eltároltak, vagy amit bármilyen formában kom munikáltak. Vagyis nemcsak a könyvekre, festményekre, emailekre, fény
MOST
17
képekre, zeneművekre és videókra koncentrált, hanem a videojátékokra, a telefonhívásokra, a gépkocsi-navigációs rendszerekre, a postai úton kül dött levelekre, sőt a hallgatottság és a nézettség alapján a hagyományos műsorszolgáltató médiára, azaz a televízióra és a rádióra is. Hilbert számításai szerint 2007-ben több mint 300 exabájt tárolt adat létezett. Csak hogy felfogjuk a szám nagyságát: egy egész estés játékfilm digitális formában egy 1 gigabájt méretű fájlba tömöríthető. Egy exa bájt pedig egymilliárd gigabájtot jelent, tehát elég sokat. Azt is érdemes megjegyezni, hogy 2007-ben már csupán az adatok hozzávetőleg 7%-a volt analóg (papíralapú dokumentum, könyv, fotónyomat stb.), a többi mind digitális. Nem is olyan régen még egészen más volt a helyzet. Bár az „információs forradalom" és a „digitális korszak" fogalma már az 1960-as évek óta ismert, bizonyos szempontból csak mostanra váltak valósággá. A világon tárolt összes információnak még 2000-ben is csak a negyede volt digitális, háromnegyede papíron, filmen, bakelitlemezeken, magnókazet tákon és ezekhez hasonló formákban létezett. Akkoriban nem volt túl sok digitális adat, amit igencsak fájlalhatnak azok, akik hosszabb ideje szörföznek a világhálón és vásárolnak könyve ket online. (1986-ban a zsebszámológépek tették ki a világ összes álta lános célú számítástechnikai kapacitásának 40%-át, ami meghaladta az akkori személyi számítógépek összesített kapacitását.) Csakhogy a digi tális adatok mennyiségének igen gyors növekedése miatt (Hilbert szerint ez háromévenként valamivel több, mint a duplájára nő) a helyzet gyorsan az ellenkezőjére fordult. Az analóg adatok mennyisége ezzel szemben alig mutat változást.132013-ban a világon tárolt összes információ mennyiségét mintegy 1200 exabájtra becsülték, és ennek kevesebb mint 2%-a volt nem digitális.14 Nem könnyű érzékeltetni, mit is jelent ez az adatmennyiség. Ha könyv alakban kinyomtatnánk, 52-szer tudná lefedni az Egyesült Államok terüle tét, CD-ROM-ként feltornyozva pedig a Föld-Hold távolságának ötszörö sét tenné ki. II. Ptolemaiosz egyiptomi uralkodó a Kr. e. 3. században arra törekedett, hogy minden írásmű egy-egy példányát elraktározzák a hatal mas alexandriai könyvtárban, ahol az akkori világ összes tudását igyekez tek felhalmozni. Az a digitális áradat, amely most végigsöpör a világon, 320-szor annyi információt zúdít minden eigyes emberre ezen a bolygón, mint amennyit a becslések szerint az alexandriai könyvtár tárolhatott.
18
BIG DATA
A tárolt információ mennyisége négyszer olyan gyorsan növekszik, mint a világgazdaság, a számítógépek adatfeldolgozó kapacitása pedig kilenc szer gyorsabban bővül. Nem csoda hát, ha az emberek információs túlter heltségre panaszkodnak. Ezek a változások mindenki számára húsbavágó kérdést jelentenek. Távolabbra visszatekintve vessük össze a jelenlegi adatrobbanást az zal a korábbi információs forradalommal, amely Gutenberg 1439 körül feltalált nyomdagépének köszönhetően tört ki! Elizabeth Eisenstein tör ténész szerint az 1453-1503 között eltelt fél évszázad alatt mintegy 8 mil lió könyv került ki a nyomdákból. Ez több, mint az összes kézirat, amely Konstantinápoly 1200 évvel korábbi megalapítása óta Európában szüle tett.15 Magyarán, akkor 50 év alatt sikerült nagyjából megkétszerezni az európai információállományt, miközben manapság ugyanehhez alig három év kell. Mit is jelent ez a növekedés? Peter Norvig, a Google mesterségesintelligencia-szakértője a képek alkotásával von párhuzamot.16A franciaországi Lascaux barlangfestményeinek ikonikus lóábrázolása az őskőkorszakban, mintegy 17 ezer évvel ezelőtt készült. Vessük össze ezt egy lóról készült fényképpel - vagy, hogy még érzékletesebb legyen a példa, Pablo Picasso mesterműveivel, amelyek ránézésre nem sokban különböznek a barlang festményektől. A lascaux-i festmények láttán egyébként maga Picasso is megjegyezte: „Semmi újat nem találtunk ki azóta."17 A művész állítása bizonyos szempontból igaz, másrészről azonban téved. Egy ló lerajzolása sok időbe telik, a fényképezéssel sokkal gyorsabban rög zíthetjük a látványát. Ez mindenképpen változás, bár nem a legfontosabb, hiszen mindkét esetben egy ló képmásáról beszélünk. Norvig viszont azt mondja: gyorsítsuk fel a ló látványának megörökítését, másodpercenként 24 képet alkotva. A mennyiségi változás máris minőségi változást hoz lét re. A mozgófilm alapvetően különbözik a mozdulatlan fényképtől. Ugyan ez a helyzet a big datával is: a mennyiség megváltozásával a lényeget vál toztatjuk meg. Lássunk egy példát a nanotechnológia területéről, ahol a dolgok nem nagyobbak, hanem egyre kisebbek lesznek! Ez a tudomány azon az elven alapul, hogy molekuláris szinten megváltozhatnak a fizikai tulajdonságok, és az új tényezők ismeretében már kigondolhatunk olyan dolgokat, amilye nekre korábban nem volt példa.18Nanoméretekben például rugalmasabb
MOST
19
fémeket és nyújtható kerámiát lehet létrehozni. Ez fordítva is igaz: meg növelve az adatok léptékét, amelyekkel dolgozunk, képessé válunk új dolgokra, melyek elérhetetlenek voltak számunkra, amikor még kisebb adatmennyiséget kezeltünk. Egyes esetekben a korlátok, amelyekkel együtt élünk, s amelyekről azt feltételezzük, hogy mindenre érvényesek, valójában csak az adott lépték ben számítanak. Lássunk most egy harmadik párhuzamot, ismét a ter mészettudományok területéről! Az emberek számára a gravitáció jelenti a legfontosabb fizikai törvényt, mert a hatása minden tevékenységünk ben érvényesül. Az apró rovarok számára azonban többnyire lényegtelen. A vízipókok esetében például a felületi feszültség a fizikai univerzum meg határozó törvénye, mert ez teszi lehetővé számukra, hogy biztonságban mozoghassanak a vizek felszínén. A fizikához hasonlóan az információ szempontjából is számít a méret. A Google ezért tudja feltérképezni az influenza elterjedtségét legalább olyan jól, mint az orvosoktól kapott információkra épülő hivatalos statisz tikák. Ehhez több százmilliárd keresőszót kell elemeznie - emellett csak nem valós idejű végeredményt képes nyújtani, sokkal gyorsabban, mint a hivatalos források. Az Etzioni-féle Farecast a repülőjegyárak változásainak előrejelzésével jelentős gazdasági hatalommal ruházza fel a fogyasztókat. Ám mindkét rendszer csak azért képes ilyen jó teljesítményre, mert több százmilliárd adatpontot elemez. E két példa érzékelteti, miben rejlik a big data tudományos és társadal mi jelentősége, és hogy milyen gazdasági értékek forrásává válhat. Két különböző módját mutatják be annak, miként rendíthet meg mindent a big data, az üzleti élettől a tudományon át az egészségügyig, az államigazga tás, az oktatás, a közgazdaságtan, a humán szféra és a társadalom összes többi vetületét is beleértve. Jóllehet még csak a big data korszak hajnalán vagyunk, máris napi rendszerességgel hagyatkozunk rá. A levélszemétszűrőket úgy tervez ték, hogy automatikusan alkalmazkodjanak a kéretlen levelek típusainak változásaihoz: programozással nem lehetett elérni, hogy a szoftver blok kolni tudja a „viaörát" és annak végtelen számú változatát. A társkereső oldalak annak alapján hozzák össze a párokat, hogy számos tulajdonságuk hogyan korrelál a már sikeresen egymásra talált párokéval. Okostelefo nunk autocorrect (automatikus javítás) funkciója figyeli, mit csinálunk,
20
BIG DATA
és a korábban már beírt szavaink alapján új szavakkal bővíti helyesírás ellenőrző szótárát. Ám ezek az alkalmazások még csak a kezdetet jelen tik. Vannak már olyan autók, amelyek észlelik, mikor kell kanyarodni vagy fékezni, az IBM Watson számítógépe pedig legyőzi az embereket a „Jeopardy!" című kvízműsorban. Ezek mind azt jelzik, hogy életünk számos területén jelentős változásokra számíthatunk. A big data lényegében az előrejelzésről szól. Bár a számítástechnika mesterséges intelligenciával foglalkozó ágához sorolják, azon belül pedig a gépi tanulás területéhez, e meghatározás így félrevezető. A big data nem arról szól, hogy megpróbálunk „megtanítani" egy számítógépet az em beri gondolkodásra. A lényege a matematika alkalmazása nagy adatmenynyiségekre azzal a céllal, hogy valószínűségekre tudjunk következtetni: például, hogy egy email vajon spam lehet-e; hogy a „teh"-ként begépelt betűcsoport elírás-e, és helyesen „the" lenne; hogy az úttesten szabályta lanul átkelő gyalogos mozgásából és sebességéből az következik-e, hogy időben átér majd a túloldalra, mert ez esetben a vezető nélküli autónak csak kissé kell lassítania. A lényeg az, hogy az említett rendszerek azért képesek jól működni, mert sok adatot táplálnak beléjük, amelyekre aztán az előrejelzéseiket alapozhatják. Sőt, a rendszerek úgy épülnek fel, hogy idővel tökéletesíteni is tudják önmagukat azzal, hogy megjegyzik a legjobb nak bizonyuló jelzéseket és mintákat, amelyeket érdemes keresniük akkor, amikor újabb adatokat táplálnak beléjük. A jövőben - méghozzá hamarabb, mint gondolnánk - életünk számos további területén terjednek majd el a számítógépes rendszerek, vagy vesz nek át tőlünk olyan tevékenységeket, amelyekben ma még kizárólag mi, emberek döntünk: nemcsak az autóvezetést vagy a házasságközvetítést, hanem összetettebb feladatokat is. Végül is, az Amazon javaslatot tehet az ideális könyvre, a Google rangsorolni tudja a tárgyhoz legszorosabban tar tozó weboldalakat, a Facebook ismeri, miket szoktunk lájkolni, a Linkedln pedig kitalálja, kiket ismerhetünk. Ugyanezeket a technológiákat alkal mazzák majd betegségek diagnosztizálására, orvosi kezelések ajánlására, sőt talán még a „bűnözők" azonosítására is, már a bűncselekmény elköve tését megelőzően. Az internet gyökeresen megváltoztatta a világot azzal, hogy a számítógépeket bevonta a kommunikációba. Ugyanígy alakítja majd át a big data életünk legfontosabb területeit azáltal, hogy egy koráb ban hiányzó mennyiségi dimenzióval egészíti ki.
MOST
21
Több, kusza, de épp elég jó A big data új gazdasági értékek és innovációk forrása lesz. Csakhogy ennél nagyobb a tét. A big data növekvő befolyása három változást jelez: érinti az információelemzési módszereinket, amelyek változása átformálja majd azt, hogyan értelmezzük és miként szervezzük a társadalmat. A 2. fejezetet az első változás ismertetésének szenteltük. Ebben az új világban sokkal több adatot elemezhetünk. Bizonyos esetekben egy adott jelenséggel kapcsolatban akár az összes információ feldolgozására is lehetőség lesz. A 19. század óta mindig is minták alapján dolgoztunk, ha nagy számokat kellett kezelni. A mintavétel igénye egyfajta természetes kényszer, az információban szegény analóg korszak terméke. A nagy telje sítményű digitális technológiák elterjedése előtt még nem vehettük észre, hogy a mintavétel mesterséges béklyókat jelent - ezt magától értetődőnek tekintettük. Az összes adat felhasználása viszont lehetővé teszi számunkra, hogy olyan részleteket ismerjünk meg, amelyekhez kevesebb információ birtokában még nem férhettünk hozzá. A big data különösen pontos ké pet ad a szegmensekről: azokról az alkategóriákról és részpiacokról, ame lyekre a minták nem tudnak fényt deríteni. Ha nagyságrendekkel több adat áll rendelkezésünkre, akkor nem kell már olyan görcsösen ragaszkodnunk a pontossághoz. Ez a változás a 3. fe jezetünk témája. Ez egyfajta kompromisszum: a mintavételi korlátok csök kentése érdekében elfogadunk némileg több mérési pontatlanságot. Ha mérési képességeink korlátozottak, akkor kénytelenek vagyunk csak a leg fontosabb dolgokra hagyatkozni, viszont helyénvaló, ha pontos szám adatokra törekszünk. Nincs értelme úgy árulni egy marhacsordát, ha a vásárló nem tudhatja biztosan, 100 vagy csak 80 jószág van-e az állomány ban. Digitális eszközeink működése egészen a legutóbbi időkig a pontos ságon alapult: feltételeztük, hogy az adatbázismotorok azokat az informá ciókat gyűjtik össze, amelyek tökéletesen megfelelnek a lekérdezésünknek, ahogyan a táblázatkezelő program rendezi oszlopba a számokat. Ez a gondolkodásmód az ún. small data környezetet jellemezte. Ami kor még csak kevés dolgot tudtunk megmérni, akkor azokat a lehető legpontosabban kellett számszerűsítenünk. Bizonyos szempontból ez érthető: egy kisboltban a nap végén forintra pontosan elszámolva lehet zárni a kasszát, ám ugyanezt nem tennénk meg - és nem is tehetnénk
22
BIG DATA
meg - egy ország GDP-jével. Minél nagyobb a lépték, annál több a pon tatlanság. A precizitáshoz gondosan felügyelt adatokra van szükség. Ez kisebb mennyiségek esetében még működhet, és bizonyos helyzetek meg is kö vetelik a pontosságot: vagy van elég pénzünk a bankban ahhoz, hogy kiállíthassunk egy csekket, vagy nincs. A big data világában azonban az átfogóbb adatállományokért cserébe legtöbbször feladhatjuk merev ragaszkodásunkat a pontossághoz. A big data sokszor kusza és változó minőségű, emellett számtalan szer veren oszlik meg szerte a világon. A big data esetében sokszor kielégítő lehet az is, ha csak a fő irányokat tudjuk érzékelni, ahelyett hogy egy jelen séget milliméter-, forint- vagy atomi pontossággal megismernénk. Ez nem azt jelenti, hogy teljesen lemondunk a precizitásról, csak nem ragaszkodunk hozzá mindenekfölött. Amit pontosság terén mikroszinten veszítünk, az makroszinten fontos felismerésekhez vezethet el bennünket. E két változás elvezet a harmadikhoz, amelyet a 4. fejezetben ismer tetünk: ez pedig az oksági összefüggések ősidők óta megszokott keresé sének meghaladása. Emberi lényként arra kondicionáltak minket, hogy megpróbáljuk kideríteni az okokat, jóllehet az ok-okozati összefüggéseket megtalálni sokszor nem könnyű, ráadásul a keresésük tévutakra is vihet. Ezzel szemben a big data világában nem kell ragaszkodnunk a kauzali táshoz. Elég, ha felismerjük az adatok mintáit és összefüggéseit, amelyek révén új és értékes ismeretekre tehetünk szert. Lehet, hogy az összefüggé sek nem árulják el, pontosan miért történik valami, de megmutatják, hogy mi zajlik. Számos helyzetben ez épp elég jó. Ha több millió elektronikus orvosi adat támasztja alá, hogy az aszpirint és a narancslevet egy bizonyos arány ban fogyasztó rákbetegek állapota javul, akkor a gyógyulás ténye fonto sabb, mint az, hogy mi ennek a pontos oka. És ugyanígy, ha pénzt takarítha tunk meg azáltal, hogy tudjuk, mikor érdemes megvenni a repülőjegyet, az épp elég, és nem kell hozzá megértenünk, milyen módszerre épül a légitársaságok eszméletlenül bonyolult árképzése. A big data lényege a mi és a mit, nem pedig a miért. Nem kell, hogy mindig ismerjük a jelenségek okát - elég, ha hagyjuk, hogy az adatok beszéljenek. A big data előtt az elemzések jellemzően néhány hipotézis tesztelésére korlátozódtak, amelyeket már jóval az adatgyűjtést megelőzően megfogal
MOST
23
maztunk. Ha azonban engedjük az adatokat beszélni, akkor olyan össze függéseket ismerhetünk fel, amelyek létezésére korábban nem is gondol tunk. Ezért van az, hogy egyes hedge fundok a tőzsdepiaci változások előrejelzése céljából a Twittert elemzik. Az Amazon és a Netflix termék ajánlásai felhasználóik kismilliárdnyi interakciója alapján készülnek. A Twitter, a Linkedln és a Facebook pedig feltérképezi a felhasználói kap csolatok „közösségi gráfját" (social graph), hogy így ismerje meg tagjai preferenciáit. Az emberiség évezredek óta elemez adatokat. Az ókori Mezopotámiában azért alakult ki az írás, mert a hivatalnokoknak hatékony eszközre volt szükségük az információk rögzítéséhez és nyomon követhetőségéhez. A kormányok a bibliai időktől fogva tartottak népszámlálásokat, hogy nyilvántartást készíthessenek a lakosságról, és ehhez hasonlóan az elmúlt kétszáz évben a biztosítási statisztikusok hatalmas adattárat hoztak létre a kockázatokról megértésük - vagy legalább elkerülésük - céljából. Az analóg korszakban azonban az ilyen információk összegyűjtése és kiértékelése rendkívül költséges és időigényes volt. Ha új kérdések ve tődtek fel, gyakorta meg kellett ismételni az adatgyűjtést, és elölről kez deni az elemzést. Az adatkezelés hatékonyságának szempontjából a digitalizáció nagy előrelépést hozott: nemcsak beolvashatóvá tette az analóg információkat a számítógépek számára, hanem egyúttal meg is könnyítette és olcsóbbá is tette az adatok tárolását és feldolgozását. Ez bámulatos mértékben javította a hatékonyságot. Az adatgyűjtést és -elemzést, ami korábban éveket vett igénybe, immár néhány nap vagy még rövidebb idő alatt el lehetett végez ni. Egyéb tekintetben viszont nem sok minden változott. Az adatelemzők nem tudtak elszakadni annak a feltevésnek az analóg paradigmájától, hogy az adatállományoknak egyetlen rendeltetésük létezik, értékük pedig ehhez kötődik. Ezt a szemléletet maguk a módszerek tartották fenn. Bármennyi re fontos volt is a digitalizáció a big datára való átálláshoz, a számítógépek létezése önmagában még nem vezetett el a big datához. Nincs igazán pontos kifejezésünk arra a folyamatra, amely jelenleg zajlik, de tény, hogy az 5. fejezetben kifejtett adatosítás fogalma meg lehetősen jól írja le a változásokat. Az adatosítás azt jelenti, hogy informá ciót gyűjtünk mindenről, ami csak létezik a nap alatt - olyan dolgokat is
24
BIG D AT A
beleértve, amelyekre korábban nem is szoktunk „információként" gon dolni, például egy ember tartózkodási helye, egy motor járás közbeni rez gése vagy egy híd igénybevétele -, majd adatformátumba tesszük őket, hogy számszerűsíthetők legyenek. Ez lehetővé teszi számunkra, hogy új módokon használhassuk fel az információkat. Prediktív analitikával pél dául észlelni tudjuk azt, hogy egy motor az általa termelt hő vagy a benne keletkező rezgések alapján hajlamos-e lerobbanni. Ennek eredménye képpen feltárhatjuk az információkban rejlő látens értékeket. Kincskeresés zajlik tehát, amely során az vezet minket, hogy hozzájussunk az adatokból kinyerhető ismeretekhez és a bennük szunnyadó értékhez, amelynek felszabadítása csak akkor sikerülhet, ha a kauzalitás helyett a korrelációk keresésére koncentrálunk. De nem is egyetlen kincsről van szó. Minden adatállományban szunnyad valamilyen rejtett, még felfede zetien érték, a verseny pedig azért folyik, hogy mindet megtaláljuk és fel színre hozzuk. A big data átformálja az üzleti életet, a piacokat és a társadalmat. Erről szól a 6. és a 7. fejezet. A 20. században értékeltolódás ment végbe a fizikai infrastruktúrától, mint a földek és a gyárak, az olyan immateriális javak irányába, mint a termékmárkák és a szellemi tulajdon. Napjainkban ez egyre inkább az adatra is érvényes, amely jelentős vállalati eszközzé, ko moly gazdasági tényezővé és új üzleti modellek alapjává lép elő. Ez az információs gazdaság üzemanyaga. Bár az adatok egyelőre még ritkán kerülnek be a vállalati mérlegekbe, valószínűleg csak idő kérdése, hogy ez megváltozzon. Jóllehet néhány adatfeldolgozási technológiát használunk már egy ideje, ezek korábban csak kémszervezetek, kutatólaboratóriumok és a világ legnagyobb cégei számára voltak elérhetők. Végtére is, a Walmart és a Capi tal One voltak a big data úttörői a kereskedelemben és a bankszférában, át is alakítva a maguk ágazatát. Mostanra sok ilyen eszköz vált széles körben elérhetővé, még ha magukra az adatokra ez nem is vonatkozik. A legnagyobb megrázkódtatást azonban a big data egyénekre gyakorolt hatása okozhatja. A speciális szakértelem kevésbé számít egy olyan világ ban, ahol a valószínűségek és a korrelációk a legfontosabbak. Akárcsak a Pénzcsináló (Moneyba.ll) című filmben, amelyben a statisztikusok háttérbe szorítják a baseballjátékos-megfigyelőket, és a zsigeri ösztön felett győz
MOST
25
a kifinomult elemzés. Az egyes területek szakértői nem tűnnek el ugyan, de meg kell küzdeniük azzal, amit a big data elemzés mond. Ez pedig kikényszeríti majd a menedzsmentről, a döntéshozatalról, az emberi erőforrásokról és az oktatásról alkotott hagyományos elképzelések ki igazítását is. Intézményeink nagy részét az a feltevés hívta létre, hogy az emberi dön tések kisszámú, pontos, ok-okozati jellegű információra alapozva szü letnek. Más azonban a helyzet, ha hatalmas adatmennyiségről van szó, amely gyorsan feldolgozható, és elviseli a pontatlanságot. Ráadásul az adatok óriási mennyisége miatt a döntéseket sokszor az emberek helyett a számítógépek is meghozhatják. A big data árnyoldalait a 8. fejezetben ismertetjük. Társadalmunk több ézer éves tapasztalattal rendelkezik az emberi visel kedés értelmezése és felügyelete terén. Igen ám, de hogyan regulázhatunk meg egy algoritmust? A politikai döntéshozók már a számítástechnika történetének kezdetén felismerték, miként használható fel a technológia a magánélet aláásására. A társadalom azóta már jogszabályok sorával sza bályozta a személyes adatok védelmét. A big data korában azonban ezek a törvények egy jobbára értelmetlen védelmi vonalat jelentenek: az emberek készséggel osztanak meg magukról információkat az interneten, mivel ez a szolgáltatások lényegi részét képezi. Mindeközben a ránk mint egyénekre leselkedő veszély a magánéletről áthelyeződik a valószínűségek területére: az algoritmusok előre jelzik majd a valószínűségét annak, hogy valaki szívrohamot kap (ezért maga sabb összegű egészségbiztosítást kell fizetnie), hogy jiem lesz képes tör leszteni a jelzálogkölcsönét (ami miatt megtagadhatják tőle a hitelt), vagy hogy bűncselekményt fog elkövetni (aminek elkerülése érdekében le tartóztathatják). Ez pedig etikai kérdéseket vet fel a szabad akarat szere pével kapcsolatban, amelyet komolyan veszélyeztet az adatok diktatúrája. Fontosabb legyen hát az egyéni akarat ábig datánál, még ha a statisztika mást is mond erről? Ahogy a nyomdagép feltalálása előkészítette a terepet azoknak a törvényeknek, amelyek garantálták a szólásszabadságot - ilye nek korábban nem léteztek, hiszen oly kevés írott véleményt kellett volna védelmezniük-, a big data korszaka is új szabályokat igényel, amelyeknek védeniük kell az egyének sérthetetlenségét.
26
BIG DATA
A jelenlegi adat-ellenőrzési és -kezelési módszereknek tehát több szem pontból is meg kell változniuk. Belépünk a folyamatos adatvezérelt előre jelzések világába, és lehet, hogy ott már nem tudjuk megindokolni a dön téseinket. Mit jelent az, ha egy orvos nem tud megindokolni egy orvosi beavatkozást anélkül, hogy meg ne kérné betegét, fogadja csak el, amit egy átláthatatlanul bonyolult algoritmusokat tartalmazó „fekete doboz" mond neki? Merthogy a big data vezérelt diagnózisok bizony ezt jelentik. Vajon meg kell-e változtatni az igazságszolgáltatás „alapos gyanú" kategóriáját „valószínű gyanúra"? És ha így lesz, milyen hatást gyakorol majd mindez az emberi szabadságra és méltóságra? A big data korszakában új alapelvekre van szükség, amelyekre a 9. feje zetben térünk ki. Jóllehet ezek olyan értékekre épülnek, amelyeket a small data világa hozott létre, nem csupán arról van szó, hogy az új körülmé nyeknek megfelelően módosítanunk kell a régi szabályokon, hanem arról is, hogy fel kell ismernünk: merőben új alapelvek is szükségesek. A társadalom számára mindez számtalan előnnyel jár majd, mert a big data hozzájárulhat az égető globális problémák megoldásához, pél dául a klímaváltozás elleni küzdelemhez, a betegségek felszámolásához, a felelősségteljes kormányzáshoz és a gazdasági fejlődéshez. A big data korszaka azonban kihívást is jelent számunkra: jobban fel kell készülnünk a technológia alkalmazási módjaira, mert azok átalakítják majd az intéz ményeinket - és bennünket is. A big data fontos mérföldkő az emberiség számára azon az úton, amely a világ számszerűsítéséhez és megértéséhez vezet. Azoknak a dolgoknak a túlnyomó többsége, amelyeket korábban nem lehetett megmérni, tárolni, elemezni és megosztani, mára adatosíthatóvá vált. Új utak nyílnak meg előttünk az emberi megismerés folyamatában, ha kisszámú adat helyett hatalmas mennyiségű adatot hasznosítunk, és a több információért cserébe beérjük a kisebb pontossággal. A társadalomnak engednie kell az oksági viszonyok feltárása iránti régi ragaszkodásából, és így számos esetben élvezheti a korrelációkból származó előnyöket. Az ok-okozati összefüggések felismerésének eszményítése valójában öntömjénező illúzió, amelyet a big data szertefoszlat. Ismét olyan törté nelmi holtpontra jutottunk, amikor „Isten halott". Megint átalakulóban vannak tehát azok a dolgok, amelyeket eddig sziklaszilárdnak hittünk.
MOST
27
A sors iróniája viszont, hogy ezúttal jobb bizonyosságokkal tudjuk őket felváltani. És hogy miféle szerepe marad majd az intuíciónak, a hitnek, a bizonytalanságnak, az észérvek ellenére cselekvésnek és a tapasztalat útján történő tanulásnak? Miközben a világ a kauzalitás keresésétől a kor reláció felé fordul, vajon a gyakorlatban hogyan léphetünk előre anélkül, hogy aláaknáznánk a társadalom, az emberiesség és a haladás értelemre épülő talapzatát? Ezt a könyvet azzal a szándékkal írtuk, hogy bemutas suk, hol tartunk jelenleg, hogyan jutottunk el idáig, és hogy olyan útmuta tást nyújtsunk, amelyre égető szükség van ahhoz, hogy tisztában legyünk vele, milyen előnyökre és veszélyekre kell számítanunk.
TÖBB A b i g d a t a l é n y e g e , hogy láthatóvá és érthetővé váljanak az adatállomá nyokon belüli és az azok közötti összefüggések, amelyeket egészen a kö zelmúltig nehéz volt pontosan megragadni. Az IBM big data szakértője, Jeff Jonas szerint hagynunk kell, hogy az adatok „beszéljenek hozzánk".1 Ez bizonyos fokig magától értetődőnek tűnhet. Az emberiség hosszú ide je a világ megismerésének eszközeként tekint az adatokra. Egyfelől hét köznapi értelemben, nap mint nap elvégzett megfigyelésüket értve alatta, másfelől - főleg az utóbbi néhány évszázadban - formális értelemben, olyan mennyiségileg meghatározott egységekként szemlélve őket, ame lyekkel - hathatós algoritmusok révén - sok mindent lehet kezdeni. A digitális korszak megkönnyítette és felgyorsította az adatfeldolgozást, hiszen ma már egy pillanat alatt akár több millió számmal is végezhetünk műveleteket. Ám amikor „beszélő adatokról" van szó, ennél többre - és másra - gondolunk. Ahogy az 1. fejezetben már kitértünk rá, a big data korszaka három lényeges szemléletbeli változásról szól, amelyek össze függnek, és kölcsönösen erősítik egymást. Az első, hogy immár hatalmas mennyiségű adat elemzésére vagyunk képesek egy adott témában, így nem kell beérnünk kisebb adatállományokkal. A második, hogy elfogad juk az adatok kuszaságát, és lemondunk a pontosságról. A harmadik, hogy egyre inkább a korrelációkat helyezzük előtérbe, ahelyett hogy továbbra is a nehezen megfogható ok-okozati összefüggéseket keresgélnénk. Ezt a fejezetet az elsőként említett változásnak szenteljük, tehát annak, hogy az összes rendelkezésre álló adatot felhasználjuk, nem pedig csak egy részüket.
TÖBB
29
Az a kérdés, hogy miképpen dolgozhatunk fel precízen sok információt, nem új keletű. Történelmünk legnagyobb részében csupán kevés adat tal dolgoztunk, mert a begyűjtésükre, rendszerezésükre, tárolásukra és elemzésükre alkalmas eszközeink nem voltak elég fejlettek. Igyekeztünk tehát a lehető legkevesebb információra támaszkodni, hogy az elemzések során megkönnyítsük a saját dolgunkat. Ez egyfajta tudat alatti öncenzúra volt; az adatok kapcsolatának bonyolultságát inkább sajnálatos ténynek tekintettük, nem pedig úgy, ahogy kellett volna: a kor technológiája által ránk kényszerített mesterséges kötöttségként. Napjainkra a technológiai környezetünk alaposan megváltozott. A kezelhető adatok mennyisége azonban továbbra sem korlátlan, és ez sosem lesz másképp, bár sokkal kevesebb már a kötöttségünk, mint korábban, az idő előrehaladtával pedig még tovább csökken. Bizonyos szempontból eddig nem igazán tudtuk értékelni a szabad ságot, amit a nagyobb adatállományok gyűjtésének és felhasználásának lehetősége jelent. Tapasztalataink nagy része és az intézményeink felépí tése is azon alapul, hogy az információhoz csak korlátozottan lehet hozzá férni. Mivel úgy véltük, csak kevés adatot tudunk összegyűjteni, nem is igazán fejlődtünk e téren. Olyan volt ez, mint valami önbeteljesítő jóslat. A tetejébe még különféle technikákat is kitaláltunk azért, hogy a lehető legkevesebb információt kelljen felhasználnunk. A statisztika egyik cél ja végső soron az, hogy minimális mennyiségű adatból a lehető legtöbb kérdésre kapjunk választ. Lényegében szentesítettük azt a gyakorlatot, amely korlátozta a normáinkban, folyamatainkban és a motivációs rend szerekben felhasznált információk mennyiségét. Ahhoz, hogy megfelelően érzékeltethessük, mit is jelent a big datára való átállás, tekintsünk vissza a múltba! A legutóbbi időkig nemcsak az egyéneknek, de a magáncégeknek sem volt lehetőségük tömeges mennyiségű információ begyűjtésére és rend szerezésére. Régen ezt a feladatot hatalmas és befolyásos intézmények vé gezték, mint az egyház és az állam, ami sok társadalomban egy és ugyanaz volt. A legrégebbi számszerű adatok Kr. e. 5000 körül keletkeztek, amikor sumér kereskedők kitalálták, hogy kis agyaggolyókkal jelölik árucikkei ket. A nagyobb mennyiségek megszámlálása már az állam hatáskörébe tartozott. Az évezredek folyamán a kormányzatok mindig is igyekeztek nyilvántartani polgáraikat, amit információgyűjtéssel tudtak elérni.
30
BIG D AT A
Azt mondják, már az ókori Egyiptomban és Kínában is tartottak népszámlálásokat. Ezekről az Ótestamentum is említést tesz, az Újtestamen tumból pedig megtudjuk, hogy József és Mária egy Augustus császár által elrendelt népszámlálás miatt ment Betlehembe, ahol Jézus született. Az 1086-ban keletkezett Domesday Book (ítéletnapi könyv) Nagy-Britannia legféltettebb történelmi kincseinek egyike, az angol lakosság, valamint földjeik és javaik a maga korában példátlan összeírása. Királyi biztosok járták az országot, hogy összegyűjtsék az adatokat a nagy leltárhoz, amely később azért kapta a domesday vagy doomsday (ítéletnapi) jelzőt, mert az eljárás a bibliai végítéletre emlékeztetett, amikor minden teremtett lélek megmérettetik. A népszámlálások lebonyolítása nemcsak költséges, de időigényes is volt; I. (Hódító) Vilmos, aki az angliai összeírást elrendelte, már nem is érhette meg a nagy mű elkészültét. A nehézségek alól egyedül úgy mentesülhetett volna, ha bele sem kezd. Ráadásul az óriási költség- és időráfordítás elle nére is csak nagyjából lettek pontosak az adatok, hiszen a népszámlálást végzők nem voltak képesek mindenről és mindenkiről precíz összeírást készíteni. Több mint 300 évvel ezelőtt egy John Graunt nevű brit rövidáru-keres kedőnek újszerű ötlete támadt: ki akarta deríteni, hányán laktak London ban a pestisjárvány idején. Ahelyett, hogy minden lakost összeszámolt volna, kidolgozott egy módszert - ezt ma statisztikának neveznénk -, amely lehetővé tette, hogy következtessen a város lélekszámára. Bár mód szere csak hozzávetőlegesen volt pontos, életre hívta vele azt az elképze lést, hogy egy kisebb mintából hasznos következtetéseket lehet levonni a népesség egészével kapcsolatban. Nem mindegy azonban, hogy ehhez milyen módszert választunk. Graunt mindössze a minta arányosításával jutott eredményre. Módszere híressé vált, bár később azért kiderült: számadatai csak a sze rencsének köszönhetően voltak elfogadhatóak. A mintavétel nem volt kel lően reprezentatív, és ez nemzedékeken keresztül nem is változott. A népszámlálások és a hasonlóan nagy léptékű, big data jellegű vállalkozások során ezért továbbra is a „nyers erő" alkalmazásához ragaszkodtak, vagyis igyekeztek mindent pontosan megszámolni. Mivel a népszámlálás bonyolult, drága és időigényes feladat volt, viszony lag ritkán kerítettek rá sort. A hosszú időn keresztül több százezres lakos
TÖBB
31
sággal büszkélkedő ókori Rómában ötévenként tartottak összeírást. Az Egyesült Államok alkotmánya eredetileg évtizedenként egy népszámlálást írt elő; a rohamosan gyarapodó országnak akkoriban több millió polgára volt. A 19. század végére azonban az amerikai népszámlálási hivatal (US Census Bureau) már képtelen volt feldolgozni a temérdek adatot.2 Az 1880-as népszámlálás döbbenetesen hosszú ideig tartott: nyolc évig. Mire az adatok végre hozzáférhetővé váltak, már el is avultak. Ráadásul a hivatalos szervek úgy becsülték, hogy ,az 1890-re tervezett népszámlálás feldolgozása már 13 esztendőt vesz majd igénybe, ami egyrészt abszur dum volt, másrészt alkotmánysértő. Ugyanakkor, mivel az adóbevételek felosztása és a kongresszusi képviselet a népességarányosság elvét követte, lényeges volt, hogy ne csupán pontos, de naprakész számokat kapjanak. Az Egyesült Államok népszámlálási hivatala hasonló problémával szembesült, mint amivel a tudósok és az üzletemberek viaskodtak az új évezred kezdetén, az adatok tengerében fuldokolva: az összegyűjtött in formációt a feldolgozáshoz használt eszközök képtelenek voltak kezelni, ezért új technikákra volt szükség. Az 1880-as években a helyzet olyannyira tarthatatlanná vált, hogy a népszámlálási hivatal megállapodott Hermán Hollerith amerikai feltalálóval, és az ő lyukkártya-feldolgozó berendezését használta az 1890. évi népszámlálás adatainak összesítésére.. Nagy erőfeszítéssel így nyolc évről kevesebb mint egy évre sikerült csökkenteni az adatok rendszerezésének idejét, ami hatalmas fegyver tény volt, s egyben az automatizált adatfeldolgozás korszakának kezdetét jelentette (mellesleg pedig megvetette annak az alapjait, amiből később az IBM született). Csakhogy ez az eljárás még mindig rendkívül költsé ges módja volt a hatalmas adatmennyiség összegyűjtésének és elemzésé nek: az Egyesült Államok minden egyes polgárának ki kellett töltenie egy űrlapot, az adatokat pedig lyukkártyákra kellett félvinni, hogy a gép fel dolgozhassa őket. Ilyen költséges megoldással nemigen lehetett tíz évnél rövidebb időközönként népszámlálást végezni, a késedelem miatt pedig az eredmény gyakorlatilag értéktelenné vált a rohamosan gyarapodó ország számára. Ismét felvetődött a kérdés: az összes adatot felhasználják, vagy csak egy részüket? Nyilvánvalóan az a legjobb, ha az összes információhoz hozzá tudunk férni, ám ha túl sok az adat, ez nem mindig célszerű. De hogyan válasszuk meg a mintát? Egyesek szerint a célirányosan megtervezett, rep-
32
BIG D A T A
rezentatív mintavétel a legjobb. Csakhogy 1934-ben Jerzy Neyman lengyel statisztikus hatásosan bizonyította, hogy ez a megközelítés óriási tévedé sekhez vezet.3Kiküszöbölésük kulcsa az, ha találomra választjuk ki a min tában szereplő alanyokat. A statisztikusok szerint a mintavétel pontosságát sokkal inkább javítja a szúrópróbajelleg, mint a minta növelése. Bármennyire meglepően hangzik, tény, hogy egy találomra kiválasztott minta 1100 alanyának eldöntendő kérdésekre (igen vagy nem, nagyjából egyenlő esélyekkel) adott válaszai rendkívül jól tükrözik az összlakosság válaszait: 20 esetből 19 alkalommal 3 százalékon belül marad a hibahatár, függetlenül attól, hogy az összlakosság százezer vagy százmillió főt jelent-e.4 Ennek oka egy bonyolult matematikai összefüggéssel magyarázható, amely röviden r így szól: egy bizonyos ponton túl a számok növekedésével az egyes meg figyelésekből szerezhető új információk határmennyisége egyre kisebb és kisebb lesz. Meglepő felismerés volt, hogy a mintavétel véletlenszerűsége fontosabb, mint a minta nagysága, ez pedig előkészítette a terepet az adatgyűjtés új megközelítéséhez. Szúrópróbaszerű mintavétellel olcsón begyűjtött ada tokból pontos következtetéseket tudtak levonni az egészre vonatkozóan. A véletlenszerűen kiválasztott minták segítségével a kormányzatok most már akár évente tarthattak - részleges - népszámlálást, és nem csupán tízévente. így is történt. Az Egyesült Államok népszámlálási hivatala pél dául évente több mint kétszáz gazdasági és demográfiai felmérést vé gez mintavétel útján a tízévenkénti, teljes körű népszámláláson felül. A mintavétel megoldást jelentett az információs túlterhelés problémájára abban a régebbi korban, amikor még rendkívül nehéz volt az adatgyűjtés és -elemzés. Az új módszer alkalmazhatósága túlmutatott a közszférán és a népszámlálásokon. Lényegét tekintve a véletlen mintavétel kezelhetőbbé tette a big data problémákat. Az üzleti életben minőségbiztosításra használták: e módszer megkönnyítette és olcsóbbá is tette a fejlesztéseket. Az átfogó minőség-ellenőrzés eredetileg azt jelentette, hogy a futószalagról lekerülő termékeket egyenként megvizsgálták; ettől kezdve azonban elég volt, ha gyártási tételenként csak egy-egy véletlenül kiválasztott terméket vizs gáltak. Az új módszer elterjedésével elkezdődtek az első fogyasztói fel mérések a kiskereskedelemben és a rögtönzött közvélemény-kutatások
TÖBB
33
a politikában. A korábban humán tárgyaknak nevezett területek jelentős részét a statisztika térnyerése alakította át társadalomtudományokká. A véletlen mintavétel átütően sikeresnek bizonyult, és a modern tö meges mérések gerincét képezi. Valójában azonban ez csak egy gyorsí tott eljárás, amely a teljes adatállomány begyűjtésének és elemzésének alternatíváját kínálja: jó módszer, de csak a második legjobb. Számos - természetéből fakadó - hátulütője van. Precizitása azon múlik, hogy az adatgyűjtéskor mennyire tudjuk garantálni a mintavétel véletlenszerűségét - csakhogy ez nem is olyan egyszerű. Az adatgyűjtési módsze rek szisztematikus torzításai kivetülhetnek az eredményekre, és súlyos hibákhoz vezethetnek. Hasonló problémák jelentkeznek akkor is, amikor vezetékes telefont használnak a választási közvélemény-kutatáshoz. Ahogy Nate Silver sta tisztikus rámutatott, ez a minta figyelmen kívül hagyja azokat, akik ki zárólag mobiltelefont használnak (ők fiatalabbak és liberálisabbak), ami pedig helytelen választási előrejelzéseket eredményez.5 A 2008-as ameri kai elnökválasztáson induló Barack Obama és John McCain népszerűségét vizsgáló legnagyobb közvélemény-kutatók - a Gallup, a Pew és az ABC/ Washington Post - a két jelölt támogatottsága között 1-3 százalékpon tos különbséget mértek, attól függően, hogy kiigazították-e mintáikat a kizárólag mobiltelefont használók miatt, vagy sem - a verseny szorossága következtében pedig ez tekintélyes különbség volt. A legnagyobb problémát azonban az jelenti, hogy a véletlenszerű mintát nem könnyű arányosítani, ha azt szeretnénk, hogy alkategóriákat is tar talmazzon: minél kisebb alcsoportokra bontjuk le az eredményeket, an nál nagyobb a téves előrejelzés valószínűsége. Könnyen belátható, miért. Tegyük fel, hogy szúrópróbaszerű mintavétellel kiválasztunk ezer főt, és azt a kérdést tesszük fel, hogyan szavaznának a következő választáson. Ha kellően véletlenszerű a mintavétel, akkor megvan az esélye, hogy a teljes népességre vonatkoztatva 3%-on belül marad a hibahatár. Igen ám, de mi van, ha nem elég pontos eredmény ez a +/-3%? Vagy ha a csoportot tovább akarjuk bontani kisebb alcsoportokra, például nem, földrajzi hely vagy jövedelem szempontjából? És mi történik, ha kombinálni szeretnénk ezeket az alkategóriákat, hogy a lakosság egy meghatározott csoportját vehessük célba? Egy ezerfős minta esetében az „északkeleten élő, jómódú, női szavazók" alcsoportja például jóval kevesebb, mint száz embert tesz
34
BIG D AT A
ki. Ha mindössze néhány tucatnyi válasz alapján jelezzük előre az összes északkeleti, jómódú, női szavazó szándékát, az eredmény akkor is pontat lan lesz, ha a mintavétel szinte tökéletesen véletlenszerű. Emellett a teljes minta legkisebb torzulása is még hangsúlyosabban mutatkozik meg az alcsoportok szintjén. Mindez pedig azt jelenti, hogy a mintavétel alkalmazása értelmét veszti, ha a dolgok mélyére hatolva a részleteket is meg akarjuk vizsgálni. Ami működik makroszinten, csődöt mond mikroszinten. A mintavétel olyasmi, mint egy analóg technikával készített fénykép: távolról jól mutat, de ha ráközelítünk egy-egy részletére, akkor homályossá válik. A mintavételezés ráadásul gondos tervezést és kivitelezést igényel. Menet közben nem tehetünk fel rögtönzött kérdéseket, csak olyanokat,^ amelyeket már a kezdet kezdetén beterveztünk. Vagyis, bár a mintavétel hasznos módszer a gyors eredmény eléréséhez, mégiscsak egy pótlék, és sosem lesz több, mint ami eredetileg volt: minta, nem pedig maga az egész. Az így létrejövő adatállomány ezért csak nagyon korlátozottan bővíthető és alakítható, holott ugyanazokat az információkat az eredeti adatgyűjtési céltól teljesen eltérő szempontból is újraelemezhetnénk. Nézzük például a DNS-elemzéseket! Egyetlen ember génállományának a meghatározása 2012-ben közel 1000 dollárba került, ami azt jelzi, hogy e technika már csaknem alkalmas a tömeges felhasználásra. Ennek ered ményeképpen kialakulóban van az egyéni génszekvenálás új iparága. 2007 óta egy szilícium-völgyi startup vállalkozás, a 23andMe már pár száz dollárért elvégzi az emberek DNS-elemzését. Ki tudnak mutatni bizonyos jellemzőket a genetikai kódban, amelyek elárulják, hajlamos-e az illető pél dául mellrákra vagy szívproblémákra. A 23andMe reméli, hogy kliensei DNS-ének és egészségi adatainak összesítése révén olyan új felfedezéseket tehet, amelyek egyébként rejtve maradnának. Van azonban egy bökkenő. A cég az ember genetikai kódjának csak egy kis részét szekvenálja: azokat az úgynevezett markereket, amelyek bizonyos genetikai gyengeségeket jeleznek. Több milliárd DNS-bázispár azonban kimarad a feltérképezésből. Vagyis a 23andMe csak azon marke rekre vonatkozó kérdésekre adhat választ, amelyeket eleve számításba vett. Valahányszor felfedeznek egy újabb markert, az illető DNS-ét (pon tosabban annak meghatározott szakaszát) újból szekvenálni kell. Ha csak egy résszel dolgoznak az egész helyett, az bizony kompromisszummal
TÖBB
35
jár: a cég gyorsabban és olcsóbban megtalálja, amit keres, de az előzetesen felvetett kérdéseken kívül másokra nem kap választ. Az Apple legendás vezérigazgatója, Steve Jobs egészen másként viszo nyult a rák elleni küzdelméhez. A világon az elsők között térképeztette fel teljes DNS-ét, illetve a daganatáét. Ezért hat számjegyű összeget fizetett dollárban - a 23andMe árának több százszorosát. Cserébe nem csupán egy mintát, azaz egy markerekből álló készletet kapott, hanem olyan komplett adatsort, amely a teljes genetikai kódot tartalmazta. Egy átlagos rákbeteg kezelési módjának megválasztásakor az orvosok csak reménykedhetnek abban, hogy az illető DNS-e eléggé hasonlít azokéhoz, akiken tesztelték a gyógyszert. Steve Jobs orvosi teamje azonban a páciens teljes genetikai felépítésének ismeretében a leghatásosabb terápiá kat választhatta. Ha az egyik kezelés nem váltotta be a reményeket, az or vosok átállíthatták egy másik gyógyszerre. Steve Jobs így nyilatkozott erről: „Olyan, mint egyik tavirózsáról a másikra ugrálni. Vagy az egyik első em ber leszek, aki legyőzi ezt a rákfajtát, vagy az utolsók egyike, akik belehal nak" - tréfálkozott. Bár ez sajnos nem vált valóra, a módszer - az összes adat megszerzése, nem csak egy részüké - évekkel hosszabbította meg az életét.6
A néhánytól az összesig A mintavétel a korlátozott információfeldolgozás korszakának velejárója volt, amikor az emberek már felmérték a világot, de még nem rendelkeztek megfelelő eszközökkel az összegyűjtött adatok elemzéséhez. A számolás és a táblázatba rendezés hibái ma már kevésbé hátráltatnak bennünket: a sokfelé elhelyezett érzékelők, a mobiltelefonokban lévő GPS-ek, a Twitter és a webes kattintások passzív módon gyűjtenek adatokat, a számítógépek pedig egyre könnyebben boldogulnak a feldolgozásukkal. A mintavétel koncepciója ma már kevésbé fontos, hiszen a nagy adatmennyiségeket is munkára tudjuk fogni. Az adatkezeléshez használt tech nikai eszköztár gyökeres változáson ment keresztül, gondolkodásunk és módszereink azonban lassabban alkalmazkodnak. Ráadásul régóta ismert, de figyelmen kívül hagyott tény, hogy a minta vételnek megvan az ára is: elvesznek bizonyos részletek. Egyes esetekben
36
BIG D AT A
azonban még mindig nincs más lehetőségünk, mint a mintavételhez folya modni. Számos területen ugyanakkor változás zajlik: az adatok egy részé nek összegyűjtése helyett a lehető legtöbb, sőt, amennyiben lehetséges, az összes információ, azaz a teljes sokaság megszerzésének irányába tartunk. Ahogy láttuk, a teljes sokaság alkalmazása azt jelenti, hogy mélyebb re áshatunk az adatokban, a mintavétel viszont közel sem ilyen hasznos e téren. Idézzük fel a mintavétel korábban ismertetett példáját, amikor az összlakosságra vetítve 3%-os hibahatárral számoltunk! Bizonyos hely zetekben ez egész elfogadható érték. Csakhogy így elvesznek a részletek, a felbontás pontossága, a lehetőség, hogy közelebbről szemügyre vehessünk egyes alcsoportokat. Milyen is lenne a normál eloszlás, ha nem normális? Az életben a valóban érdekes dolgok sokszor ott rejtőznek, ahol minta vétellel nem mindig lehet megragadni őket. A Google influenza-előrejelző rendszere, a Flu Trends éppen ezért nem kisszámú véletlenszerűen kiválasztott mintára hagyatkozik, hanem az Egyesült Államokban végzett több milliárd internetes keresésre. Az összes adat felhasználása olyan mértékben javítja az elemzést, hogy az influenza terjedése már nemcsak az egész ország vagy egy állam, hanem egy-egy konkrét város vonatkozásában is megjósolható.7 Oren Etzioni a Farecastnál eleinte 12 ezer adatpontot használt mintaként, ami elég hatékonynak is bizonyult. Ám amikor még több adatot dolgozott fel, az előrejelzések minősége javult. Végül a Farecast már szinte az összes belföldi járat egy teljes évre vonatkozó adatát vizsgálta. „Ezek időhöz kötött adatok. Egy szerűen folyamatosan kell gyűjteni őket, és akkor egyre könnyebben fel ismerhetővé válnak az összefüggések" - magyarázza Etzioni.8 így mind gyakrabban tesszük majd félre a véletlen mintavételezés mód szerét, és helyette az átfogóbb adatállományokat részesítjük előnyben. Ehhez bőséges adatfeldolgozó és adattároló kapacitásra, az elemzésekhez pedig élvonalbeli eszközökre van szükség. Emellett meg kell találni az adatgyűjtés egyszerű és költségkímélő módozatait. Korábban mindez drá ga mulatság volt, mostanra azonban drámai módon csökkentek a költsé gek, és a módszerek is egyszerűsödtek. Amit régen csak a legnagyobb cégek engedhettek meg maguknak, az ma már a vállalatok többsége számá ra elérhető. Az összes adat felhasználása révén felismerhetők olyan összefüggések és részletek, amelyek máskülönben elvesznének az információk tengerében.
TÖBB
37
A hitelkártyacsalások felderítéséhez például a rendellenességek keresésére van szükség, ennek leghatékonyabb módja pedig nem egy minta, hanem az összes adat feldolgozása. A legérdekesebb információkat a kiugró eltéré sek adják, azokat pedig akkor ismerhetjük fel, ha a normál tranzakciók tömegével vetjük össze őket. Ez egy big data probléma. És mivel a hitelkártyás tranzakciók pillanatok alatt megtörténnek, az elemzésnek is valós időben kell történnie. Egy nemzetközi pénzátutalásokra szakosodott vállalat, a Xoom, amely neves big data szakértőkkel dolgozik, az általa lebonyolított tranzakciók valamennyi adatát elemzi. 2011-ben egyszer veszélyt jelzett a rendszerük: az átlagosnál valamivel több New Jerseyben kezdeményezett Discover Card-tranzakciót észlelt. „Egy sémát jelzett ott/ ahol nem lett volna szabad sémának lennie" - magyarázta John Kunze, a Xoom vezérigazgatója.9Ö n - ' magában minden egyes tranzakció törvényesnek tűnt, de kiderült, hogy a hátterükben egy bűnözői csoport állt. A visszaélésekre csak úgy derül hetett fény, hogy az összes adatot megvizsgálták; a mintavétel elsiklott volna fölöttük. Nem feltétlenül jelent roppant nagy feladatot az összes adatot felhasz nálni. A big datának abszolút értelemben nem kell sok adatnak lennie, noha gyakran ez a helyzet. A Google Flu Trends több százmillió matematikai modellezési műveletre építi előrejelzéseit, több milliárd adat felhasználásá val. Egy ember teljes génkészlete mintegy 3 milliárd bázispárból áll. Ezek nem csupán az adatpontok nagyságrendje, vagyis az adatkészlet mérete miatt számítanak a big data jellemző példáinak, hanem azért is, mert a Flu Trends és Steve Jobs orvosai egyaránt a teljes hozzáférhető adatállományt használták fel a véletlenszerű mintavételezés helyett. A japán nemzeti sportban, a szumóban felfedezett bundázás esete jól szemlélteti, miért nem jelent feltétlenül sok adatot a teljes sokaság alkal mazása. Bár a császárok sportja már sokszor keveredett gyanúba, a sport ágban mindig is határozottan tagadták a bunda vádját. Steven Levitt, a Chicagói Egyetem közgazdásza több mint egy évtized mérkőzéseit vette górcső alá, kivétel nélkül mindegyiket. Egy munkatársával az American Economic Reviezv-bán közreadott remek tanulmányukban kifejtették, miért hasznos ilyen sok adat vizsgálata.10Tizenegy év szumómérkőzés-adatainak elemzésével - ami több mint 64 ezer párviadalt jelentett - rendellenessé geket kerestek, és sikerrel jártak. Valóban akadt példa ugyanis bundázásra;
38
BI G D A T A
csakhogy nem ott és akkor, ahol és amikor az emberek többsége gyanítot ta. Nem a bajnoki mérkőzések esetében mutattak furcsaságokat az ada tok (ezeket vagy manipulálták, vagy nem), hanem a tornák végén, a ki sebb figyelemmel kísért összecsapások során. Úgy tűnik, ilyenkor kicsi a kockázat, hiszen a birkózóknak már nincs esélyük címnyerésre. A szumó sajátossága azonban, hogy a versenyzők csak akkor tart hatják meg rangjukat és jövedelmüket, ha megnyerték egy-egy torna 15 mérkőzésének többségét. Ez olykor érdekaszimmetriához vezet, ha egy 7 mérkőzést megnyerő és 7 mérkőzést elveszítő szumóbirkózó kerül össze egy 8:6-os vagy jobb teljesítményt elérő ellenféllel. A mérkőzés eredménye sokat jelent az első birkózó számára, miközben jóformán semmit a másik fél mérlege szempontjából. Ilyen esetekben, ahogy az adatfeldolgozás kimutatta, az a sportoló, akinek nagy szüksége volt a győzelemre, nagy valószínűséggel nyert is. Talán ezek a birkózók elszántabban küzdöttek? Lehetséges. Csakhogy az adatok valami másra is utaltak. A nagyobb tétért birkózók mintegy 25%-kai gyakrabban nyertek, mint ahogy normális lett volna. E különbsé get aligha tulajdoníthatták kizárólag az adrenalinnak. Amikor tovább elemezték az adatokat, kiderült, hogy a két versenyző legközelebbi össze csapásakor az előző mérkőzés vesztese sokkal nagyobb eséllyel távozott nyertesként, mint a későbbi párviadalaik alkalmával. Vagyis úgy tűnt, hogy a korábbi győzelem az egyik fél „ajándéka" volt a másiknak; úgy látszik, a „kéz kezet mos" mondás igazsága a szumó zárt világában is érvényesült. Ez az információ mindig is nyilvánvaló volt. Ott volt mindenki szeme előtt, véletlenszerű mintavétellel azonban valószínűleg nem lehetett volna kimutatni. De akármennyire alapvető információról van is szó, ha nem tudjuk, mit keressünk, akkor azt sem tudhatjuk, miféle mintát használjunk. Levitt és munkatársa azonban felfedte a csalást, méghozzá annak köszönhetően, hogy sokkal nagyobb adatállományt vizsgált: a szumómérkőzések teljes univerzumát. A big datára épülő kutatás olyan, mintha horgászni mennénk a tengerre: nem tudhatjuk, fogunk-e majd bármit is, sőt azt sem, hogy mi akadhat egyáltalán horogra. Az adatállományt nem feltétlenül kell terabájtokban mérni. A teljes szumós adatállomány kevesebb bitből állt, mint manapság egy átlagos di gitális fénykép. Big dataként tekintve azonban többet mutatott egy tipikus
TÖBB
39
véletlen mintánál. Amikor big datáról beszélünk, a „big" jelző nem anynyira abszolút, mint inkább relatív értelemben értendő: az átfogó adatállományhoz viszonyítva jelent „nagy" mennyiséget. A véletlen mintavétel hosszú ideig elégséges megoldásnak tűnt. A digitá lis korszakot megelőzően lehetővé tette, hogy hatalmas adatbázisokat tud junk elemezni. Ám a mintavétel során ugyanúgy elvesznek információk, mint amikor egy digitális képet vagy zenét kisebb fájlba tömörítünk. A teljes (vagy csaknem teljes) adatállomány birtoklása jóval nagyobb sza badságot biztosít az adatkészletünk feltárásában, vagyis abban, hogy több szempontból is értelmezhessük adatainkat, vagy bizonyos vonatkozásokat közelebbről is megvizsgálhassunk. Jó példa erre a Lytro fény-tér fényképezőgépe (Light Field Camera), amely a hagyományos készülékekkel ellentétben nem egyetlen fénysíkot örökít meg, hanem a készülék előtti teljes fénytér körülbelül 11 millió fénysugarát.11 A fotós később is eldöntheti, hogy a fényképnek melyik része legyen éles a digitális fájlban. Nem kell előre beállítani a fókuszt, mert az összes információ begyűjtése lehetővé teszi, hogy ezt utólag, digi tálisan tegyük meg. Mivel a kamera a teljes fénytér fénysugarait rögzíti, a felvétel az eredeti látvány csaknem összes adatát tartalmazza. Ennek köszönhetően az információ „újrahasznosíthatósága" jobb, mint a közön séges fényképek esetében, amikor a fényképésznek előre el kell döntenie, mire akar fókuszálni. Hasonlóképp a big data is az összes (vagy legalábbis az összes begyűjthető) információra épül, és ezáltal teszi lehetővé számunkra a részletek vizsgálatát, vagy akár új elemzések készítését az életlenség veszélye nélkül. Új hipotéziseinket több szinten is tesztelhetjük. Kideríthetjük, történtek-e visszaélések a szumóviadalok során, nyomon követhetjük az influenza terjedését, valamint célirányosan, a beteg DNS-ének megfelelő szakaszára összpontosítva vehetjük fel a harcot a rák ellen. A big data lehetővé teszi, hogy a világosság rendkívül magas szintjén dolgozhassunk. Természetesen nincs mindig szükség mintavétel helyett az összes adat felhasználására. Továbbra is a korlátozott források világában élünk. Csak hogy egyre több esetben érdemes az összes rendelkezésünkre álló adatot felhasználni, amit most már módunkban is áll megtenni, míg korábban nem így volt.
40
BIG D AT A
Az egyik olyan terület, ahol a teljes sokaság alkalmazása a legdrámaibb változásokat eredményezte, a társadalomtudományok köre. Az empiri kus társadalmi adatok értelmezése immár nem tartozik e tudományok kizárólagos fennhatósága alá, mert a big data elemzések felváltják a fel méréseket végző, jól képzett szakembereket. A társadalomtudományok korábban főként mintavételeken alapuló tanulmányokra és kérdőívekre hagyatkoztak. Ám most, amikor az adatgyűjtés passzív módon történik - amit az alanyok észre sem vesznek, csak teszik a dolgukat, mint mindig -, eltűnnek a mintavételekhez és kérdőívekhez társuló korábbi torzulások. Ma már úgy tudunk információt gyűjteni, ahogy régebben nem tehettük, legyen szó a mobiltelefon-hívások alapján feltárható kapcsolatokról vagy a Twitter-posztokban megmutatkozó érzelmekről. Ennél is fontosabb azon ban, hogy megszűnik a mintavétel iránti igényünk.12 Barabási Albert-László, aki a hálózatelmélet egyik legnagyobb szaktekintélye a világon, az összlakosság szintjén kívánta tanulmányozni az emberek közötti interakciókat. Munkatársaival vizsgálni kezdték egy meg nem nevezett európai ország mobilhívásainak adatait egy olyan szolgál tatónál, amelynek szolgáltatásait az ország lakosságának 20 százaléka veszi igénybe. Négy hónap minden híváslistájának valamennyi adatát górcső alá vették. Ez volt az első társadalmi szintű hálózatelemzés a teljes sokaságon alapuló adatállomány felhasználásával. A nagy léptéknek köszönhetően - több millió ember összes hívásáról beszélünk - olyan új ismeretekre sike rült szert tenni, amelyek valószínűleg bármilyen más módszerrel rejtve maradtak volna. Érdekes módon, a kisebb léptékű felmérésekkel ellentétben, a kutatócsoport arra a felismerésre jutott, hogy ha kiemelik a közösségükön belül sok kapcsolattal rendelkező személyeket, akkor a közösségi háló meg gyengül ugyan, de nem bomlik fel. Ha azonban olyanokat emelnek ki, akik közvetlen közösségükön kívüli kapcsolatokkal rendelkeznek, a háló egyszerre szétesik, mintha a szerkezete roppant volna meg. Ez az igen csak jelentős megállapítás meglehetősen váratlan eredmény volt. Ki gon dolta volna, hogy a sok közeli baráttal rendelkező emberek jóval kevésbé fontosak a hálózati struktúra stabilitása szempontjából, mint azok, akik távolabbi emberekhez is kötődnek? Ez azt sugallja, hogy a sokféleség mind csoport-, mind társadalmi szinten nagyon fontos tényező.13
TÖBB
41
Hajlamosak vagyunk úgy tekinteni a statisztikai mintavételre, mint egy olyan talapzatra, amely a mértan alapelveihez vagy a gravitáció tör vényéhez hasonlóan szilárd tényeken alapul. Csakhogy ez a módszer alig százéves múltra tekint vissza, és kifejezetten egy adott időpontban felvetődő konkrét probléma megoldására jött létre, az akkori sajátos techni kai korlátok között. E korlátok ma már nem érvényesülnek ugyanolyan mértékben. A big data korszakban a véletlen mintavételhez folyamodni olyan, mint lovaglóostort ragadni egy motorizált világban. Bizonyos körül mények között persze továbbra is használhatjuk a mintavételt, de nem ez lesz a nagy adatállományok elemzésének meghatározó módszere. Egyre inkább az a célunk, hogy a teljes sokaságot tudjuk megragadni.
3
KUSZASÁ hogy az összes meglévő adatot felhasználjuk. Ennek azonban ára van: a mennyiség növelése pontatlan ságot hozhat magával. Hibás adatok és sérült bitek mindig is be-becsúsztak az adatállományokba. Mi pedig azon voltunk, hogy megszabaduljunk tőlük; soha nem akartunk úgy tekinteni rájuk, mint valami olyan dologra, amivel megtanulhatnánk együtt élni. A big datára történő áttéréssel ez megváltozik. A small data - vagyis a kevés adat - világában ösztönösen törekedtünk a hibák csökkentésére és a jó minőségű adatokra. Ha már kevés informá ciót gyűjtöttünk be, akkor legalább megpróbáltuk elérni, hogy minél pon tosabbak legyenek. A tudósok nemzedékeken át egyre tökéletesítették műszereiket, hogy minél precízebben meghatározhassák például egy égi test pozícióját vagy egy mikroszkóp alá helyezett tárgy méretét. A minta vételek világában még jobban törekedtek a pontosságra; hiszen ha az elemzés csak kevés adatra szorítkozik, az felerősítheti a hibákat, ami az összesített eredmények pontosságának rovására megy. Az emberiség történelmének legnagyobb vívmányai a világ mérés útján történő meghódításához kapcsolódnak. A pontosságra törekvés Európá ban vette kezdetét a 13. század közepén, amikor a csillagászok és a tudó sok egyre inkább számszerűsíteni akarták az időt és a teret - Alfréd Crosby történész szavaival: „a valóság mértékét".1 Magától értetődőnek gondolták, hogy egy jelenséget már azáltal meg érthetnek, ha meg tudják mérni. Később a mérést összekapcsolták a tu dományos megfigyelés és okfejtés módszerével: a reprodukálható eredméE g y r e t ö b b s z ö r n y íl ik l e h e t ő s é g ü n k a r r a ,
KUSZASÁG
43
nyék számszerűsítésének, feljegyzésének és bemutatásának képességével. „A mérés tudás" - hangoztatta Lord Kelvin. A mérés a szakmai hozzáértés alapjává vált. „A tudás hatalom" - tanította Francis Bacon.2Ezzel párhuza mosan a matematikusok, valamint a mai statisztikusok és könyvelők elő dei kidolgozták azokat a módszereket, amelyekkel lehetővé vált a pontos adatgyűjtés, -nyilvántartás és -kezelés. A 19. századra az akkoriban élen járó tudományos nagyhatalomnak számító Franciaországban kifejlesztettek egy pontosan meghatározott univerzális mértékegységrendszert, és más államokat is igyekeztek rábír ni, hogy fogadják el ezt a standardot. A mértékegységeket nemzetközi szerződésekben rögzítették - ez volt a mérések legdicsőbb korszaka. De alig telt el fél évszázad, és az 1920-as évek kvantummechanikai felfedezé sei örökre összezúzták a mindenre kiterjedő, tökéletes mérésbe vetett hitet. Mégis, a fizikusok egy viszonylag szűk körétől eltekintve, a mérnököket és a tudósokat továbbra is az a mentalitás vezérelte, hogy mindent precízen meg kell mérni. Az üzleti életben ez a gondolkodás további teret hódí tott, hiszen a matematika és a statisztika racionális tudománya a kereske delemre is egyre nagyobb hatást gyakorolt. Napjainkban azonban rengeteg olyan helyzet adódik, amikor a pontat lanság - az adatok kuszasága - nemhogy nem hiányosság, de egyenesen pozitívum, alapos mérlegelés után született kompromisszum: a hibahatá rok növeléséért cserébe sokkal több adathoz juthatunk. Nemcsak arról van szó, hogy „többel többet érünk el, mint kevesebbel", hanem arról, hogy bizonyos esetekben „a többel többet érünk el, mint a jobbal". Az adatok kuszaságának több fajtájával is meg kell küzdenünk. Tény, hogy minél több az adat, annál valószínűbb a hibák előfordulása. Ha pél dául egy híd terhelési értékeinek számát az ezerszeresére növeljük/akkor annak is nő az esélye, hogy néhány közülük téves lesz. Azzal is kuszábbá lehet tenni az adatokat, ha eltérő forrásokból származó, különböző típusú információkat vegyítünk, amelyek nem mindig passzolnak egymáshoz. Amikor például hangfelismerő szoftvert használunk egy telefonos ügy félszolgálathoz beérkező panaszok jellemzésére, majd ezeket az adatokat összevetjük az egyes hívások időtartamával, a módszer minden tökéletlen sége ellenére is hasznos pillanatképet adhat a helyzetről. Az adatok kusza sága a következetlen formázásban is megmutatkozhat, ami miatt az ada tokat feldolgozás előtt meg kell „tisztítani".
44
BIG D AT A
„Számtalan módon hivatkozhatunk az IBM-re - jegyzi meg ennek kap csán DJ Patil big data szakértő az I.B.M.-től kezdve a T. J. Watson Labs* néven át az International Business Machines elnevezésig."3 Akkor is előfordulhat adatkuszaság, amikor adatokat nyerünk ki vagy dolgozunk fel, hiszen eközben átalakítjuk őket - például amikor Twitterüzenetek érzelemelemzését végezzük el azért, hogy az eredmény alapján előre jelezzük Hollywood mozijegyekből származó bevételeit. A kuszaság gal bizony együtt jár a rendetlenség. Tegyük fel, hogy egy szőlőskert hőmérsékletének mérése a feladatunk. Ha az egész birtokhoz csupán egyetlen hőmérőnk van, gondoskodnunk kell arról, hogy az pontos legyen, és állandóan működjön is: nem enged hetünk meg semmilyen lazaságot. Ezzel szemben, ha a sok száz szőlőtőke mindegyikéhez van egy-egy érzékelőnk, akkor olcsóbb, egyszerűbb szen zorokat is használhatunk (feltéve, hogy szisztematikusan nem torzítanak valamelyik irányba). Van rá esély, hogy néhány helyen kevésbé pontos adatokat mérünk, és emiatt kuszább lesz az adatállományunk, mintha csupán egyetlen, precízen működő érzékelőből származna. De ha egyes leolvasások pontatlanok is, az összesítés átfogóbb képet ad majd. Mivel az állomány több adatból áll, sokkal értékesebb, s ez alighanem kárpótol bennünket a kuszaságért. Most pedig tételezzük fel, hogy gyakrabban olvassuk le az eredménye ket. Ha percenként egy mérést végzünk, meglehetősen biztosak lehetünk benne, hogy az adatok időrendben érkeznek be. Ha azonban másodpercen ként tízszer vagy százszor olvassuk le az értékeket, az időrendiség pontos sága csorbát szenvedhet. Mivel az információk egy hálózaton futnak végig, egy-egy adatrekord késhet, és a sorrendtől eltérően érkezhet meg, vagy akár el is veszhet. Az információ kissé pontatlanabb lesz, de a hatalmas adattömegért ez mégis elfogadható ár. Az első példában feláldoztuk az egyes adatpontok pontosságát, cserébe a mennyiségükért és egy olyan részletességért, amit máskülönben nem láthattunk volna. A második példában a hajszálpontosság helyett a gya koriságot részesítettük előnyben, és cserébe megfigyelhettük a változás folyamatát, amire máskülönben nem lett volna módunk. Bár a hibákat
* Az IBM kutatóintézete. (A Ford.)
KUSZASÁG
45
akár ki is lehetne küszöbölni, ha megfelelő erőforrásokat áldoznánk rá -végü l is, a New York-i Értéktőzsdén másodpercenként 30 ezer ügyletet kötnek,4 s ott a sorrendiségnek kitüntetett szerepe van -, sok esetben éssze rűbb, ha inkább megbékélünk a pontatlansággal. Elfogadható lehet tehát az adatok kisebb kuszasága, a nagyságrendi vál tozásért cserébe. Ahogy a Forrester technológiai tanácsadó cég fogalmaz: „Néha kettő meg kettő 3,9-cel egyenlő, és ez így rendben is van/'5Természe tesen az adataink nem lehetnek teljesen helytelenek, de némi pontosságot feláldozhatunk azért, hogy megismerjük az általános trendet. A big data úgy alakítja át az adatokat, hogy azok inkább valamiféle valószínűségi statisztikának tekinthetők, semmint precíz számsoroknak. E váltással sok mindenhez hozzá kell majd szokni, továbbá a big datának megvannak a maga által teremtett problémái is, amelyeket majd később vizsgálunk meg. Egyelőre annyit mindenképpen érdemes megjegyeznünk, hogy a lépték növelése érdekében gyakran kell majd vállalnunk az adatok kuszaságát. A számítástechnika fejlődésével együtt változik a nagyobb adatszám fontossága is. Tudjuk, hogy a feldolgozási teljesítmény milyen sokat nőtt az elmúlt években, épp úgy, ahogyan a Moore-törvény annak idején megjósolta. Ez a törvény azt mondja ki, hogy az integrált áramkörökben lévő tranzisztorok száma nagyjából kétévente megduplázódik. E szaka datlan fejlődés a számítógépeket gyorsabbá, a memóriájukat pedig egyre nagyobbá tette. Azzal viszont már kevesebben vannak tisztában, hogy a rendszereinket irányító algoritmusok teljesítménye szintén nőtt - sok területen a processzorok Moore-törvény által meghatározott fejlődését is meghaladva.6 A big datára visszavezethető társadalmi haszon jelentős része ugyanakkor nem a gyorsabb chipek vagy a jobb algoritmusok hozadéka, hanem annak köszönhető, hogy több adattal rendelkezünk. A sakkalgoritmusok például keveset változtak az utóbbi néhány évtized ben, mivel a játék szabályai ismertek és kötöttek. Az, hogy a számítógépes sakkprogramok ma sokkal jobbak, mint a múltban voltak, részben annak köszönhető, hogy jobbak a végjátékban. Erre pedig azon egyszerű okból képesek, hogy egyre több adatot táplálnak be a rendszerekbe. Valójában a hat vagy annál kevesebb bábu sakktáblán maradását jelentő végjátékokat már mind kielemezték, és az összes lehetséges lépést (N = összes adat) egy hatalmas táblázatba foglalták, amely tömörítetlen változatban több mint egy terabájtnyi adatmennyiséget tesz ki.7Ezért tudják a sakkszámítógépek
46
BIG DATA
hibátlanul lejátszani a végjátékot. Az ember soha nem lesz képes felül múlni ezt a rendszert. Hogy a több adat mennyivel fontosabb, mint a jobb algoritmusok, azt mi sem szemlélteti jobban, mint a természetes nyelvek feldolgozásának területe: az a mód, ahogyan a számítógépek megtanulják a mindenna pi beszédben használt szavak elemzését. 2000 táján a Microsoft kutatói, Michele Bankó és Eric Brill, olyan módszert kerestek, amellyel javítani tudják a cég Word programjának nyelvhelyesség-ellenőrzőjét. Nem tud ták eldönteni, melyik a hasznosabb: ha erőfeszítéseiket a már meglévő algoritmusok továbbfejlesztésére, új technikák keresésére vagy inkább új funkciók hozzáadására fordítják. Mielőtt bármerre is elindultak volna, úgy döntöttek, megnézik, mi történik akkor, ha a meglévő rendszereket sokkal több adattal töltik fel. A legtöbb gépi tanulási algoritmus szöveges korpuszokra épül, amelyek egymillió vagy annál kevesebb szót tartal maznak. Bankó és Brill fogott négy közkeletű algoritmust, és nagyság rendekkel több adatot tápláltak beléjük: 10 millió, 100 millió, végül pedig egymilliárd szót. Meghökkentő eredményre jutottak. A nagyobb adatmennyiség be táplálásával mind a négyféle algoritmus teljesítménye drámai mérték ben javult. Valójában a félmillió szóval korábban legrosszabbul teljesítő egyszerű algoritmus lett a legjobb, miután egymilliárd szóval tömték tele. Pontossága 75%-ról 95% fölé emelkedett. Ugyanakkor az, amelyik kevés adattal a legjobban működött, nagyobb adatmennyiségekkel a legkevésbé jól szerepelt, bár a többihez hasonlóan ez is sokat fejlődött, pontossága 86% -ról 94% -ra nőtt. „Mindezek az eredmények azt mutatják, hogy felül kell vizsgálnunk, vajon az algoritmusok vagy a korpuszok fejlesztésére fordítsuk-e a rendel kezésre álló időt és pénzt" - írta Bankó és Brill a témához kapcsolódó kutatási jelentésében.8 Tehát a többel többre megyünk, mint a kevesebbel. És időnként a töb bel még az okosabbnál is többre megyünk. Mi a helyzet akkor a kusza adatokkal? Néhány évvel azután, hogy Bankó és Brill belapátolta az algo ritmusokba azt a temérdek adatot, a rivális Google kutatói is hasonló irány ba indultak el - és még nagyobb léptékben. Egymilliárd szó helyett egy billiót használtak az algoritmusok tesztelésére. A Google mindezt nem egy nyelvhelyesség-ellenőrző program fejlesztése érdekében tette, hanem
KUSZASÁG
47
azért, hogy egy még keményebb diót törjön fel, és megoldást találjon a nyelvi fordítások összetett kihívására. Az ún. gépi fordítás már a számítástechnika hajnala, azaz az 1940-es évek óta - amikor a gépeket még vákuumcsövekből rakták össze, és egy egész termet elfoglaltak - része volt az informatika úttörői jövőképének. Az elképzelés megoldása különösen sürgetővé vált a hidegháború idején, amikor az Egyesült Államok hatalmas mennyiségű orosz nyelvű anyagot zsákmányolt, de gyors lefordításához nem volt elég embere. Kezdetben a számítógépes szakemberek a nyelvtani szabályok és egy kétnyelvű szótár kombinációja mellett döntöttek. 1954-ben egy IBM szá mítógép 60 orosz kifejezést fordított le angolra, a számítógép szótárának 250 szópárját, valamint 6 nyelvtani szabályt felhasználva. Az eredmény igen ígéretesnek tűnt. Egy IBM 701-es számítógépbe a következő szöve get vitték be lyukkártyán: „Mi peredajom miszli poszredsztvom recsi", és az alábbi fordítás jött ki: „A gondolatokat beszéd segítségével közöljük." A 60 mondatot „simán lefordították", ahogyan az az IBM diadalmas sajtóközleményében szerepelt. A kutatási programigazgató, León Dostert a Georgetown Egyetemről azt jósolta, hogy a gépi fordítást „öt, esetleg már három éven belül is befejezett ténynek lehet majd tekinteni."9 A kezdeti sikerek azonban igen félrevezetőnek bizonyultak. 1966-ra a gépi fordítások vezető szakembereiből álló bizottságnak el kellett ismer nie, hogy kudarcot vallottak. Nem látták, milyen komoly problémával kell megbirkózniuk. Ha a számítógépeket meg akarják tanítani a fordí tásra, akkor nemcsak a szabályokat kell ismerniük, hanem a kivételeket is. A fordítás nem csupán a memorizált szöveg felmondásából áll; a sokféle alternatíva közül ki kell választani a leginkább megfelelőt. A bonjour tény leg „jó reggelt"-et jelent? Vagy inkább a „jó napot" a helyes? Vagy a „helló", esetleg a „szia"? A válasz az, hogy attól függ... Az 1980-as évek végén az IBM kutatói újszerű ötlettel álltak elő. Ahe lyett, hogy azzal próbálkoztak volna, hogy nyelvi szabályokat és szótárakat táplálnak be a komputerbe, úgy döntöttek, a gépre bízzák, hogy a statisz tikai valószínűségek alapján számítsa ki, egy nyelv melyik szava vagy kifejezése felel meg a legjobban egy másik nyelv szavának vagy kifejezé sének. Az 1990-es években az IBM Candide projektje a kanadai parlament 10 évnyi francia és angol nyelvű jegyzőkönyveivel dolgozott - körülbelül 3 millió mondatpárral. Mivel ezek hivatalos dokumentumok voltak, a fór-
48
BIG DATA
dításokat rendkívül magas színvonalon végezték el. Az akkori időkhöz képest az adatmennyiség óriási volt. A statisztikai gépi fordítás néven is mertté vált technikának ügyesen sikerült a fordítás kihívását matemati kai problémává változtatnia. És szemlátomást működött is. A komputeres fordítások egyszerre sokkal jobbak lettek.10A sikert követően azonban az IBM - annak ellenére, hogy addig rengeteg pénzt ölt a projektbe - már csak apró fejlesztéseket tett. Nyilvánvaló volt, hogy felhagytak a terület kutatásával. Egy évtized sem telt el azonban, és 2006-ban a Goögle beszállt a gépi fordításba, mert azt egy olyan küldetés részének tekintette, amelynek célja „a világ összes információjának rendezése, univerzálisan elérhetővé és hasznosíthatóvá tétele".11 Szépen lefordított kétnyelvű szövegek helyett a Google egy nagyobb, ugyanakkor sokkal kuszább adatállományt vett igénybe: az egész internetet. Rendszere minden létező fordítást magába szívott, amit csak talált, hogy tanítsa a számítógépeket: a többnyelvű vál lalati honlapokat, a hivatalos dokumentumok fordításait, az Egyesült Nemzetek Szervezetéhez és az Európai Unióhoz hasonló kormányközi szervezetek jelentéseit. Még a Google könyvszkennelési projektjének részét képező könyvek fordításait sem hagyta ki. „Míg a Candide 3 millió, gondosan lefordított mondattal dolgozott, ad dig a Google rendszere igen eltérő minőségű fordítások oldalainak milliárdjait fogta munkára"12 - mesélte Franz Josef Och, a Google Translate vezetője, aki a téma egyik legelismertebb szaktekintélyének számít. Billiónyi szóból álló korpusza 95 milliárd, bár bizonytalan minőségű angol mondatot tett ki.13 A bevitt adatok kuszasága ellenére a Google szolgáltatása működik a legjobban. Fordításai sokkal pontosabbak, mint más rendszerekéi (bár még közel sem tökéletesek). Palettája pedig sokkal, de sokkal színesebb. 2012 közepére az adatállománya több mint 60 nyelvet foglalt magában. Gördülékeny fordításaihoz 14 nyelven nemcsak írott, hanem hangalapú szöveget is képes elfogadni. És mivel a szavakat egyszerűen valószínűségek felbecsülésére szolgáló kusza adatokként kezeli, még olyan nyelvek között is képes fordítani, mint a hindi és a katalán, pedig e téren nagyon kevés közvetlen fordítást tud elérni a rendszer javítására. Az ilyen esetekben az angolt használja közvetítő nyelvként. Emellett sokkal rugalmasabb is a többi megközelítésnél, mivel követi a szóhasználati változásokat. Nem
KUSZASÁG
49
azért működik jól a Google fordítási rendszere, mert ügyesebb algoritmust használ. Azért jobb, mert megalkotói - akárcsak Bankó és Brill a Microsoft nál - több adatot tápláltak belé, és nem csupán kiváló minőségű adatokat. A Google azért volt képes több tízezerszer akkora adatállományt használ ni, mint az IBM Candide projektje, mert elfogadta az adatok kuszaságát. 2006-ban használatba vett, billiónyi szavas korpuszát az internetes tartal mak hordalékából állították össze - úgymond „a vadonban található ada tokból". Ez volt az az oktatókészlet, amellyel a rendszer képes volt kiszá molni annak valószínűségét, hogy egy angol szó például hogyan követ egy másikat. Bizony, jó messzire jutottunk az 1960-as években született, egy millió angol szóból álló őshöz, a Brown-korpuszhoz képest.14 A nagyobb adatállomány használata páratlan lehetőséget teremtett a természetes nyelvek feldolgozására, a hangfelismeréshez és a számítógépes fordítás hoz hasonló feladatokat ellátó rendszerek pedig mind ezen alapulnak. Peter Norvig, a Google mesterséges intelligenciával foglalkozó guruja és kollégái „Az adatok ésszerűtlen hatékonysága" című tanulmányukban így írnak: „Többre megyünk az egyszerű modellekkel, ha jó sok adatot használunk hozzájuk, mint a kevesebb adattal működő bonyolult mo dellekkel." Norvig és szerzőtársai magyarázata szerint az adatok kuszasága volt a kulcs: „Bizonyos szempontból ez a korpusz visszalépés a Brown-korpuszhoz képest: mivel szüretien weboldalakból vettük, töredékmondato kat, elütéseket, nyelvtani hibákat és mindenféle más hibákat is tartalmaz. Nincs ellátva gondos kézi munkával készített szófaji címkékkel. De az a tény, hogy milliószor akkora, mint a Brown-korpusz, többet nyom a lat ban ezeknél a negatívumoknál."15
A több fontosabb a jobbnál A hagyományos mintavételi elemzőknek nem könnyű elfogadniuk a ku szaságot, hiszen egész életükben ezt akarták elkerülni. Keményen (dolgoz nak azért, hogy mintavétel közben csökkentsék a hibaszázalékokat, és az esetleges torzításokat is kiszűrjék, mielőtt közölnék az eredményeiket. Összetett hibacsökkentési stratégiákat alkalmaznak, például gondoskod
50
BIG DATA
nak arról, hogy a mintavételt szigorú protokoll alapján erre speciálisan kiképzett szakemberek végezhessék. Az ilyen stratégiák alkalmazása még korlátozott számú adatvételi pont esetében is nagyon drága, nagy adatok esetében pedig aligha valósítható meg. Nemcsak a költségek lennének hatalmasak, de ekkora léptékben a mintavételi szabványokat sem lehetne elég pontosan meghatározni. A probléma megoldásában még az emberi beavatkozás kiküszöbölése sem segítene. A big data világára történő átállás megköveteli, hogy változtassunk a pontossággal kapcsolatos nézeteinken. Ha hagyományos gondolkodással közelítünk a 21. század digitális, egymással összekapcsolt elemekből álló világához, akkor figyelmen kívül hagyunk egy nagyon lényeges szempon tot. Ahogy korábban már volt róla szó, a precizitáshoz való ragaszkodás az információszegény analóg korszak terméke. A szórványos adatok idején az egyes, adatok nagyon fontosak voltak, így figyelni kellett arra, nehogy valamelyik eltorzítsa az elemzéseket. Napjainkban már nem ez az információszegénység a jellemző. Amikor egyre átfogóbb adatállományokkal dolgozunk, amelyek az adott jelenség egy kis szelete helyett sokkal többet, akár az egészet is képesek megragad ni, már nem kell annyira aggódnunk amiatt, hogy az egyes adatpontok torzíthatják az elemzésünket. Ahelyett, hogy egyre nagyobb költségekbe verve magunkat, a pontatlanságok kiküszöbölésére törekednénk, eleve számolunk az adatok kuszaságával. Nézzük meg, hogyan terjedtek el a gyárakban a szenzorok! A BP-nek a Washington állambeli Blaine-ben található Cherry Point olajfinomítójában vezeték nélküli érzékelőket telepítettek az üzem egész területére, ame lyek láthatatlan hálót képezve hatalmas mennyiségű, valós idejű adatot gyűjtenek be. Az erős hőhatás és az elektromos gépek okozta sugárzás torzíthatja a leolvasásokat, ami kusza adatokat eredményezhet. A vezetékes és vezeték nélküli érzékelőkből származó óriási mennyiségű információ azonban kárpótol ezekért a fennakadásokért. Az adatok gyakoriságának és az érzékelők számának növelése hatalmas előnyökkel járhat. A BP a csővezetékeket terhelő nyomás folyamatos, nem pedig csak bizonyos idő közönként történő méréséből jött rá, hogy egyes nyersolajfajták korróziós hatása nagyobb, mint más fajtáké - ezt egészen addig nem tudták kideríte ni, amíg csupán kisebb adatállomány állt rendelkezésükre, s így tenni sem tudtak ellene.16
KUSZASÁG
51
Amikor az adatok változatosabbak, és a mennyiségük sokkal nagyobb, akkor már nem feltétlenül a pontosság a célunk. A nagyobb léptékre tör ténő áttérés nemcsak a precizitással szemben támasztott elvárásainkat vál toztatja meg, hanem azt is, hogy a gyakorlatban mennyire tudjuk elérni a pontosságot. Bár látszólag nincs sok értelme, mégis, ha tökéletlennek és pontatlannak fogadjuk el az adatainkat, nagyszerű előrejelzések szü lethetnek, amelyek révén jobban megismerhetjük világunkat. Érdemes megjegyezni, hogy a kuszaság nem velejárója a big datának, inkább az információk begyűjtésére és elemzésére használt eszközeink tökéletlenségét mutatja. Ha valamilyen úton-módon a technológia tökéle tessé válna, a pontatlanság problémája is megszűnne. Mivel azonban még nem tartunk itt, muszáj foglalkoznunk az adatok kuszaságával, annál is inkább, mert ez valószínűleg még sokáig velünk marad. A pontosság növeléséért tett erőfeszítéseknek gazdaságilag gyakran nincs is értelmük, mivel a nagy adatmennyiség birtoklása mellett nyomosabb érvek szól nak. Ahogy egy korábbi időszak statisztikusai háttérbe tudták szorítani a nagyobb mintaméretekre vonatkozó érdeküket a véletlenszerűség érde kében, úgy ma el tudunk viselni egy pici pontatlanságot a nagyobb adatmennyiségért cserébe. A Billión Prices Project érdekes példa erre.17 Az Egyesült Államok Munkaügyi Statisztikai Hivatala (US Bureau of Labor Statistics) havon ta közzéteszi fogyasztóiár-indexét, amelyet az inflációs ráta számítására használnak. Ez kulcsfontosságú a befektetők és a vállalkozások számára, és az amerikai jegybank szerepét betöltő FED is tekintettel van rá, amikor a kamatlábak emeléséről vagy csökkentéséről dönt. A vállalatok a fizetésemeléseket az inflációra alapozzák. A szövetségi kormány egyes kifize tések, például a társadalombiztosítási juttatások, valamint bizonyos köt vényekre fizetendő kamatok indexálására használja. A Munkaügyi Statisztikai Hivatal úgy kapja meg e számadatot, hogy több száz alkalmazottat foglalkoztat, akik az ország 90 városában üzletek és irodák felhívásával, faxon vagy személyes megkereséssel 80 ezer külön féle árucikk árát rögzítik, a paradicsom árától a taxiárakig. Ennek az éves költsége nagyjából 250 millió dollár, amely összegért tiszta és rendezett adatokat kapnak. Mire azonban a számokat közzéteszik, azok már több hetesek. És ahogy a 2008-as pénzügyi válság során is megmutatkozott, néhány hét rettenetesen hosszú idő. A döntéshozóknak gyorsabban kell
52
BIG DATA
hozzájutniuk az inflációs adatokhoz, hogy megfelelőbben tudjanak rea gálni, a precíz mintavételen és becslésen alapuló hagyományos módszerrel viszont ez nem megoldható. Erre válaszul Alberto Cavallo és Roberto Rigobon, a Massachusettsi Műszaki Egyetem (Massachusetts Institute of Technology, MIT) két köz gazdásza új utat keresett: egy big data alternatívával álltak elő. Az internet szoftveres feltérképezésével félmillió olyan termék árát gyűjtötték össze, amelyet az Egyesült Államokban napi szinten árusítanak. A begyűjtött in formáció igen kusza, nem egyszerű minden adatpontot összehasonlítani. Az adatgyűjtést okos elemzéssel kombinálva azonban sikerült az árak negatív irányú kilengését rögtön azután kimutatniuk, hogy a Lehman Brothers 2008 szeptemberében csődöt jelentett, míg azoknak, akik a hiva talos fogyasztóiár-indexre hagyatkoztak, egészen novemberig kellett vár niuk, hogy ezt láthassák. Az MIT-projektből létrehozták a PriceStats nevű vállalkozást, amelyet most már például a bankok is segítségül hívnak gazdasági döntéseikhez. A PriceStats több mint 70 ország több száz kiskereskedőjének több mil lió termékét figyeli. Természetesen az általa közölt adatokat megfelelő óvatossággal kell értelmezni, a hivatalos statisztikáknál azonban sokkal jobban jelzik az inflációs trendeket. Mivel több termék árát vizsgálják, és a számadatok valós időben állnak rendelkezésre, jelentős előnyt bizto sítanak a döntéshozóknak. (A módszer a nemzeti statisztikai hivatalok hiteles külső ellenőrzésére is szolgál. Például a The Economist nem bízik meg Argentína inflációszámítási módszertanában, ezért inkább a Price Stats számadataira támaszkodik.)18
Kuszaság akcióban Egyre inkább hajiunk a több, de kuszább, mint a kevesebb, ám pontosabb adat elfogadására. Vegyük a tartalomkategorizálás esetét! Az emberiség évszázadokon keresztül fejlesztette osztályozási rendszereit, név- és tárgy mutatóit, azért, hogy írásos anyagait tárolhassa és visszakereshesse. Ezek a hierarchikus rendszerek sosem voltak tökéletesek - ezt bárki tanúsíthat ja, akinek volt már dolga például könyvtári katalógussal -, de a small data
KUSZASÁG
53
világában azért elég jól működtek. Ha azonban a léptéket megpróbáljuk több nagyságrenddel megnövelni, az eddig működőképesnek tartott rendszerek azonnal szétesnek. 2011-ben a Flickr fotómegosztó oldal pél dául 75 milliónál is több felhasználó több mint 6 milliárd fotóját tárolta.19 Fölösleges igyekezet lett volna minden fotót előre meghatározott kate góriákba sorolni.20Vajon lett volna például olyan kategória, hogy „Hitler hez hasonlító macskák"? A tiszta osztályozási rendszert ezért.olyan eljárások váltják fel, amelyek rugalmasabbak, és jobban képesek alkalmazkodni a fejlődő és változó vi lághoz. Amikor fényképeket töltünk fel a Flickrre, „felcímkézzük" őket, azaz olyan szövegeket rendelünk hozzájuk, amelyek révén rendszerezni tudjuk a fotókat, és rájuk tudunk keresni. E szövegeket ad hoc találjuk ki: nincsenek szabványosított, előre meghatározott kategóriák, semmi lyen osztályozási rendszerhez nem kell tartanunk magunkat, és bárki új címkéket rendelhet a képekhez. A címkézés az internetes tartalomosztá lyozás de facto szabványává vált, használják a közösségimédia-oldalakon, például a Twitteren és biogokban. így könnyebb navigálni az óriási inter netes tartalomkínálatban - különösen képek, videók és zenék esetében, amelyek nem szövegalapúak, tehát nem lennének alkalmasak a szöveges keresésekre. Természetesen a felcímkézések során elütések is előfordulhatnak, az ilyen hibák pedig pontatlansághoz vezethetnek - nem az adatokra, hanem azok elrendezésére vonatkozóan. Az iskolában persze a pontos ságra tanítottak minket, így ezt még meg kell tanulnunk elfogadni. Fotó gyűjteményeink elrendezésének kuszaságáért cserébe viszont a címkék végtelen gazdagságát nyerjük, magyarán, szélesebb hozzáférést a képek hez. A címkék szerinti keresést kombinálhatjuk a fotók olyan szűrésével is, ami korábban nem volt lehetséges. A címkézéssel járó tökéletlenség elfogadása egyben azt is jelenti, hogy elfogadjuk: világunk természetes állapota a kuszaság. Azoknak a precíziós rendszereknek az ellenszere ez, amelyek egyfajta hamis sterilitást igyekeznek ráerőltetni zűrzavaros vilá gunkra - mintha az égvilágon mindent csinos kis sorokba és oszlopokba lehetne préselni! Ennél azért több dolog van földön és égen... A legnépszerűbb internetes honlapok közül elég sok szinte tüntetőén mellőzi a precizitást. A Twitter ikonja vagy a Facebook „like" gombja mu tatja, hányán klikkeltek már korábban az adott oldalra. Amíg kevesen,
54
BIG DATA
addig a kattintásokat pontosan feltüntetik. Ahogy azonban nőnek a szá mok, már csak egy hozzávetőleges értéket mutatnak, például nem 4357-et, csak annyit: 4K. Nem arról van szó, mintha a rendszer nem tudná, hol tart az oldal népszerűsége, hanem arról, hogy a számok növekedésével a pontosság elveszíti jelentőségét. Arról nem is beszélve, hogy az adatok olyan gyorsan változhatnak, hogy mire egy adott szám megjelenik a hon lapon, addigra talán már nem is a valóságot tükrözi. Ehhez hasonlóan a Google Gmailje a nemrégiben küldött üzenetek idejét pontosan tünteti fel, például azt írja, „11 perccel ezelőtt", a régebbiekét azonban a Facebookhoz és más honlapokhoz hasonlóan fesztelen könnyedséggel kezeli: „2 órával ezelőtt". A vállalati és elemzői szoftverek gyártói sokáig - a 2000-es évek általuk divatba hozott kifejezésével - az „igazság egyetlen változatának" ígéretére alapozták üzletüket. A vállalatvezetők mindenféle irónia nélkül használ ták e kifejezést, és néhányan közülük még ma is ezt teszik, ami azt jelenti, hogy az adott vállalatok munkatársai csak egyféle adattal dolgozhatnak. A felső vezetők szerint ennek az az előnye, hogy a marketinges és az érté kesítési csapatoknak nem kell már az értekezletek előtt azon küzdeniük egymással, hogy melyikük eladási kimutatásai tükrözik a valós helyzetet, hiszen csak egyfajta adat létezik. Az érdekeiket is jobban tudják egyez tetni, ha a tényadatok megegyeznek, szól az érvelés. Az „igazság egyetlen változatának" gondolata azonban visszalépést jelent. Mostanában kezdünk rájönni: amellett, hogy az egyféle igazság létezése lehetetlen, az erre való törekvés ráadásul elvonja figyelmünket a fontosabb dolgokról. A nagy mennyiségű adat előnyeinek kihaszná lásához el kell fogadnunk, hogy a kuszaság bizony benne van a pakliban, a kiküszöböléséért folytatott küzdelemnek nincs sok értelme. Már azt is láthatjuk, hogyan hódítja meg a pontatlanság épp azt a terü letet, amely a legkevésbé toleráns vele szemben. Az adatbázis-tervezésben használt hagyományos adatbázismotorok igen strukturált, precíz adatokat követeltek meg. Az adatokat sem egyszerűen tárolták; adatmezőket tar talmazó „rekordokra" bontották őket. Minden mező meghatározott típusú és hosszúságú információt foglalt magában. Ha például egy numerikus mező 7 számjegy hosszúságú volt, akkor a 10 milliót elérő számokat már nem lehetett rögzíteni. Ha valaki a „nem áll rendelkezésre" információt szerette volna bevinni egy telefonszámok tárolására szolgáló mezőbe, nem
KUSZASÁG
55
tehette. Az ilyen adatbevitelek az adatbázis felépítésének megváltoztatását követelték volna meg. A számítógépeinken és az okostelefonjainkon néha még ma is találkozunk hasonló problémával. A hagyományos név- és tárgymutatók szintén előre meghatározottak voltak, ami behatárolta a keresési lehetőségeket. Minden új betűrendes mutatót a semmiből kellett létrehozni, és ez időbe telt. A hagyományos, ún. relációs adatbázisokat olyan világra tervezték, ahol kevés az adat, így igen gondosan kell felügyelni őket. E világban az adatokkal megválaszo landó kérdéseket már a kezdet kezdetén tisztázni kell, hogy az adatbázist eleve úgy tervezzék, hogy ezeket - és csakis ezeket - hatékonyan meg is lehessen válaszolni. Az adattárolás és -elemzés e módja azonban egyre kevésbé fér össze a valósággal. Manapság a legkülönbözőbb fajtájú és minőségű információk hatalmas tárháza áll rendelkezésünkre. Ezek ritkán férnek bele szabato san meghatározott kategóriákba, amelyeket már a kezdet kezdetén isme rünk. A kérdések pedig csak akkor vetődnek fel, amikor az adatokat már begyűjtöttük, és elkezdtünk velük dolgozni. Ezek a felismerések újszerű adatbázisok tervezéséhez vezettek, ame lyek szakítanak a régi alapelvekkel - a szép, hierarchikus rendbe szedett információkat tükröző rekordok és beállított adatmezők alapelveivel. Az adatbázisokhoz való hozzáférés legáltalánosabban használt nyelve már régóta az SQL, azaz a „strukturált lekérdezőnyelv" (Structured Query Language). Már maga az elnevezés is merevséget tükröz. Az elmúlt években elmozdulás figyelhető meg az ún. noSQL irányába, amelynek működéséhez nincs szükség a rekordszerkezet beállítására. Minden faj tájú és méretű adatot elfogad, és ezekre rá is lehet keresni a segítségével. A szerkezeti kuszaság elfogadásáért cserébe az ilyen adatbázis-tervezés több feldolgozási erőforrást és tárhelyet igényel. A zuhanó tárolási és feldolgozási költségek következtében megengedhetjük magunknak ezt a kompromisszumot. Az adatbázis-tervezés egyik legnagyobb szaktekintélye, Pat Helland „If You Have Too Much Data Then »Good Enough« Is Good Enough" (Ha túl sok adatunk van, akkor az „elég jó" épp elég jó) című tanulmányában ír a nagy jelentőségű változásról. Miután végigveszi a kusza adatok által megtépázott hagyományos tervezés alapelveit, levonja a következtetést: „Többé már nem tehetünk úgy, mintha tiszta világban élnénk."
56
BIG D AT A
A big data feldolgozása elkerülhetetlenül információvesztéssel jár - Helland ezt „veszteségnek" nevezi. A gyorsaság azonban bőven kárpótol érte. Helland így összegez: „Nem gond, ha a válaszaink veszteséget tar talmaznak - az üzletnek gyakran pont ilyen válaszokra van szüksége."21 A hagyományos adatbázis-tervezés azt ígéri, hogy válaszai az idő múlá sával is következetesek maradnak. Amikor például a bankszámlánk egyen legét szeretnénk megtudni, elvárjuk, hogy pontos választ kapjunk. És ha néhány másodperc múlva megismételjük a lekérdezésünket, ugyanarra a számra számítunk, feltételezve, hogy semmi változás nem történt. Még is, ahogyan a begyűjtött adatok mennyisége nő, és a rendszerhez is egyre többen férnek hozzá, úgy válik egyre nehezebbé e konzisztencia fenn tartása. A nagy adathalmazokat jellemzően több merevlemez és számítógép között osztják meg. A megbízhatóság és gyorsaság érdekében egy rekor dot két vagy három különböző helyen is tárolhatnak. Ha az egyik helyen módosítunk egy rekordot, akkor a többi helyen lévő adatot is frissíteni kell; egészen addig nem lesznek helyesek. A hagyományos rendszerek az összes frissítés befejezéséig késéssel reagálnának a változásokra, ez pedig kevésbé praktikus akkor, amikor az adatokat széles körben megosztva tárolják, és a szervert másodpercenként több tízezer lekérdezés terheli. Az adatok kuszaságának elfogadása egyfajta megoldást jelenthet. A változást jól példázza a Google MapReduce rendszerének nyílt for ráskódú riválisa, a Hadoop népszerűsége, amely jól teljesít a nagy menynyiségű adatok feldolgozása terén. Az adatokat kisebb blokkokra darabolja, és azokat szétosztja a többi gép között. Hardverhibára számítva redundan ciát épít be. Azt feltételezi, hogy az adatok nem tiszták és rendezettek - sőt azt is, hogy túl nagyok ahhoz, hogy a feldolgozás előtt meg lehessen őket tisztítani. Míg egy tipikus adatelemzés ETL (Extraction, Transformation and Load), azaz „kinyerés, átalakítás és betöltés" műveletet igényel ahhoz, hogy az adat oda kerüljön át, ahol majd az elemzés történik, a Hadoop nélkülözi az efféle finomságokat. Magától értetődőnek tekinti, hogy az adatmennyiség olyan lélegzetelállítóan nagy, hogy nem lehet áthelyezni oda, ahol elemeznék őket, tehát a műveletet ott kell elvégezni, ahol az adatok találhatók. A Hadoop nem olyan precíz, mint egy relációs adatbázis: egy űrhajó elindítását vagy bankszámlaadatok igazolását nem lehetne rábízni. Sok
KUSZASÁG
57
más, kevésbé kritikus feladat esetében azonban, amikor nincs szükség ultrapontos válaszokra, más rendszereknél jóval gyorsabban végzi el ezt a bűvészmutatványt. Lássunk például egy vevőlista-szegmentálási feladatot! A Visa hitelkártyacég speciális marketing-kampányanyagot akart küldeni ügyfelei egy részének. A Hadoop használatával sikerült kétévnyi tesztadatmennyiségnek - körülbelül 73 milliárd tranzakciónak a feldolgozási idejét egy hónapról alig 13 percre csökkentenie.22 A feldol gozás ilyen mértékű felgyorsítása forradalmi jelentőségű a vállalkozások számára. A Douglas Merrill, a Google korábbi informatikai igazgatója által alapított, ZestFinance nevű cég tapasztalatai is e kérdés fontosságát hangsúlyozzák. A ZestFinance rendszere segítséget jelent a hitelnyújtóknak, amikor azt kell eldönteniük, adjanak-e viszonylag kis összegű, rövid lejáratú kölcsönt olyanoknak, akik látszólag gyenge hitelképességgel rendelkeznek. Míg a hagyományos hitelminősítés csupán néhány olyan jelzésen alapul, mint a korábbi fizetési késedelmek, addig a ZestFinance több „gyengébb" tényező elemzésével foglalkozik. 2012-ben a cég azzal büszkélkedhetett, hogy a késve vagy nem teljesítő hitelfelvevők aránya náluk egyharmadával ke vesebb volt, mint az ágazati átlag. A rendszer működtetéséhez azonban elengedhetetlen az adatok kuszaságának elfogadása. „Érdekes - mondja Merrill -, hogy nincs olyan ember, akinél minden adatmező ki lenne töltve. Mindig rengeteg a hiányzó adat." A ZestFinance által gyűjtött információkból álló mátrix meglehetősen hiányos, csak úgy hemzseg az üres celláktól. A cég ezt úgy oldja meg, hogy „beszámítja" a hiányzó adatokat. Emiatt például a ZestFinance ügyfeleinek nagyjából 10%-át halottként jelenítették meg - kiderült azonban, hogy a törlesz tésekre ez nincs hatással. „A zombiapokalipszisre készülve a legtöbben nyilvánvalóan azt feltételezik, hogy a hitelek nem lesznek visszafizetve. Adataink azonban azt mutatják, hogy a zombik igenis rendesen szoktak törleszteni" - ironizál Merrill. Ha hajlandóak vagyunk megbékélni némi kuszasággal, cserébe roppant értékes szolgáltatásokhoz juthatunk, amelyeket hagyományos módszerek kel és eszközökkel nem értünk volna el. Egyes becslések szerint a digitális adatoknak csak mintegy 5%-a „strukturált"23 - ekkora részük illeszthető be egy hagyományos adatbázisba. A rendetlenség elfogadása nélkül a strukturálatlan adatok 95%-a - honlapok, videók stb. - ebek harmincad-
58
BI G D A T A
jára kerülne. Ha viszont belenyugszunk a tökéletlenségbe, kiaknázatlan lehetőségek egész tárháza nyílik meg előttünk. A társadalom két hallgatólagos kompromisszumot is kötött, amelyeket már teljesen természetesnek veszünk. Először is, azt feltételezzük, hogy képtelenek lennénk sokkal több adatot használni, tehát inkább meg sem tesszük. E megkötés azonban egyre kevésbé fontos, és rengeteget nyerhe tünk, ha megpróbáljuk magunkévá tenni az „N = összes" elvét. A második kompromisszum az információk minőségével kapcsolatos. A small data korában érthető volt, hogy előnyben részesítettük a pontos ságot, hiszen amikor kevés információt gyűjtöttünk be, annak a lehető legprecízebbnek kellett lennie. Sokszor ez még mindig számíthat. Számos más esetben viszont a nagyfokú pontosság kevésbé fontos, mint az, hogy átfogó áttekintést nyerjünk egy dologról vagy annak előrehaladásáról. Az, hogy a töredékes helyett a teljes információ hasznosításáról gon dolkodunk, illetve a pontosság helyett a lazaságot kezdjük értékelni, ala posan megváltoztathatja a világhoz fűződő kapcsolatunkat. Ahogy a big data technikák egyre inkább a mindennapi életünk részévé válnak, meg próbálhatjuk a világot a korábbinál sokkal átfogóbban megérteni. Elkezd hetjük majd elfogadni a homályos és kétértelmű dolgokat olyan terüle teken, ahol korábban elvártuk az egyértelműséget és a bizonyosságot, még ha ez hamis és tökéletlen volt is. Ennek fejében a valóság érzékelése teljesebbé válik - valahogy úgy, ahogy egy impresszionista festményen az ecsetvonások közelről szemlélve kuszának tűnnek, de hátralépve fenséges kép tárul elénk. A big data, azáltal hogy az átfogó adathalmazokra és a kuszaságra he lyezi a hangsúlyt, elősegíti, hogy közelebb kerüljünk a valósághoz, mint a small datától és a pontosságtól való függőség révén. Persze az eddigi viselkedésünk is teljesen érthető. Lehet, hogy a világot nem voltunk képe sek a maga teljességében megérteni, sőt alkalmanként tévedtünk is, de leg alább a bizonyosság tudatában, a megnyugtató stabilitást élvezve tettük. Emellett, mivel a lehetőségeinket behatárolták a feldolgozható adatok, nem akartuk minden szempontból megvizsgálni a dolgokat. A small data szűk keretei között még büszkék is voltunk a precizitásunkra, miközben nem láttuk a fától az erdőt.
KUSZASÁG
59
Végső soron a big data tőlünk követel változást, hogy ne érezzük annyira kellemetlennek az összevisszaságot és a bizonytalanságot. A pontossághoz kötődő rendszerek, amelyekhez eddig igazodtunk - kerek nyílásba kerek tárgy illik, egy kérdésre csupán egy válasz létezik-, képlékenyebbek, mint hittük; és ha ezt elfogadjuk, közelebb jutunk a valósághoz. A gondolkodás megváltozása tehát radikális átalakulásokat hoz, ame lyek egy újabb következményhez vezetnek: le kell mondanunk arról a még alapvetőbb társadalmi konvencióról, hogy meg akarjuk érteni valamennyi történés mögöttes okait. Ehelyett - ahogy majd a következő fejezet be mutatja -, ha összefüggéseket találunk az adatokban, és a tetteinket hozzá juk igazítjuk, az pont elegendő lehet.
4
KORRELÁCIÓ 24 é v e s v o l t , amikor 1997-ben, a Washingtoni Egyetemen folytatott, a mesterséges intelligencia kutatására összpontosító doktori ta nulmányai idején úgy döntött, munkát vállal egy helyi, online könyváru sítással foglalkozó startup cégnél. Bár a vállalkozás mindössze két éve működött, meglehetősen nagy volt a forgalma. „Imádtam a gondolatot, hogy könyvet és egyúttal tudást árulok; hogy segíthetek az embereknek megtalálni azt, amivel bővíthetik az ismereteiket" - emlékszik vissza. A céget Amazon.com-nak hívták. Lindent szoftvermérnökként alkalmazták; az volt a feladata, hogy gondoskodjon az oldal zökkenőmentes működéséről.1 Az Amazonnál nem csak informatikusok dolgoztak. A vállalkozás ak koriban tucatnyi könyvkritikust és szerkesztőt is foglalkoztatott, hogy recenziókat írjanak, és javaslatokat tegyenek, mit érdemes árulni. Bár az Amazon történetét sokan ismerik, arra már kevesebben emlékeznek, hogy az általa kínált választékot eleinte milyen gondos munkával válogatták össze. Szerkesztők és kritikusok értékelték és döntötték el, mely könyvek kerüljenek fel az Amazon honlapjára. Ok feleltek az ún. Amazon-han gért, amelyre a cég egyik fő értékeként és versenyelőnyének zálogaként tekintettek. A Wall Street Journal egyik cikke akkoriban az ország legbefo lyásosabb könyvkritikusaiként ünnepelte őket, hiszen segítségükkel az egekbe szöktek az eladások.2 Aztán Jeff Bezos, az Amazon alapítója és vezérigazgatója egy ígéretes ötlettel kezdett kísérletezni: mi lenne, ha a cég személyre szabott ajánlato kat küldene vásárlóinak? Az Amazon a kezdetektől fogva rengeteg adatot G r e g L in d e n
KORRELÁCIÓ
61
rögzített minden vevőjéről: mit vásároltak, mely könyvek voltak azok, amelyeket csak megnéztek, de nem vettek meg, és mennyi ideig nézeget ték őket. Az adatok mennyisége akkora volt, hogy az Amazon először hagyomá nyos módon, mintavételek elemzésével keresett hasonlóságokat a vásárlói között. Az így született ajánlások nem voltak túlságosan kifinomultak. Ha valaki vásárolt egy könyvet Lengyelországról, utána kelet-európai témájú könyvekkel kezdték bombázni; ha pedig csecsemőkről szóló kötetet vett, hasonló ajánlatokkal árasztották el. „Jellemzően a vevő előző vásárlásától nem sokban különböző ajánlatokat tettek, újra és újra - emlékszik vissza Amazonia című emlékirataiban James Marcus,3 aki 1996 és 2001 között az Amazon kritikusaként dolgozott. - Olyan érzése volt az embernek, mintha a falu bolondjával ment volna vásárolni." Greg Linden kitalált egy megoldást. Rájött, hogy az ajánlórendszernek nem muszáj összehasonlítania egymással az embereket, ami egyébként is túl bonyolult technikát igényelt. Nem kellett mást tenni, mint összefüg géseket találni a termékek között. 1998-ban Linden a kollégáival együtt szabadalmi kérelmet nyújtott be a „tételalapú" kollaboratív szűrés né ven ismertté vált módszerre. Az újfajta megközelítés nagy változásokat hozott. Mivel a számításokat előre el lehetett végezni, a javaslatok villámgyor sak lehettek. A módszer sokoldalú volt, és termékkategóriáktól függetlenül működött. így aztán, amikor az Amazon más termékeket is árulni kezdett, filmeket vagy kenyérpirítókat is tudott ajánlani. Az ajánlások pedig sok kal jobbak voltak a korábbiaknál, mert a rendszer az összes adatot fel használta. „Azzal viccelődtünk a csapatban, hogy ha tökéletes munkát végeznénk, akkor az Amazonnak csak egyetlen könyvet kellene mutatnia a vásárlónak: a következőt, amit megvesz" - emlékszik vissza Linden. A vállalatnak ezek után el kellett döntenie, mi jelenjen meg a weboldalán. Gép által generált tartalmak, például személyes ajánlások és siker listák, vagy pedig az Amazon saját szerkesztői csapata által írt kritikák? A klikkelések vagy a kritikusok üzenete fontosabb? Egerek és emberek küzdelme... Amikor az Amaz megvizsgálta, melyik tartalom vezetett magasabb értékesítéshez, az eredmény még csak szorosnak sem volt mondható. A személyre szabott ajánlások jóval nagyobb eladásokat hoztak. A számító-
62
BI G D AT A
gép talán nem tudta, hogy egy Hemingway-olvasó miért vesz meg szíve sen egy F. Scott Fitzgerald-művet is, ám ennek nem is volt jelentősége, ha csilingelt a pénztárgép. Végül a szerkesztőket szembesítették azzal, hogy az Amazonnak veszteséget jelent, ha online kritikákat tesz közzé, és a csapatot szélnek eresztették. „Nagyon szomorú voltam amiatt, hogy elküldték a szerkesztőket - emlékszik vissza Linden -, de az adatok nem hazudnak, és ők tényleg nagyon sokba kerültek." Manapság az Amazon állítólag az értékesítésének egyharmadát köszön heti a személyes ajánlórendszereknek.4 Ezek segítségével a cég sok ver senytársát tette tönkre: nemcsak nagy könyváruházakat és zeneboltokat, hanem helyi könyvkereskedőket is, akik azt hitték, a vásárlókkal való személyes kapcsolat megvédi őket a változások szelétől. Linden munkája valójában forradalmasította az elektronikus kereskedelmet; módszerét szinte mindenki átvette. A Netflix internetes filmkölcsönző cég új meg rendeléseinek háromnegyede például ajánlások útján keletkezik.5 Az Amazon nyomdokain haladva weboldalak ezrei használják sikeresen ezt a módszert termékekre, médiatartalmakra, barátokra és popzenekarokra, anélkül, hogy tudnák, miért érdekelhetik ezek az embereket. A miért ismerete kellemes dolog lehet, de az eladás ösztönzése szempont jából nincs jelentősége. A mit kérdésre adott válasz sokkal több pénzt hoz. Ez a tudás egész ágazatokat képes átalakítani, és nem csupán az elektroni kus kereskedelem területén. Eddig minden cégnél azt mondogatták az ér tékesítéssel foglalkozó munkatársaknak, hogy meg kell érteniük vásárlóik motivációit, tudniuk kell, milyen okok állnak a döntéseik mögött. Szakmai képességeiket és sokéves tapasztalatukat nagy becsben tartották. A big data azt mutatja, hogy létezik más, bizonyos értelemben pragmatikusabb módszer is. Az Amazon innovatív ajánlórendszere anélkül képes értékes összefüggéseket feltárni, hogy a mögöttes okokat ismerné. Elég, ha a miért helyett a mit kérdésre tudjuk a választ.
KORRELÁCIÓ
63
Előrejelzés és előszeretet Az összefüggések a small data világában is fontosak lehetnek, ám a big data esetében vesszük igazán nagy hasznukat. Segítségükkel a koráb biaknál könnyebben, gyorsabban és egyértelműbben deríthetünk ki lénye ges dolgokat. Lényegét tekintve a korreláció két adatérték statisztikai kapcsolatát számszerűsíti. Az erős korreláció azt jelenti, hogy amikor az egyik adat ér téke változik, valószínűleg a másiké is követi. Ilyen erős korrelációt láttunk például a Google Flu Trends esetében: minél többen kerestek rá bizonyos kifejezésekre a Google-lal egy adott területen, annál többen voltak ott influenzásak. Ezzel szemben a gyenge korreláció azt jelenti, hogy amikor az egyik adat értéke megváltozik, a másik értékével alig történik valami. Ha például az egyének hajhosszúsága és boldogsága közötti összefüg gést vizsgálnánk, kiderülne, hogy az emberek boldogsága nemigen függ a hajuk hosszától. A korrelációk lehetővé teszik, hogy egy jelenséget ne azzal a módszerrel elemezzünk, hogy kiderítjük, miképpen működik, hanem úgy, hogy egy hasznos jelzőértéket találunk rá. Természetesen még az erős korrelációk sem tökéletesek. Előfordulhat, hogy két dolog csak véletlenül viselkedik hasonlóan. Az empirista Nassim Nicholas Taleb kifejezésével élve „a vé letlenszerűség könnyen bolondot csinálhat belőlünk".6A korrelációk ese tében nincs bizonyosság, csak valószínűség; ha viszont egy korreláció erős, akkor a kapcsolat valószínűsége is nagy. Sok Amazon-vásárló tanúsíthatja ezt a cég ajánlásai nyomán telepakolt könyvespolcára mutatva. A korrelációk, azáltal hogy rávezetnek egy jelenség jó megközelítésére, abban is segítenek, hogy megértsük a jelent, és előre jelezzük a jövőt: ha A gyakran együtt jár B-vel, akkor B megfigyelésével előre jelezhetjük A vál tozását. B jelzőértékként történő használata segít abban, hogy megértsük, valószínűleg mi történik A-val, még akkor is, ha A-t nem áll módunk ban közvetlenül megmérni vagy megvizsgálni. Fontos, hogy azt is segít előre jelezni, mi történik A-val a jövőben. A korrelációk természetesen nem mondják meg a jövőt, csak bizonyos valószínűséggel előre jelzik. Ez a képességük azonban roppant értékes lehet. Nézzük például a Walmart esetét! A Walmart több mint 2 millió alkal mazottal és 450 milliárd dollár körüli éves forgalommal - ez az összeg
64
BIG DATA
meghaladja a Föld országai négyötödének összesített GDP-jét - a világ leg nagyobb kiskereskedelmi vállalata. A tömeges internetes adattermelést megelőző időkben az egész amerikai vállalati szektor talán legnagyobb adatbázisával rendelkezett. Az 1990-es években azzal forradalmasította a kiskereskedelmet, hogy minden termékét felvezette Retail Link nevű rendszerébe. Ezzel átengedte a beszállítóknak az értékesítés ütemének és volumenének, valamint az árukészletek szintjének nyomon követését. Az átláthatóság megteremtésével a vállalat rákényszeríthette a szállítókat, hogy maguk gondoskodjanak a készletezésről. Sok esetben a Walmart egészen az értékesítésig nem is veszi „tulajdonba" az árut, így megszabadul a készletezési kockázatoktól, és csökkenti a költségeit. A Walmart arra használta az adatokat, hogy gyakorlatilag a világ legnagyobb bizományi áruházává váljon. Mi mindent képesek feltárni ezek a múltbéli adatok, ha megfelelő mó don elemzik őket? A kiskereskedő a Teradata cég - korábban a patinás National Cash Register Company —szakembereivel dolgozott azon, hogy a számára érdekes összefüggéseket feltárja. 2004-ben a Walmart meg vizsgálta múltbéli tranzakcióinak óriási adatbázisait: milyen árucikket vásároltak a vevői, és mennyit fizettek összesen, mi volt még a kosaruk ban, mely napszakban vásároltak, sőt még az időjárási körülményeket is elemezték. A vizsgálat során észrevették, hogy hurrikánok előtt nemcsak a zseblámpák eladása nőtt meg, hanem a Pop-Tarts nevű cukrozott reggeli snacké is. Vihar közeledtekor ezért a Walmart az áruházai első részébe Pop-Tarts-dobozokat helyezett a hurrikánhoz köthető termékek mellé, megkönnyítve ki-be rohangáló vevői életét - és ezzel persze fel is lendí tette eladásait.7 A múltban ahhoz, hogy egy vállalat központjában valaki adatgyűjtésbe fogjon, és tesztelhesse ötletét, kellett, hogy legyen valami előzetes feltevé se. Manapság, amikor olyan rengeteg adatunk van, és a rendelkezésre álló eszközök is jobbak, az összefüggéseket gyorsabban és olcsóbban fel lehet ismerni. (Ennek ellenére azért nem árt az óvatosság: ha az adatpontok szá ma nagyságrendekkel nő, több hamis korrelációt láthatunk: látszólag kap csolódó, a valóságban azonban egymáshoz nem kötődő jelenségeket. Csak mostanában kezdjük felismerni, mennyire fontos erre odafigyelnünk.) A korrelációelemzés már jóval a big data megjelenése előtt is nagyon ér tékesnek bizonyult. A fogalmat Sir Francis Galton, Charles Darwin unoka
KORRELÁCIÓ
65
fivére fejtette ki először, 1888-ban, miután összefüggést fedezett fel az em berek magassága és alkarjuk hossza között. A korrelációelemzés mögött rejlő matematika viszonylag egyszerű volt, ami segítette abban, hogy az egyik legszélesebb körben használt statisztikai mutató váljon belőle. A big datát megelőzően mégis csak korlátozottan volt hasznos. Mivel kevés adat állt rendelkezésre, és a begyűjtésük sem volt olcsó mulatság, a statiszti kusok gyakran kiválasztottak egy jelzőértéket, amit a tárgyra vonatko-, zó adatok összegyűjtése és korrelációelemzés követett, hogy kiderüljön, mennyire jó jelzőszámot választottak. De hogyan kell a megfelelőt ki választani? Iránymutatásul a szakemberek különböző elméletek - a dolgok műkö désére vonatkozó absztrakt elképzelések - alapján felállított hipotéziseket használtak. Ezek alapján gyűjtötték az adatokat, és a korrelációs elemzés segítségével igazolták, hogy megfelelő jelzőértéket választottak. Ha ez első re nem sikerült, akkor a kutatók, csökönyösen kitartva elképzelésük mel lett, gyakran újra nekifutottak - hátha csak az adatgyűjtésben volt hiba -, mielőtt beismerték volna, hogy hipotézisük - vagy még inkább az elmélet, amelyre épült -, téves volt, és módosításra szorul. Ezekkel a próbálkozá sokkal mégis egyre több ismeretre tettek szert, bár igen lassan: az egyéni és a kollektív elfogultság elhomályosította azt, hogy milyen hipotéziseket állítottak fel, hogyan alkalmazták őket, és így milyen jelzőértékeket válasz tottak. Fáradságos folyamat volt, de a small data világában járható útnak bizonyult. A big data korában már nem elég hatékony csupán hipotézisek alapján eldönteni, hogy milyen mutatókat akarunk megvizsgálni. Az adathalma zok túl nagyok, a vizsgált terület pedig valószínűleg túlságosan összetett. Szerencsére ma már sokkal kevésbé kényszerülünk hipotézisalapú meg közelítésre. Napjainkban olyan sok adat és akkora számítógépes kapacitás áll rendelkezésünkre, hogy nem kell fáradságos munkával kiválasztanunk egy vagy több helyettesítő mutatót, aztán egyenként megvizsgálnunk őket. A kifinomult számítógépes elemzésekkel ma már ki lehet választani az opti mális jelzőértékeket, ahogyan az csaknem félmilliárd matematikai modell átrágását követően a Google Flu Trends esetében is történt. A világ megértésének többé nem előfeltétele, hogy már a kezdetekkor érdemi hipotézisünk legyen a jelenségekről. Nem kell kidolgozott elkép zeléssel rendelkeznünk arról, hogy milyen kifejezésekre keresnek rá az
66
BIG DATA
emberek a neten az influenza terjedésének helyén, a járvány ideje alatt. Megengedhetjük magunknak, hogy halvány fogalmunk se legyen a légitársaságok árképzési gyakorlatáról. Nem kell azzal foglalkoznunk, hogy a Walmart vásárlói milyen ételeket szeretnek. Ehelyett korrelációs elemzés nek vethetjük alá a big datát, hogy megmondja nekünk, milyen keresési lekérdezések a legjobb jelzőértékei az influenzának, hogy egy repülőjegy ára várhatóan nem kezd-e növekedni, vagy hogy a közelgő hurrikán miatt aggódó családok vajon mit akarnak majd majszolni, amikor a vihar lecsap, A megközelítésünk hipotézisek helyett adatokon alapulhat. Eredményeink így kevésbé elfogultak, ám annál pontosabbak lesznek, és szinte teljesen biztos, hogy hamarabb hozzájuk jutunk. A korreláción alapuló előrejelzések a big data lényegi részét képezik. Manapság olyan gyakran használunk korrelációs elemzéseket, hogy néha nem is értékeljük eléggé, mekkora segítséget jelentenek. Használatuk pedig a jövőben egyre gyakoribb lesz. Az adósok várható viselkedésének előrejelzésére például pénzügyi hi telbírálati minősítéseket használnak. A módszert a Fair Isaac Corporation - mai nevén FICO - alkalmazta először, az 1950-es évek végén. 2011-ben a FICO létrehozta az orvosságok szedési utasításainak betartására vonatkozó pontozási rendszert, az ún. Medication Adherence Score-t. Annak meg állapítására, hogy az emberek mekkora valószínűséggel fogják bevenni gyógyszereiket, a FICO különböző mutatók széles körét elemzi. Ezek között olyanok is vannak, amelyek a legkevésbé sem tűnhetnek fontosnak, például, hogy a betegek mióta élnek ugyanazon a lakcímen, házasok-e, mióta dolgoznak jelenlegi állásukban, van-e autójuk. A pontozási rendszer azzal igyekszik elősegíteni az egészségügyi szolgáltatók megtakarításait, hogy megmondja nekik, mely pácienseiket kell emlékeztetőikkel megcéloz niuk. Semmilyen ok-okozati összefüggés nincs aközött, hogy valakinek van-e autója, és aközött, hogy az utasítás szerint szedi-e a gyógyszereit; a kettő közti kapcsolat kizárólag korrelációs jellegű. A fentiekhez hasonló megállapítások azonban elegendőnek bizonyultak ahhoz, hogy a FICO vezérigazgatója 2011-ben így büszkélkedjen: „Mi azt is meg tudjuk mon dani, hogy önök mit fognak csinálni holnap." Más adatkereskedők is beszállnak a korrelációs üzletbe, ahogy arról a Wall Street Journal számolt be „What They Know" (Amit tudnak rólunk) című cikksorozatában. Az Experian cég Income Insight (jövedelmi betekin
KORRELÁCIÓ
67
tés) nevű terméke részben az emberek hitelminősítése alapján becsüli meg jövedelemszintjüket. Pontozási rendszerét hatalmas adósminősítési adatbázisának elemzésével alakította ki, amelyet összevetett az ameri kai nemzeti adóhatóság (U.S. Internál Revenue Service) anonim adózási adataival. Míg más vállalatoknak nagyjából 10 dollárjukba kerülne, hogy adóbevallások alapján meggyőződjenek valaki jövedelméről, addig az Experian kevesebb mint 1 dollárért értékesíti becslését. Az ilyen példák ban tehát a helyettesítő mutató használata költséghatékonyabb megoldást jelent, mint vállalni a hercehurcát, amivel a valós adatok beszerzése jár. Hasonló példával szolgál az Equifax hiteliroda is az Ability to Pay Index (fizetőképességi index) és a Discretionary Spending Index (diszkrecionális kiadási index) nevű termékeivel, amelyek segítségével a cég ígérete szerint következtetni lehet egy-egy személy pénztárcájának tömöttségére.8 A korrelációk használata újabb és újabb területekre terjed ki. Az Aviva biztosítótársaság tanulmányozta azt a lehetőséget, hogy hitelképességi információkkal és fogyasztói marketingadatokkal helyettesítsék egyes jelentkezők vér- és vizeletmintáinak elemzését. Ennek célja, hogy azo nosítsák azokat, akiknél nagyobb eséllyel alakulnak ki bizonyos betegsé/gek, például magas vérnyomás, cukorbetegség vagy depresszió. A mód\ szer életmódra vonatkozó adatokat használ, egyebek közt olyan mutatók százait vizsgálja, mint, hogy az illetőnek mi a hobbija, milyen honlapokat látogat az interneten, mennyi időt tölt televíziózással, és mekkora a becsült jövedelme. Az Aviva Deloitte Consulting által kidolgozott előrejelző modelljéről azt tartják, hogy sikerrel tárja fel az egészségi kockázatokat.9 Más bizto sítótársaságoknak, például a Prudentialnek és az AIG-nek, szintén van nak hasonló kezdeményezéseik. Ezek a biztosítást igénylők szempontjából azzal az előnnyel járnak, hogy mentesülnek a vér- és vizeletminta-adási kötelezettségük alól, ami senkinek sem kellemes, és amiért a biztosítók nak kell fizetniük. A laboratóriumi vizsgálatok költsége személyenként 125 dollár körül mozog, míg a tisztán adatokra épülő elemzés csupán 5 dollárba kerül. Bizonyára vannak olyanok, akik ezt a módszert ijesztőnek tartják, amiért az emberi viselkedés olyan elemeire épít, amelyek között látszólag nincs összefüggés. Olyan ez, mintha a cégeknek internetes besúgóik len nének, akik minden egyes kattintásról jelentést készítenek. Az emberek
68
BIG D A T A
talán kétszer is meggondolnák, hogy felkeressenek-e extrém sportokkal foglalkozó honlapokat, vagy nézzenek-e vígjátéksorozatokat a tévé előtt tespedve, ha úgy vélnék, hogy emiatt majd magasabb biztosítási díjat kell fizetniük. Kétségtelen, hogy nem lenne jó, ha az információgyűjtéssel kor látoznánk az emberek szabadságát. Másrészről viszont a biztosításkötés olcsóbbá és könnyebbé válása azzal az előnnyel járhat, hogy növekedhet a biztosítottak száma, aminek kedvező hatásai lennének a társadalomra nézve, a biztosítótársaságokról nem is beszélve. t A big data összefüggések alkalmazásának bajnoka, vagy talán inkább rosszfiúja azonban az amerikai Target diszkontlánc, amely évek óta használja előrejelzéseihez a big data korrelációkat. Chafles Duhigg, a New York Times gazdasági szakújságírója nagyszerű riportjában részletesen leír ta, miképpen szerez tudomást a Target arról, hogy egy nő terhes, anélkül, hogy ő ezt elárulná. A vállalat módszere alapvetően az adatok munkára fogásából áll - a korrelációk pedig teszik is rendesen a dolgukat. A kiskereskedők számára fontos, hogy megtudják, ha egy vásárlójuk várandós, mivel ez olyan fordulópontot jelent a párok életében, amikor megváltoznak a vásárlási szokásaik. Új üzleteket keresnek fel, és új már kákat kezdenek vásárolni. A Target marketingszakemberei a cég analitikai részlegéhez fordultak, hogy megtudják, van-e mód rá, hogy a vásárlók ter hességéről a vásárlási szokásaikon keresztül tudomást szerezzenek. Az elemzői csapat áttekintette azon nők vásárlási előzményeit, akik feliratkoztak bababónuszprogramjukra. Észrevették, hogy közülük sokan vásároltak illatmentes testápolót a terhesség harmadik hónapja körül, pár héttel később pedig jellemzően olyan táplálékkiegészítőket vettek, mint a magnézium, a kalcium és a cink. Az elemzői csapat végül körülbelül két tucat terméket tárt fel, amelyeket jelzőértékként használva lehetővé vált, hogy a vállalat minden olyan vásárló „terhesség-előrejelző" pontszámát kiszámítsa, akik hitelkártyával fizettek, vagy törzsvásárlói kártyájukat, illetve kipostázott kuponjaikat használták. A korrelációk révén a vállalat még a szülés várható idejét is meglehetős pontossággal kiszámíthatta, hogy a terhesség valamennyi időszakára megfelelő kuponokat tudjon postázni.10A cég rászolgált a nevére*
* A Target jelentése: cél, célpont. (A Ford.)
KORRELÁCIÓ
69
A szokás hatalma - Miért tesszük azt, amit teszünk, és hogyan változtassunk rajta? (The Power of Habit) című könyvében Duhigg részletesen leírja, mi következett ezután. Egy napon egy mérges férfi viharzott be az egyik minnesotai Target áruházba. „A lányom ezt kapta maguktól postán! - kiabált. - Még csak középiskolás, maguk meg babaruhára és gyerekágyra szóló kuponokat küldözgetnek? Kedvet akarnak neki csinálni, hogy teherbe es sen?" Amikor azonban az áruház igazgatója néhány nap múlva felhívta a férfit, hogy bocsánatot kérjen tőle, a vonal másik végén békülékeny hang fogadta a hívását: „Elbeszélgettem a lányommal - mondta. - Kiderült, hogy történt egy s más a házamban, amiről nem volt tudomásom. Augusztusra várja a babát. Én tartozom önnek bocsánatkéréssel." A jelzőértékek társadalmi kontextusban történő feltárása csak az egyik módja a big data technikák alkalmazásának. Az új típusú adatokban rejlő összefüggések ugyanilyen erőteljesen mutatkoznak meg a mindennapi szükségletek kielégítésének területén is. Egyik példája ennek a prediktív analitikának nevezett módszer, ame lyet az üzleti életben egyre szélesebb körben használnak arra, hogy még a bekövetkezésük előtt jelezzenek bizonyos eseményeket. A kifejezés vonatkozhat egy olyan algoritmusra, amellyel „kiszúrható", hogy melyik dalból lesz sláger. A zeneiparban a lemezkiadók gyakran használják ezt fogódzóként, amikor szeretnék eldönteni, melyik lóra tegyék tétjeiket. A módszert nagy mechanikus vagy szerkezeti hibák megelőzésére is al kalmazzák: érzékelőket helyeznek el különböző berendezéseken, motoro kon vagy építményeken, például hidakon. így folyamatosan figyelemmel kísérhetnek olyan adatokat, mint a hőmérséklet, a rezgés, a nyomás és a zaj, ezáltal pedig észrevehetik a problémákat előre jelző változásokat. Az alapelképzelés az, hogy a dolgok általában nem egyik pillanatról a másikra hibásodnak meg, hanem fokozatosan. Az érzékelők adataiból kiindulva korrelációs elemzéssel és a többi hasonló módszerrel azonosítani lehet azokat a jeleket - egy motor zúgása, túlmelegedése és hasonlók -, amelyek elárulják, ha valami éppen tönkremenni készül. Attól kezdve pedig csak ezt a jelet kell figyelni, hogy tudjuk, közeleg-e a meghibásodás. Ha idejében észrevesszük a normálistól eltérő jelenséget, ki tudunk cserél ni egy-egy alkatrészt, illetve orvosolhatjuk a problémát, mielőtt még túl nagyra nőne. A cél az, hogy megtaláljuk, majd folyamatosan figyeljük azt a jelzőértéket, amely képes a jövőbeli eseményeket előre jelezni.
70
BIG DATA
A UPS fuvarozóvállalat a 2000-es évek vége óta ezzel a prediktív anali tikával figyeli mintegy 60 ezer járműből álló flottáját az Egyesült Álla mokban, hogy tudja, mikor kell elvégeznie a megelőző karbantartásokat. Ha a járművek útközben robbannak le, az fennakadáshoz, késedelmes szállításhoz vagy átvételhez vezet. A UPS korábban óvatosságból 2-3 éven te kicserélt bizonyos alkatrészeket. Ez azonban nem volt elég hatékony, hiszen nem mindegyik érett meg a cserére. Amióta áttértek a prediktív analitikára, a vállalat dollármilliókat takarított meg azzal, hogy az egyes alkatrészek mérési adatait figyelve csak akkor cseréli ki őket, amikor valóban szükséges. Egy esetben az adatok még azt is feltárták, hogy az új járművek egy teljes csoportjába hibás alkatrész került, ami komoly bajt okozhatott volna, ha nem veszik észre a flotta üzembe helyezése előtt.11 Hasonló érzékelőkkel figyelnek meg hidakat és épületeket is, az el használódás jeleit keresve. Nagy vegyi üzemekben és finomítókban is használnak ilyeneket, ahol egy berendezés meghibásodása miatt az egész termelés leállhat. Az ezen az elven alapuló adatgyűjtés és -elemzés kisebb költséggel jár, mint egy esetleges üzemszünet. Ugyanakkor a prediktív analitika nem magyarázza meg a probléma okát; csupán jelzi, hogy a gond létezik. Csak a motor túlhevülésére figyelmeztet, de nem közli velünk, hogy egy ventilátorékszíj kopása vagy a rosszul felcsavart hűtősapka okozza-e. A korreláció a mit mutatja meg, nem pedig a miértet, de mint láttuk, ez gyakran éppen elég jó nekünk. Ugyanezt a módszert alkalmazzák az egészségügyben is, hogy meg előzzék az emberi gépezet meghibásodásait. A kórházban mindenféle vezetékeket és eszközöket helyeznek a páciensre, amelyek hatalmas adatmennyiséget gyűjtenek be. Egyedül az elektrokardiogram másodpercen ként 1000 értéket rögzít, bár meglepő módon ennek csupán töredékét hasz nálják fel. A legtöbbet figyelmen kívül hagyják, pedig fontos jelzéseket adhatnának a beteg állapotáról és arról, hogy a szervezete hogyan reagál a kezelésekre. Ha ezeket az adatokat megtartanák, és összevetnék más pá ciensektől származó információkkal, az nagyszerűen mutatná, hogy mely kezelések hatékonyak, és melyek nem. Az adatok kiszórása talán elfogadhatónak tűnt akkoriban, amikor a begyűjtésük, a tárolásuk és az elemzésük még túl bonyolult és drága volt, de ma már más a helyzet. Dr. Carolyn McGregor és az Ontariói Mű
KORRELÁCIÓ
71
szaki Egyetem Technológiai Intézetének (University of Ontario Institute of Technology, UOIT) kutatói csoportja, valamint az IBM jó néhány kór házzal együttműködve egy olyan szoftver kifejlesztésén dolgozik, amely a koraszülött csecsemőkkel foglalkozó orvosokat segíti a jobb diagnózisok felállításában. A szoftver a beteg adatait valós időben rögzíti és dolgozza fel, 16 különböző adatfolyamot követve, egyebek közt a szívfrekvenciát, a légzésfrekvenciát, a hőmérsékletet, a vérnyomást és a vér oxigénszint jét. Mindezek együttesen másodpercenként körülbelül 1260 adatot je lentenek. A rendszer a koraszülöttek legkisebb állapotváltozását is ki tudja mu tatni, 24 órával azelőtt jelezheti a fertőzéseket, hogy a szemmel látható tünetek megjelennének a babákon. „A számítógép azt is észlelni tudja, amit szabad szemmel képtelenek vagyunk észrevenni" - magyarázza dr. McGregor. A rendszer nem az ok-okozati összefüggésekre, hanem a korrelációkra épül. Azt közli, hogy mi történik, nem pedig azt, hogy miért, mégis eléri a célját. Az előzetes figyelmeztetésnek köszönhetően az orvosok korábban el tudják kezdeni a kezelést, kevésbé durva terápiára van szükség, és ha az mégsem tűnik hatékonynak, a rendszer időben jelzi. Mindez pedig sokkal kedvezőbb a betegek számára.12Nehéz elképzelni, hogy ezt a technikát ne alkalmaznák a jövőben jóval kiterjedtebb módon. Lehet, hogy maga az algoritmus nem hoz semmilyen döntést, de a gépek azt teszik, amiben a legjobbak, vagy is segítik az egészségügyi személyzet tagjait, hogy azt tehessék, amiben viszont ők a legjobbak. Meglepő módon dr. McGregor big data elemzése olyan korrelációkat is képes volt felismerni, amelyek ellentétesek az orvosok hagyományos szemléletével. Kiderült például, hogy egy súlyos fertőzés előtt a beteg szervezete gyakran erős életjeleket mutat. Ez azért különös, mert azt gondolnánk, hogy a betegségek előtt romlanak az életfunkciók. Orvosok generációi tértek haza nyugodtan, miután a munkanap végén rápillantot tak a kiságy melletti lázlapra, és látták, hogy az illető gyereknek stabilak az életfunkciói. Aztán az éjszaka közepén jött a riasztás; valami rosszul alakult, megérzéseik bizony csődöt mondtak. McGregor adatai azt sugallják, hogy a koraszülöttek megnyugtatónak tűnő állapota olyan, mint a vihar előtti csend: mintha a baba teste azt mondaná apró szerveinek, hogy készüljenek fel a legrosszabbra. Bizto
72
BIG D AT A
sat persze nem tudhatunk: amit az adatok jeleznek, az korreláció, nem pedig ok-okozati összefüggés. Az viszont biztosra vehető, hogy hatalmas adatmennyiségekre és a rájuk épülő statisztikai módszerekre volt szükség ahhoz, hogy ezt a rejtett összefüggést feltárják. Kétség sem férhet hozzá, hogy a big data életeket ment.
Illúzió és megvilágosodás A small data világában a kevés adat miatt mind az ok-okozati vizsgála tok, mind a korrelációs elemzések egy hipotézis felállításával kezdődtek, amelyet aztán igazolni vagy cáfolni próbáltak. Mivel mindkét módszer hez szükség volt egy hipotézisre, ez hajlamossá tette alkalmazóikat az előítéletekre, és gyakran vezetett téves megérzésekhez. A szükséges ada tok pedig gyakran nem álltak rendelkezésre. Manapság, amikor egyre több adat vesz körül bennünket - és ez a jövőben egyre inkább így lesz -, a korrelációs elemzésekhez már nincs szükség ilyen feltevésekre. A small data világához képest van egy másik különbség is, amely nap jainkban kezdett fontossá válni. A big datát megelőzően - részben a szá mítógépek elégtelen kapacitása miatt - a legtöbb, nagy adathalmazokkal dolgozó korrelációs analízis lineáris összefüggések keresésére korlátozó dott. A valóságban persze sok összefüggés ennél jóval bonyolultabb. Ki finomultabb elemzésekkel azonban fel lehet tárni a nemlineáris kapcso latokat is. Példaként hadd említsük meg, hogy közgazdászok és politológusok éve ken át úgy gondolták, a boldogság és a jövedelem között közvetlen össze függés van: a jövedelem növekedésével az emberek boldogabbak lesznek. Ha azonban táblázatba foglaljuk az adatokat, kiderül, hogy ennél komp likáltabb a helyzet. Egy bizonyos jövedelemszint alatt ugyanis minden egyes pluszforinttól boldogabbak lesznek az emberek, e szint fölött azon ban alig lehet észrevenni változást. Grafikusan ábrázolva inkább egy gör bét kapunk, nem pedig egyenes vonalat, ahogyan azt a lineáris elemzés feltételezi.13 E megállapításnak a politikai döntéshozók számára volt jelentősége. Ha ugyanis egyenes arányosság állna fenn a két érték között, akkor lenne
KORRELÁCIÓ
73
értelme annak, hogy az általános elégedettség növelése érdekében min den ember jövedelmét emeljék. A némlineáris kapcsolat feltárását köve tően viszont ez a nézet úgy módosult, hogy inkább a szegényebb rétegnek kell több pénzt adni, az ugyanis jóval kifizetődőbb befektetés. Többrétű korrelációs kapcsolat esetén még összetettebbé válik a dolog. A Harvard Egyetem és az MIT kutatói a kanyaró elleni védőoltás népessé gen belüli eloszlását vizsgálták; egyesek kérik a vakcinát, mások pedig nem. Első ránézésre úgy tűnt, hogy ez összefüggést mutat az emberek egészségügyre fordított kiadásaival. Amikor azonban közelebbről meg vizsgálták a helyzetet, kiderült, hogy a korrelációt nem lehet egy szabá lyos vonallal jellemezni; az inkább egy furcsa alakú görbe. Ahogy az embe rek több pénzt költenek egészségügyi ellátásra, úgy csökken a védőoltást nem kérők száma (mint azt várni lehet), ám a még többet költők körében nagy meglepetésre ismét emelkedni kezd - az igen jómódúak közül sokan mintha visszarettennének a kanyaró elleni oltástól. Az egészségügynek ezzel tisztában kell lennie, egy egyszerű elemzés azonban nem mutatta volna ki.14 A nemlineáris korrelációk felismeréséhez és összehasonlításához szüksé ges eszközök fejlesztése jelenleg is zajlik. Ugyanakkor új megközelítések és szoftverek sora támogatja és erősíti a korrelációs elemzések technikáit, amelyek a legkülönbözőbb szempontok alapján bontják ki az adatokban meglévő nem ok-okozati kapcsolatokat - hasonlóan ahhoz, ahogyan a ku bista festők igyekeztek a női arcot egyszerre több nézőpontból ábrázolni. Az egyik legizgalmasabb új módszerrel a rohamosan fejlődő hálózati elem zések területén találkozhatunk. Ez lehetővé teszi, hogy minden téren fel térképezzük, megmérjük és kiszámítsuk a vonatkozó csomópontokat és kapcsolódásokat, a facebookos ismerőseink hálózatától kezdve egészen addig, hogy melyik bírói döntés milyen precedensekre hivatkozik, vagy hogy ki kit hív fel mobiltelefonon. Az emített eszközök együttesen se gítenek megválaszolni a nem ok-okozati kapcsolatokra vonatkozó, empi rikus kérdéseinket. A big data korszakban ezek az újfajta elemzések végül új felismerések és hasznos előrejelzések új hullámát fogják elindítani, és soha nem látott összefüggésekre derül majd fény. A műszaki és a társadalmi fejlődés olyan mozgatórugói is nyilvánvalóvá válnak, amelyek mellett eddig elmentünk. A legfontosabb viszont, hogy ezek a nem kauzális elemzések úgy segítenek
74
BIG D A T A
majd megérteni világunkat, hogy elsősorban a mire, nem pedig a miértre adnak választ. Lehet, hogy ez elsőre nem túl meggyőző. Elvégre mi, emberek, arra vágyunk, hogy a világot ok-okozati kapcsolatokon keresztül értsük meg; hinni akarjuk, hogy mindennek megvan az oka, csak elég alaposan kell vizsgálódnunk ahhoz, hogy felismerjük. Hát nem az a legfontosabb, hogy miért működik a világ? Valójában évszázadok óta zajlik a filozófiai vita azzal kapcsolatban, hogy egyáltalán létezik-e kauzalitás. Ha mindig mindennek volt valami más oka, akkor e logika alapján nem dönthetnénk szabadon semmiről; Nem létezne szabad akarat, hiszen minden elhatározásunkhoz és gondo latunkhoz valami más vezetne, amit megint csak valami másra lehet ^ visszavezetni, és így tovább - az egész életünk okozatokhoz vezető okok láncolata lenne. A filozófusok ezért késhegyig menő vitákat folytattak ar ról, hogy mi a szerepe világunkban a kauzalitásnak, időnként szembeállít va azt a szabad akarattal. Absztrakt vitájuk azonban minket nem igazán hoz lázba. Amikor arról beszélünk, hogy az emberek okok és okozatok láncolatán keresztül szemlélik a világot, ez alatt az ember világlátásának két alapvető módozatát értjük: a gyors és csalóka oksági következtetéseken, valamint a lassú és módszeres oksági kísérletezéseken keresztül formálódó világszemléletet. A big data mindkettő szerepét át fogja alakítani. Az első közülük voltaképpen az az ösztönös vágyunk, hogy mindenütt oksági kapcsolatokat lássunk, ott is, ahol valójában nincsenek. Ez nem kultúra, neveltetés vagy iskolázottság kérdése. Kutatók szerint inkább abból ered, ahogyan az emberi megismerés folyamata működik: ha két esemény egy más után következik be, erős késztetést érzünk, hogy oksági kapcsolatot tételezzünk fel közöttük. Lássunk most három mondatot! „Fred szülei késtek. A szállítóknak hamarosan meg kellett érkezniük. Fred mérges volt." Amikor elolvassuk ezeket a mondatokat, ösztönösen tudni véljük, miért volt mérges Fred nem azért, mert a szállítók mindjárt megérkeznek, hanem mert a szülők késnek. Pedig ennyi információ alapján semmi okunk ilyesmire következ tetni. Valójában az agyunk nem tudja megállni, hogy a tények alapján ne kreáljon egy koherensnek tűnő történetláncot.
KORRELÁCIÓ
75
Dániel Kahneman, a Princetoni Egyetem pszichológiaprofesszora, aki 2002-ben elnyerte a közgazdasági Nobel-emlékdíjat, ezzel a példá val támasztotta alá, hogy kétféle emberi gondolkodásmód létezik. Az egyik gyors, könnyed, és arra késztet, hogy másodpercek alatt vonjunk le következtetéseket. A másik lassú, erőfeszítést igényel, és megköveteli tőlünk, hogy elmélyedjünk egy bizonyos témában. Az első, instant gon dolkodásmód olyankor is előszeretettel láttat velünk oksági kapcsolatot, amikor ilyesmiről szó sincs. Elfogultnak tekinthető, abban az értelemben, hogy meglévő tudásunkat és hiedelmeinket igazolja. Régen ez a gyors gondolkodás segítette az ember túlélését egy veszélyekkel teli környezet ben, ahol gyakran kellett gyorsan döntenie, akkor is, ha csupán kevés információ állt rendelkezésére. E gondolkodásmód azonban sokszor nem képes feltárni a dolgok valódi okát. Sajnálatos tény, érvel Kahneman, hogy agyunk gyakran túl lusta a lassú és módszeres gondolkodáshoz. Inkább átengedjük a terepet a könnyed, instant gondolkodásnak, emiatt pedig gyakran látunk képzeletbeli oksági kapcsolatokat, ami olykor félreértésekhez vezet.15 A szülők sokszor mondják gyermekeiknek, hogy azért kapták el az inf luenzát, mert nem viseltek sapkát vagy nem húztak kesztyűt a hidegben. Pedig nincs is közvetlen oksági kapcsolat a meleg ruha és az influenza között. Ha egy éttermi vacsora után rosszul leszünk, rögtön az elfogyasztott ételt okoljuk (és talán azt is megfogadjuk, hogy többé nem megyünk oda vissza), pedig lehet, hogy az ételnek semmi köze a rosszullétünkhöz. Gyo morproblémánk számtalan más okra is visszavezethető, akár egy kézfogás sal is elkaphattunk valamit. Agyunk instant gondolkodású része azonban arra van programozva, hogy gyorsan előálljon valamilyen - bármilyen oksági következtetéssel. Ez pedig gyakran vezet téves döntésekhez. Ösztönös hajlamunk az oksági következtetések levonására nem visz közelebb bennünket a világ megértéséhez. Olyan ez, mintha a megérté si folyamat kanyargós útján találnánk egy ösvényt, amely rövidebbnek tűnik, mert az éleslátás illúzióját adja, de valójában továbbra is sötét ben tapogatózunk. Ilyen útrövidítés volt a mintavétel is, amit csak azért használtunk, mert nem tudtunk minden adatot feldolgozni. A mindenben oksági viszonyokat felfedező percepció szintén az agyunk egyszerűsített megoldása, hogy ne kelljen megfeszítetten gondolkoznia.
76
BIG DATA
A small data világában hosszú ideig tartott, mire kiderítettük, ha az oksági kapcsolatra vonatkozó megérzéseink tévesek voltak. Ez hamarosan megváltozik. A jövőben a big data korrelációkat rutinszerűen használják majd arra, hogy cáfolják az oksági kapcsolatra vonatkozó megérzéseinket, bemutatva, hogy az okozat és a feltételezett ok között minimális a statisz tikai kapcsolat, ha van egyáltalán. „Instant gondolkodásunk" széles körű és állandó kihívásnak lesz kitéve. Ez a lecke talán arra késztet bennünket, hogy elmélyültebben (és las- _ sabban) próbáljunk gondolkodni, ha meg akarjuk érteni világunkat. De még az oksági viszonyok feltárásának második módját jelentő lassú gon dolkodás szerepét is átalakítják majd a big datára épülő korrelációk. A mindennapi életünkben oly gyakran gondolkodunk ok-okozati össze függésekben, hogy azt hihetnénk, a kauzalitás feltárása könnyedén le hetséges. Az igazság azonban ennél jóval bonyolultabb. A korrelációval szemben, amelynek matematikai háttere viszonylag egyszerű, az ok-okozati kapcsolatot nem lehet a számok nyelvén egyértelműen „bizonyítani". Standard egyenletekkel sem könnyű kifejezni, ezért még lassú és alapos gondolkodással is nehéz meggyőző kapcsolatokat találnunk. Mivel gon dolkodásunk egy információszegény világhoz szokott, kísértést érzünk, hogy korlátozott számú adattal támasszuk alá véleményünket. Vegyük például a veszettség elleni oltóanyag esetét! 1885. július 6-án Louis Pasteur francia kémikushoz elvitték a kilencéves Joseph Meistert, akit nem sokkal korábban megharapott egy veszett kutya. Pasteur, a védő oltás feltalálója épp a veszettség elleni oltóanyagon dolgozott. Joseph szü lei könyörögtek neki, hogy adja be a vakcinát a fiuknak. Pasteur megtette, Joseph Meister pedig életben maradt. A sajtó ünnepelte Pasteurt, amiért megmentette a fiúcskát a fájdalmas, biztos haláltól.16 De így volt-e valójában? Kiderült, hogy azok közül, akiket veszett ku tyák harapnak meg, csak minden hetedik ember kapja el a betegséget. Még ha feltételezzük is, hogy Pasteur kísérleti oltóanyaga hatásos volt, a fiúnak anélkül is 85%-os esélye volt az életben maradásra.17 Az említett esetben mindenki azt hitte, hogy a vakcina gyógyította meg Joseph Meistert. Itt azonban két ok-okozati kapcsolatról van szó: az egyik az oltóanyag és a veszettség vírusának elpusztulása között áll fenn, a másik pedig a kutyaharapás és a betegség kifejlődése között. Még ha az első igaz is, a második csak az esetek kisebbik részében az. A tudósok a kauzalitást
KORRELÁCIÓ
77
kísérletekkel bizonyítják, a feltételezett ok körültekintő figyelembevételé vel vagy épp figyelmen kívül hagyásával. Ha a következmény megfelel annak, amit a kiváltó tényezőtől várnak, feltételezhető az ok-okozati kap csolat. Minél kontrolláltabbak a körülmények, annál valószínűbb, hogy a vizsgált oksági kapcsolat helyes. Ezért, a korrelációhoz hasonlóan, az oksági kapcsolatot is ritkán lehet - ha egyáltalán lehet - bizonyítani; legfeljebb kimutatni tudjuk.18 A kor relációkkal ellentétben azonban az ok-okozati kapcsolatok bizonyítását cél zó kísérletek gyakran nem praktikusak, vagy komoly morális kérdéseket vetnek fel. Hogyan végezhetnénk oksági kísérletet annak kimutatására, hogy bizonyos kifejezések internetes keresése miért jelzi előre az influen za terjedését? A veszettség elleni injekció esetében pedig kitehetnénk-e páciensek tucatjait, esetleg százait a fájdalmas halálnak - mint egy olyan „kontrollcsoport" tagjait, akik nem kapják meg az oltást -, ha egyébként nekik is rendelkezésükre áll a vakcina? Még ha el is lehetne végezni eze ket a kísérleteket, akkor is óriási költségekkel járnának, és rengeteg időt igényelnének. Ugyanakkor a nem ok-okozati elemzések, amilyen a korrelációké, gyak ran gyorsan és olcsón elvégezhetők. Matematikai és statisztikai módszerek állnak rendelkezésünkre a kapcsolatok elemzésére, és a szükséges digitális eszközeink is megvannak ahhoz, hogy kellő bizonyossággal mutathassuk be ezek erősségét. A korrelációk ráadásul utat mutathatnak az oksági vizsgálatok terüle tén is. Azáltal, hogy kimutatják két dolog lehetséges kapcsolatát, lehetővé teszik, hogy tovább vizsgálódjunk, vajon létezik-e ok-okozati összefüggés is közöttük, és ha igen, miért. Ez az olcsó és gyors szűrési mechanizmus csökkenti a kauzális elemzés speciálisan kontrollált körülmények között végzett kísérleteinek költségét. A korrelációk segítségével megtudhatjuk, melyek azok a fontos változók, amelyeket aztán az oksági kísérleteknél használnunk kell. De nem árt az óvatosság. A korrelációk nemcsak azért hatékonyak, mert segítenek a megismerésben, hanem azért is, mert az így szerzett isme retek viszonylag egyértelműek. Amikor azonban ismét az oksági viszo nyokat helyezzük előtérbe, ez a tudás gyakran elhomályosul. Például a nyílt adatbányászversenyeket szervező Kaggle cég 2012-ben a használt autók minőségével kapcsolatban hirdetett versenyt. A részt vevő statisz
78
BIG DATA
tikusok számára egy használtautó-kereskedő szolgáltatta az adatokat. A versenyzőknek az volt a feladatuk, hogy egy olyan algoritmust hozzanak létre, amellyel előre meg lehet mondani, hogy egy aukción eladásra kínált járművek közül melyekkel fordulhatnak elő problémák. Egy korrelációs elemzés kimutatta, hogy a narancssárga autók jóval ritkábban romlanak el - körülbelül 50%-kai kisebb eséllyel, mint a többi autó.19 Amikor ilyesmit olvasunk, agyunk azonnal járni kezd, hogy vajon mi lehet mögötte. A narancssárga kocsik tulajdonosai netán olyan autórajon gók, akik jobban törődnek a járművükkel? Az egyedi festés talán azt jelenti, hogy az autót más szempontból is gondosabban, igény szerint gyártották volna le? Vagy talán e járgányokat könnyebb észrevenni az uta kon, ezért ritkábban szenvednek balesetet, tehát jobb állapotban is adják élőkét? Gyorsan belezavarodhatunk a különböző elméletekbe. Próbálkozá saink, hogy megfejtsük a talányt, csak még homályosabbá teszik a dolgo kat. Léteznek korrelációk, matematikailag ki lehet őket mutatni. Ugyanezt viszont az oksági összefüggések esetében nem tudjuk egykönnyen meg tenni. Jobban járnánk tehát, ha nem is igyekeznénk magyarázatot adni a korrelációk mögöttes okaira, a miértre, hanem megelégednénk azzal, mi történik. Máskülönben még azt találnánk javasolni az autósoknak, festes sék ütött-kopott járgányaikat narancssárgára, hogy ezáltal megbízhatóbbá tegyék a kocsi motorját - nevetséges ötlet, annyi bizonyos. Most már világos, hogy a tényleges adatok alapján történő korrelációs elemzés és a hozzá hasonló, nem kauzális módszerek jobbak a legtöbb in tuitív oksági kapcsolatnál, amelyek az „instant gondolkodás" eredményei. És egyre több helyzetben tapasztaljuk, hogy az ilyen elemzés hasznosabb és hatékonyabb a kontrollált körülmények között végzett (emiatt pedig költséges és időigényes) kísérletek által fémjelzett, lassú, kauzális gondol kodásnál is. Az elmúlt években a tudósok igyekeztek csökkenteni az okok feltárá sával járó kísérletek költségeit, például megfelelő felmérések okos kom binációjával „kvázi-kísérleteket" hoztak létre. Ez néhány oksági vizsgálatot megkönnyíthet ugyan, de a nem kauzális módszerek hatékonyságát nehéz felülmúlni. Ráadásul a big data önmagában is elősegíti az oksági vizsgála tokat azáltal, hogy megmutatja a szakembereknek, mely valószínűsíthető okok vizsgálatába érdemes fogniuk. Gyakran akkor jön el az ok-okozati
KORRELÁCIÓ
79
összefüggések mélyreható elemzésének ideje, amikor a big data már meg tette a dolgát, tehát amikor már kifejezetten a miértet akarjuk vizsgálni, mert a mi történik megválaszolásánál többet akarunk tudni. A kauzalitást senki nem veti majd el, de le kell döntenünk a piedesztálról, mert nem ez a dolgok értelmének elsődleges forrása. A big data felturbózza a nem kauzális elemzéseket, és gyakran fel is váltja az oksági vizsgálatokat. A manhattani robbanó kábelaknák rejtélye szemléletes példa erre.
Ember kontra kábelaknák Minden évben több száz New York-i kábelakna kezd izzani attól, hogy a bennük lévő dolgok tüzet fognak. Időnként az öntöttvasból készült, közel másfél mázsa súlyú aknafedelek kirobbannak, és többemeletnyi magasba röpülnek, majd a földre zuhannak.20 Valamit tenni kell ez ellen. A város közüzemi áramszolgáltatója, a Con Edison évente ellenőrzi és karbantartja az aknákat. Korábban csak a véletlenen múlt, hogy az éppen ellenőrzött kábelakna azok közé tartozott-é, amelyek robbanni készültek. E módszer nem volt sokkal hatékonyabb, mint a Wall Streeten bolyongani.* 2007-ben a Con Edison a Columbia Egyetem statisztikusaihoz for dult, annak reményében, hogy az elektromos hálózatról gyűjtött múltbéli - például a korábbi problémákkal kapcsolatos - adatok felhasználásával, valamint az infrastruktúra felépítésének részletes ismeretében ki tudják számítani, várhatóan mely kábelaknákkal lesznek problémák, és a vállalat ez alapján a megfelelő helyekre tudja majd koncentrálni erőforrásait. Ez egy összetett big data projekt volt.21 New Yorkban a föld alatti kábelek hossza meghaladja a 150 ezer kilométert; ennyi kábellel három és félszer lehetne körbetekerni a Földet. CsakManhattanben nagyjából 51 ezer kábel
* A szerzők itt Burton M alkiel Bolyongás a Wall Streeten (A Random Walk Down Wall Street) cím ű, híres könyvére utalnak, am ely a tőzsdei árfolyam ok véletlenszerű, kiszám íthatatlan alakulására hivatkozva egyebek közt a technikai elem zéseken alapuló tőzsdei befektetői m agatartást kritizálja. (A Ford.)
80
BIG DATA
akna és szerelődoboz van. Ráadásul ezek egy része még a cég névadója, Thomas Edison idejéből származik: minden huszadik kábelt 1930 előtt fektettek le. Bár a cég iratait az 1880-as évektől kezdve archiválták, több ségüket elég kuszán rögzítették - és az biztos, hogy soha nem szánták adatelemzési célokra. Vagy a számviteli osztályról, vagy az ügyeletes diszpécserektől származtak, akik kézírásos „hibafeljegyzést" készítettek. Ha ezeket az adatokat kuszának nevezzük, az meglehetősen enyhe kifeje zés a valósághoz képest. A statisztikusok jelentése szerint az egyik leg általánosabban használt infrastrukturális elemnek, a „szerelődoboz" ki fejezésnek például legalább 38 változata létezett: felvezették őket SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S & BX, S?BX, S BX, S/B/X, S BOX, SVBX, SÉRV BX, SERV-BOX, SERV/BOX és SERVICE BOX jelöléssel is.22 Számítógépes algoritmust kellett bevetni, hogy eligazodja nak közöttük. „Hihetetlenül nyersek voltak az adatok - meséli Cynthia Rudin statisz tikus és adatbányász-projektvezető, aki jelenleg az MIT munkatársa. - Nyomtatásban megkaptam a különböző kábelek jegyzékét. Amikor ki tekertük, olyan hosszú volt, hogy nem tudtuk elég magasan tartani ahhoz, hogy ne érjen le a földre. És ebből kellett valami értelmeset kihoznunk aranyat találni benne, vagy bármit, aminek révén össze tudunk hozni egy jól működő előrejelző modellt."23 A munkához Rudinnak és csapatának az összes elérhető adatot fel kel lett használnia, hiszen a több tízezer kábelakna bármelyike időzített bom ba lehetett. A projekt szinte követelte az N = összes szem előtt tartását. És bár nem lett volna rossz, ha a jelenség magyarázatával is előállnak, egy évszázad is kevés lett volna hozzá, hogy hibátlanul és teljes mértékben megoldják a feladatot. A korrelációkeresés praktikusabb útnak mutatko zott. Rudint kevésbé foglalkoztatta a miért, mint a mi - amellett, hogy jól tudta, amikor csapatával majd ott ülnek a Con Edison igazgatóival szem ben, meg kell indokolniuk, miért éppen úgy sorolták be a kábelaknákat, ahogyan tették. Még ha gép végzi is az előrejelzést, az ügyfelek emberek, akik szeretik tudni és érteni a történések okát. Az adatbányászoknak sikerült megtalálniuk a kincset, amiben Rudin is reménykedett. Miután a kusza adatokat egységesítették, és ezáltal a gé pek számára is értelmezhetővé tették, a csapat a kábelakna-katasztrófák 106 előjelével kezdett foglalkozni. Ezt követően a legerősebb féltucatnyi
KORRELÁCIÓ
81
mutatóra szűkítették a listát. A bronxi elektromos hálózat tesztelése során valamennyi korábbi adatot elemezték, egészen 2008 közepéig, majd ezek felhasználásával próbáltak előrejelzést adni 2009 problémás helyeire. Az elképzelés nagyszerűen működött. A lista első tizedében szereplő kábel aknák a 44% -át tették ki azoknak, amelyekkel valóban gond volt. A legfontosabb tényezőnek a kábelek kora bizonyult, valamint az, hogy az adott kábelaknában volt-e már korábban is probléma. Mindez igen hasz nosnak tűnt, mert a Con Edison nagyfőnökei könnyedén megértették, milyen szempontok alapján állították össze a listát. Álljunk meg azonban egy pillanatra! A kábelek kora és a korábbi problémák? Nem hangzik ez meglehetősen nyilvánvalónak? Nos, igen is, meg nem is. Egyfelől, ahogyan Duncan Watts hálózatelméleti szakértő fogalmaz: „Minden nyilvánvaló, amint tudjuk a választ/' (Watts egyik könyvének is ez a címe.) Másfelől, ne feledkezzünk meg róla, hogy kezdetben 106 előjel szerepelt a modell ben. Egyáltalán nem volt nyilvánvaló, miként kell ezeket súlyozni, majd pedig hogyan érdemes rangsorolni a számtalan változóval rendelkező kábelaknák tízezreit, amelyek feltérképezése összességében több millió adatot jelentett - arról nem is beszélve, hogy maguk az adatok sem olyan formában álltak rendelkezésre, hogy elemezni lehetett volna őket. A felrobbanó kábelaknák esete rávilágít, miképp lehet az adatokat sú lyos problémák megoldására használni. Ennek érdekében azonban meg kellett változtatnunk a dolgok működését. Minden összegyűjthető adatot fel kellett használnunk, nem csak egy kis részüket. El kellett fogadnunk az adatok kuszaságát, ahelyett hogy a precizitást hajszoltuk volna. Mind emellett bizalmunkat a korrelációkba kellett fektetnünk, anélkül hogy tisztában lettünk volna a pontos okokkal.
Az elméletek vége? A big data megváltoztatja, milyennek látjuk és hogyan fedezzük fel vilá gunkat. A small data korában a világ működését hipotézisek alapján akartuk megérteni, amelyeket aztán adatgyűjtéssel és adatelemzéssel próbáltunk igazolni. A jövőben a tudásunkat hipotézisek helyett inkább az adatok bősége határozza majd meg.
82
BIG DATA
A hipotéziseket gyakran természettudományi vagy társadalomtudo mányi elméletekből vezetik le, amelyek segítenek magyarázatot és/vagy előrejelzést adni a körülöttünk lévő világról. Miközben a hipotézisek által vezérelt világról egyre inkább az adatvezérelt világra térünk át, kísértést érezhetünk, hogy azt higgyük, az elméletekre már nincs is szükségünk. 2008-ban Chris Anderson, a Wired magazin főszerkesztője világgá kür tölte, hogy „az adatok özöne meghaladottá teszi a tudományos módszere ket". A „Petabájt-korszak" címmel megjelent címlapsztoriban kinyilvá nította, hogy ez „az elméletek végét jelenti".24 A tudományos felfedezés^ hagyományos folyamata - amely során a hipotézis alapját jelentő oksági modell felhasználásával a hipotézist a valóság próbájának vetik alá - egyre inkább átadja helyét a korrelációk minden elméleti háttértől mentes statisz tikai elemzésének, jelentette ki Anderson. Érvei alátámasztásául leírta, hogyan vált a kvantumfizika szinte tisztán elméleti területté, csupán azért, mert a témába vágó kísérletezés túlságosan drága, bonyolult és nagyszabású ahhoz, hogy meg lehessen valósítani. Van olyan elmélet, mutatott rá, amelynek már semmi köze nincs a valósághoz. Az új módszer példájaként a Google keresőmotorját és a génszekvenálást nevezte meg. „Ez egy olyan világ, amelyben a hatalmas adatmennyiség és az alkalma zott matematika minden mást felvált - írta. - Ha elegendő adat áll rendel kezésre, akkor a számok magukért beszélnek. A petabájtok azt mondatják velünk, hogy a korreláció épp elég." A cikk jelentős és szenvedélyes vitát váltott ki, bár Anderson gyorsan visszatáncolt merészebb állításaitól.25 Érvelését mégis érdemes kicsit ala posabban megvizsgálni. Mondandójának lényege, hogy egészen a kö zelmúltig, amikor még elemezni és megérteni akartuk a világot, kipró bálható elméletekre volt szükségünk. Ezzel szemben a big data korában nincs szükség teóriákra: elég, ha megnézzük az adatokat. Ha ez igaz, az azt jelenti, hogy már nem számítanak az eddigi törvényszerűségek a vi lág működésével, az emberi viselkedéssel, a vásárlási szokásokkal vagy azzal kapcsolatban, hogy mikor mennek tönkre az egyes alkatrészek szerepüket a big data elemzések veszik át. Az „elméletek vége" kifejezés azt sugallja, hogy míg az elméleteknek megvolt a szerepük az olyan fontos területeken, mint a fizika vagy a kémia,
KORRELÁCIÓ
83
addig a big data elemzéseknek nincs szükségük koncepciókon alapuló modellekre. Ez azonban képtelen állítás. Maga a big data is teoretikus alapon jött létre. Statisztikai és matema tikai elméleteket alkalmaz, de néha az informatikaelméletet is használja. Persze ezek nem a gravitációhoz hasonló konkrét jelenségek dinamikáját meghatározó összefüggésekről szóló elméletek - de attól még elméletek. És ahogy már bemutattuk, a rájuk épülő modellek nagyon jó előrejelzők lehetnek. Valójában a big data épp azért képes friss és újfajta ismeretekkel gazdagítani bennünket, mert mentes az adott terület elméleteiben rejlő hagyományos gondolkodás és a hozzá tartozó elfogultság kötöttségeitől. Emellett amúgy sem tudjuk megkerülni az elméleteket, hiszen a big data elemzés is azokon alapul. Módszereinket és eredményeinket egy aránt meghatározhatják. Döntésünket befolyásolhatja például a kénye lem: rendelkezésünkre állnak-e adatok? Vagy a gazdaságosság: olcsón hozzáférhetünk-e az adatokhoz? Válaszainkat az elméletek befolyásolják. Választásunk hatással van arra, hogy mit találunk, ahogyan azt danah boyd* és Kate Crawford digitális technológiával foglalkozó kutatók hang súlyozták.26 Elvégre a Google is olyan keresési kifejezéseket használt, amelyek az influenza, nem pedig az emberek hajhosszúságának jelzésére szolgáltak. Ehhez hasonlóan az adatelemzés során is olyan eszközöket választunk, amelyek alátámaszthatják elméleteinket. Az eredmények értelmezése során is elméleteket alkalmazunk. A big data korszaka sem elméletek nélküli kor - az elméletek mindenütt jelen vannak, minden következményükkel együtt. Anderson elismerést érdemel azért, mert helyes kérdéseket tett fel - még pedig igen határozottan, másokat megelőzve. A big data talán nem jelenti „az elméletek végét", de alapvetően átalakítja azt a szemléletet, ahogyan a világot próbáljuk megérteni. Ez á váltás szakítást jelent majd sok minden nel, és számos intézménynek kihívás lesz. Mégis, az általa képviselt óriási érték nemcsak értelmes, de egyenesen elkerülhetetlen kompromisszummá fogja tenni. Most pedig érdemes egy kis időt annak szentelnünk, hogyan jutottunk el addig, ahol most tartunk. A technológiai iparágban sokan azért szeretik
* danah boyd internetkutató szándékosan kisbetűvel írja a nevét. ( A Ford.)
84
BIG D A T A
a változást az új digitális eszközökre, például a gyors chipekre és a haté kony szoftverekre történő áttérésnek tulajdonítani, mert maguk is ezekkel az eszközökkel foglalkoznak. A technológia fejlettsége valóban számít, de közel sem annyit, mint gondolnánk. A valódi ok az, hogy manapság sok kal több adattal rendelkezünk. Ez pedig azért van így, mert a valóság több vonatkozását jelenítjük meg adatformátumban. A következő fejezetnek épp ez lesz a témája.
5 ár
.r
ADATOSITAS az amerikai haditengerészet ígéretes karrier előtt álló tisztje 1839-ben éppen a Consort nevű kétárbocos vitorlásra tar tott, hogy megkezdje új megbízatását, de postakocsija hirtelen megcsúszott az úton, felborult, ő pedig kirepült belőle. Csúnyán megütötte magát, eltört a combcsontja, és kificamította a térdét. Egy helyi doktor helyrerakta ugyan a ficamot, ám a combtörés ellátása rosszul sikerült, ezért nem sok kal később újra el kellett törni Maury lábát. Sérülései miatt a 33 éves férfi részben mozgásképtelen lett, és alkalmatlanná vált a tengeri szolgálatra. Közel háromévnyi lábadozás után a haditengerészet irodai munkával bízta meg: a nem túl ígéretes elnevezésű térkép- és eszközraktár vezetésével.1 Ez azonban tökéletes helynek bizonyult számára. Fiatal navigációs tiszt ként Maury mindig is furcsállotta, hogy a hajók miért haladnak cikcakk ban a vízen, ahelyett hogy egyenes utat választanának. Amikor a kapi tányokat erről faggatta, azt a választ kapta, hogy sokkal jobb egy olyan irányt tartani, amelyet már ismernek, mint vállalni egy rejtett veszélyekkel járó, kevésbé ismert útvonal kockázatait. A tengerészek kiszámíthatatlan világként tekintettek az óceánra, ahol minden percben az ismeretlennel kell szembenézniük. Maury azonban a korábbi útjai alapján tudta, hogy ez nem egészen így van. Ő sémákat látott mindenhol. A chilei Valparaísóban, ahol egyszer hosszabban megpihentek, felfigyelt rá, hogy a széljárás óraműpontos sággal változik: a késő délutáni viharos szél napnyugtakor hirtelen abba marad, és lágy szellővé válik. Az egyik hajóúton keresztezték a Golf áramlat meleg, áttetsző, zöldeskék folyamát, amely úgy hömpölygött az
M a t t h e w F o n t a in e M a u r y ,
86
BIG DATA
Atlanti-óceán sötét vizében, akár a két part által közrefogott Mississippi. A portugálok pedig évszázadokon át az állandó keleti és nyugati szelekre - az ún. „kereskedelmi szelekre" - támaszkodva tájékozódtak az Atlanti óceánon. Valahányszor Maury egy új kikötőbe érkezett, az öreg tengerészkapi tányok társaságát kereste, hogy elbeszéléseik alapján szert tehessen a nemzedékről nemzedékre örökített, tapasztalatokra épülő tudásra. így sok mindent megtudott az árapályról, a szelekről és a tengeráramlatokról, amelyekről korábban semmit sem talált a haditengerészeti könyvekben és a térképeken. A valóság ismerete helyett a tengerészeknek időnként százéves térképekre kellett támaszkodniuk, amelyek tele voltak vaskos tévedésekkel és pontatlanságokkal. Új beosztásában, a térkép- és eszköz raktár főfelügyelőjeként Maury azt a célt tűzte ki, hogy helyreigazítja a tévedéseket. Miután elfoglalta posztját, leltárt készített a raktárban található baro méterekről, iránytűkről, szextánsokról és kronométerekről. A számtalan hajózási könyv és térkép sem kerülte el figyelmét. Penészes ládákra buk kant, amelyek tele voltak a haditengerészet kapitányainak hajónaplóival. Elődei mindezt szemétnek tekintették; a margókra vetett versikékből és firkálmányokból úgy tűnt, mintha a naplókat csupán unaloműzésként forgatták volna, nem pedig a hajók pontos útvonalának meghatározása érdekében. Maury leporolta ezeket a tenger sós vizétől elszíneződött köteteket, és ahogy elmélyedt bennük, egyre izgatottabb lett. Kiderült ugyanis, hogy minden információt tartalmaznak, amire csak szüksége van: feljegyzéseket arról, hogy egy adott helyen és egy adott időpontban milyen volt a szél járás, a víz és az időjárás. Bár a hajónaplók egy részében nem sok érdekes dolgot talált, mások bővelkedtek a hasznos adatokban. Maury úgy vélte, ha mindezt összesítené, egy egészen új navigációs térképet készíthetne. Tucatnyi „számolójával" - így nevezték azokat, akik az adatok alapján tör ténő számításokat végezték - nekilátott a vesződséges munkának, hogy táblázatokba foglalja a folyamatosan pusztuló hajónaplókban található információkat. Maury összesítette az adatokat, és az Atlanti-óceán térségét öt hosszúsá gi és Öt szélességi fokból álló egységekre osztotta fel. Minden szegmenshez feljegyezte a hőmérsékletet, a szél és a hullámok sebességét és irányát,
A DAT 0 S í TÁ S
87
valamint a bejegyzés hónapját is, mivel az időjárási körülmények attól függően változtak, hogy mikor készültek az eredeti jegyzetek. Mire vég zett, az adatokból kiderült, mikor melyik hajózási útvonalat érdemes választani. A tengerészek nemzedékeitől származó tanácsok alkalmanként teljes szélcsendbe küldték a hajókat, vagy pont ellenkezőleg, a széllel és az áram latokkal szembe. Az egyik szokásos, New Yorkból Rio de Janeiróba tartó úton a hajósok sokáig küzdöttek a természet ellen, ahelyett hogy inkább megpróbálták volna hasznosítani az erejét. Az amerikai hajóskapitányokat arra tanították, hogy kerüljék a Rióba egyenesen délnek tartó hajóúttal járó veszélyeket. Ezért a hajók délkelet felé indultak, majd az Egyenlítő elérése után délnyugatra fordultak, így gyakran háromszor hosszabb út vonalat tettek meg, mint ha átszelték volna az Atlanti-óceánt. A tekervényes útvonal értelmetlennek bizonyult, a hozzávetőleg egyenesen délnek tartó próbaút viszont sikeres volt. A pontosság javítása érdekében Maurynak még több információra volt szüksége. Szabványosította a hajónaplóba kerülő adatok feljegyzésének formáját, továbbá elérte, hogy a naplókat az amerikai haditengerészet min den hajóján használják, és a partraszállás után adják is le. A kereskedelmi társaságok mindent elkövettek, hogy megszerezzék hajózási térképeit; Maury viszont ragaszkodott hozzá, hogy cserébe ők is adják át hajónaplói kat (ami a közösségi hálózatépítés egyik korai próbálkozása volt). Kijelen tette: „Minden hajót, amely az óceánon navigál, ezentúl úszó obszervatóri umnak, a tudomány templomának lehet tekinteni." Annak érdekében, hogy finomítsa a hajózási térképeket, újabb adatokat keresett (ahogyan a Google a PageRank algoritmusra alapozott, hogy több jelzést gyűjthessen be). A kapitányokat megkérte, hogy rendszeresen dobjanak a vízbe palac kokat, amelyek a dátumra, a pozícióra, a széljárásra és az uralkodó áramlás ra vonatkozó feljegyzéseket tartalmaznak, illetve, ha ilyenekre bukkan nak, gyűjtsék be őket. Sok hajó egy speciális zászló kitűzésével jelezte, hogy részt vesz az információcserében (ahogy manapság a linkmegosztási ikonokat tüntetik fel sok weboldalon). Az adatok alapján kirajzolódtak azok a természetes hajózási útvonalak, ahol a szelek és az áramlatok különösen kedvezőek voltak. Maury hajózá si térképei általában egyharmadával rövidítették le a hajóutakat, amivel a kereskedők egy halom pénzt tudtak megtakarítani. „Mielőtt használni
88
BIG DATA
kezdtem volna az ön művét, vakon keltem át az óceánon" - írta neki egy hálás hajóskapitány. Végső soron pedig azoknak a vén tengeri medvéknek a makacssága is hasznosnak bizonyult, akik visszautasították az új hajózá si térképek használatát, és továbbra is a hagyományos útvonalakat járták, vagy a saját megérzéseikre támaszkodtak: ha útjaik tovább tartottak, vagy ha szerencsétlenül jártak, az szintén Maury rendszerének hasznosságát bizonyította. Mire 1855-ben megjelentette Physical Geography of the Sea (A tenger fizikai földrajza) című mestermunkáját, már 1,2 millió adatpont bejelölésénél tartott. „A fiatal tengerész, ahelyett hogy tapogatózva keresné az útját, amíg tapasztalatai meg nem világítják előtte, immár ezer tengerész tapasztalatával rendelkezik, amelyek irányt mutatnak neki" - írta. r Munkája az első transzatlanti távírókábel lefektetésénél is nélkülözhe tetlennek bizonyult; egy tragikus nyílt tengeri ütközést követően pedig kidolgozta a mai napig is használatos hajózási útvonalak rendszerét. Mód szerét még a csillagászatra is alkalmazta: amikor 1846-ban felfedezték a Neptunusz bolygót, Maurynak az a ragyogó ötlete támadt, hogy egyesíti archívumából azokat a hivatkozásokat, amikor még tévesen csillagnak hitték - lehetővé téve ezáltal, hogy meghatározzák keringési pályáját. Mauryról alig tettek említést az amerikai történelemkönyvek/talán azért, mert Virginia állam szülötteként az amerikai polgárháború alatt lemondott az (unionista) haditengerészetben betöltött pozíciójáról, és kémnek állt Angliában, a konföderáció oldalán. Évekkel korábban azon ban, amikor Európába utazott, hogy nemzetközi támogatást szerezzen hajózási térképeihez, négy országban is lovaggá ütötték, további nyolcban pedig - köztük a Vatikánban - kitüntették. Az Amerikai Egyesült Államok haditengerészete által kiadott navigációs térképek a mai napig az ő nevét viselik. Maury parancsnok, a „tengerek nyomkeresője" az elsők között jött rá, mi csoda érték rejlik egy óriási adathalomban, ami a kisebbekből hiányzik vagyis megértette a big data elvét. Még lényegesebb, hogy felismerte: a haditengerészet dohos hajónaplói valójában kigyűjthető és rendszerezhető „adatokból" állnak. így az adatosítás egyik úttörője vált belőle, aki olyan anyagból nyert ki információkat, amelyet rajta kívül mindenki értéktelen nek hitt. Maury ugyanúgy dolgozott, mint Oren Etzioni, aki a repülőjegyek múltbéli árai alapján épített ki virágzó üzletet, vagy a Google mérnökéi,
A DAT 0 S íTÁ S
89
akik régi keresések alapján igyekeztek feltérképezni az influenzajárvány terjedését. Egy bizonyos célból létrehozott információhalmazt valami telje sen mássá alakított át. Maury módszere, amely sok mindenben hasonlít a mai big data techni kákhoz, elképesztő volt, különösen, ha figyelembe vesszük, hogy akkori ban még csak papírt és ceruzát használtak hozzá. Ez a történet világosan megmutatja, hogy az adatosítás jóval megelőzte a digitalizációt. Manap ság gyakran összemossuk e két fogalmat, pedig a megkülönböztetésük igen fontos. Lássunk most egy napjainkból vett példát, amely tökéletesen érzékelteti, hogyan lehet a legvalószínűtlenebb területeken is adatokat gyűjteni! Az emberi hátsók tanulmányozása Shigeomi Koshimizú, a tokiói AIIT (Advanced Institute of Industrial Technology) műszaki egyetem professzo rának szemében egyszerre művészet és tudomány. Kevesen gondolnák, hogy az emberek ülésmódja információkat hordozhat, pedig így van. Az ülő emberek testtartása, testük körvonala és súlyeloszlása egyaránt számszerűsíthető és táblázatba foglalható. Koshimizú és mérnökcsapata az emberi hátsókból úgy képez adatokat, hogy egy autó ülésének 360 kü lönböző pontján érzékelőket helyez el. Az általuk mért nyomás alapján minden érzékelési pontot egy nullától 256 pontig terjedő skálán értékel nek, ezáltal pedig egy olyan digitális kódot kapnak, amely minden ember esetében más és más. Egy kísérlet során a rendszer képes volt a tesztalanyo kat 98% -os pontossággal megkülönböztetni egymástól.2 Ez a kísérlet minden, csak nem ostobaság; a segítségével ugyanis ki tudnak fejleszteni az autókhoz egy új lopásgátló rendszert. Az ezzel fel szerelt kocsi észlelné, ha nem a szokásos vezető ül a volánnál, és jelszót kérne, annak hiányában pedig leállítaná a motort. Az üléspozíció ada tokká történő átalakítása egy új szolgáltatás és egy jövedelmező üzleti lehetőség ígéretét hordozza. Jóval több haszonnal járhat, mint egyszerűen az autólopások meggátolása. Az adatok összesítése összefüggéseket tárhat fel a járművezetők testtartása és a közlekedésbiztonság között: elárulhat ja például, hogyan változott meg balesetek előtt a sofőrök testhelyzete. A rendszer érzékelheti, ha az autós a kimerültségtől elernyed, és ilyenkor riaszthat vagy automatikusan fékezhet. Emellett nemcsak megakadályoz hatja a kocsi ellopását, de a tolvaj - mondjuk úgy, hátulról történő - azo nosítására is képes lehet.
90
BIG DATA
Koshimizu professzor olyasmit használt fel, amit korábban még sohasem kezeltek adatként - sőt, amiről még azt sem feltételezték, hogy információt hordozhat -, és ezt alakította át számokká. Maury kapitányhoz hason lóan ő is fölöslegesnek látszó anyagot hasznosított azáltal, hogy a belőle kigyűjtött információkból rendkívül hasznos adatokat állított elő. Az infor mációk újszerű hasznosításával pedig egyedülálló értéket teremtett. Az „adat" szó angol megfelelője, a data a latin „adott dolog" (vagyis „tény") kifejezésből származik. Ezt a címet viseli Eukleidész klasszikus műve is, amelyben a szerző a geometriát ismert vagy ismertethető dolgok-f ból vezeti le. Manapság az adat valaminek a leírását jelenti, aminek révén lehetővé válik annak rögzíthetősége, elemezhetősége és tetszőleges csoportosíthatósága. Még nincs olyan kifejezésünk, amely jól írná le azt a fajta átalakítást, amelyet Maury kapitány és Koshimizu professzor hajtott végre. Nevezzük adatosításnakl Egy jelenség adattá tétele azt jelenti, hogy számszerűsített formátumba tesszük, annak érdekében, hogy rendszerez ni és elemezni lehessen. Még egyszer fontos kiemelni, hogy az adatosítás nagyon különbözik a digitalizációtól, amely az analóg információ nullákból és egyesekből álló bináris kóddá történő átalakítását jelenti, hogy ezáltal számítógépes fel dolgozásra alkalmassá váljon. De nem a digitalizálás volt az első dolog, amit a számítógépekkel elvégeztünk. Az informatikai forradalom kezdeti korszakát a számítások jellemezték, ahogy arra a számítógép neve is utal. A számítógépeket arra használtuk, hogy olyan számítási műveleteket vé gezzenek el - rakéták röppályáinak kiszámítása, népszámlálási és meteo rológiai adatok összesítése -, amelyek a korábbi módszerekkel túl sokáig tartottak. Az analóg tartalmak digitalizálására csak később került sor. Úgyhogy amikor Nicholas Negroponte, az MIT Media Láb munkatársa 1995-ben megjelentette korszakalkotónak számító könyvét, a Digitális létezést (Being Digital)3, annak egyik legfontosabb témaköre az atomokról a bitekre való átállás volt. Az 1990-es években főként szövegeket digita lizáltak. Később, a tárolóhelyek, a feldolgozási kapacitások és a sávszéles ségek növekedésével más formátumú tartalmak is sorra kerültek, mint a képek, a videók és a zene. Ma a műszaki szakemberek jó része magától értetődőnek tartja, hogy a big data az informatikai forradalomra vezethető vissza. Ez azonban egy szerűen nem így van. Bár a modern információtechnológiai rendszerek
A D A T O S ÍTÁS
91
lehetővé teszik a big data elterjedését, ám az alapokat tekintve azért tér tünk át a big datára, mert folytatjuk azt az ősi törekvésünket, hogy fel mérjük, rögzítsük és elemezzük a világot. Az információtechnológiai forradalom minden területen érezhető, azonban a hangsúly eddig főként a technológián volt. Eljött az idő, hogy a figyelmünket az információra összpontosítsuk. Ahhoz, hogy számszerűsíthető információkhoz juthassunk - hogy adatosíthassunk -, tudnunk kell, hogyan végezzünk méréseket, és hogyan rögzítsük azok eredményeit. Ehhez megfelelő eszközök kellenek, és persze az is, hogy akarjuk a számszerűsítést és az adatok rögzítését. Az adatosítás előfeltételeit, a hozzá szükséges építőelemeket már sok évszázaddal a digitális korszakot megelőzően kifejlesztette az emberiség.4
A világ számszerűsítése A primitív és a fejlett társadalmak között az információk feljegyzésének képessége jelenti az egyik markáns különbséget. Az egyszerű számolás, valamint a hossz- és a tömegmérés a korai civilizációk legrégibb fogalmi eszközei közé tartozott. Az i. e. 3. évezredben az információk feljegyzése gyors fejlődésnek indult az Indus-völgyi kultúrában, Egyiptomban és Mezopotámiában. Ahogy a mindennapi életben egyre fontosabb lett a mérés, úgy nőtt a pontossága is. Mezopotámiában az írás fejlődése révén egyre pontosabban követhették nyomon a termelést és az üzleti tranzakció kat. Az írásbeliség lehetővé tette a korai civilizációk számára a valóság mérését, feljegyzését és későbbi visszakeresését. A mérés és a rögzítés együttese megteremtette a lehetőséget, hogy adatokat hozzanak létre. Ezek voltak az adatosítás legkorábbi alapjai. Attól fogva meg tudták ismételni a tevékenységeket. Az épületek a mére tek és az alapanyagok feljegyzése alapján reprodukálhatók lettek. Szabad teret kapott a kísérletezés is: egy építész vagy építőmester megváltoztat hatott bizonyos méreteket, míg a többit változatlanul hagyta, új tervet hozva létre - amit aztán megint meg lehetett örökíteni. A kereskedelmi tranzakciókat is feljegyezhették, így kiderült, hogy egy betakarítás során vagy egy adott területen mekkora lett a termés (és az állam ebből meny
92
BIG D AT A
nyíre tarthatott igényt adók formájában). A számszerűsítés megteremtette a lehetőséget, hogy előrejelzéseket készítsenek, vagyis tervezzenek, még akkor is, ha ez eleinte csupán abból állt, hogy feltételezték: a következő évi termés is olyan bő lesz, mint az előző éveké. Az üzleti partnerek táblázato kat vezethettek arról, hogy mennyivel tartoznak egymásnak. A mérések és feljegyzések nélkül nem születhetett volna meg a pénz sem, mert nem lettek volna adatok az értékének alátámasztására. Ahogy teltek-múltak az évszázadok, a hosszúság és a tömeg után a terü let, a térfogat és az idő mérése is megkezdődött. Nyugaton az első évezred elejére kialakultak a mérés főbb jellegzetességei. A korai civilizációk mé rési módszereinek azonban volt egy jelentős hiányosságuk: nem optimali zálták őket a számolásokhoz, még a legegyszerűbbekhez sem. A római számjegyekkel történő számolás rendszere nem igazán felelt meg a nume rikus elemzések kívánalmainak. Tízes - helyiértékes - számrendszer nél kül a nagy számok osztása és szorzása még a gyakorlottaknak is nehéz volt, az egyszerű összeadás és kivonás pedig a legtöbb ember számára átláthatatlannak tűnt. Az 1. század táján Indiában alternatív számrendszert fejlesztettek kiv Ez először Perzsiába jutott el, ahol továbbfejlesztették, majd az arabokhoz, akik még tovább finomították. Ez lett az alapja a ma használatos arab szá moknak. Lehet, hogy a keresztesek rengeteg pusztítást hajtottak végre a meghódított területeken, de az ismeretek azért eljutottak keletről nyugat ra, és ezek közül talán a legnagyobb jelentőségük az arab számoknak volt. Olyannyira, hogy az első évezred végén II. Szilveszter pápa is támogatta használatukat, és maga is tanulmányozta őket. A 12. századra a rendszer működését leíró arab szövegeket lefordították latinra, így egész Európá ban megismerhették őket. Ennek eredményeképpen fejlődésnek indult a matematika. Mielőtt az arab számok eljutottak volna Európába, a kontinensen szá molódeszkákat használtak. Ezek sima táblák voltak, amelyekre érméket helyeztek, így jelölték az összegeket. A jelzések különböző területek közötti csúsztatásával lehetett összeadni és kivonni. Ennek a módszernek súlyos korlátai voltak. Nehéz volt például egyszerre nagyon nagy és nagyon kicsi értékekkel számolni. A legjelentősebb korlát azonban az volt, hogy az ér mék csak pillanatokig maradtak egy helyben a deszkán. Elég volt egy rossz mozdulat, egy óvatlan lökés, és máris megváltoztak a számok, ezzel együtt
A D A T Ó S ÍTÁS
93
pedig a végeredmény is rossz lett. A számolódeszkák a számolásra még úgy-ahogy alkalmasak voltak, az eredmények rögzítésére azonban egyálta lán nem. A táblák által mutatott értékek feljegyzésének és megőrzésének nem volt más módja, mint az, hogy visszaváltották a nagyon nehézke sen használható római számokra. (Európában nem ismerték a keleti aba kuszt5- utólag talán jobb is, mert az csak meghosszabbította volna a római számok használatát.) A matematika új jelentéssel ruházta fel az adatokat: most már nem csak feljegyezni és visszakeresni lehetett őket, hanem elemezni is. Az arab számok elterjedése Európában évszázadokig tartott - a 12. századtól egé szen a 16. század végéig. Akkoriban a matematikusok már azzal büszkél kedhettek, hogy az arab számokkal hatszor olyan gyorsan képesek szá molni, mint a számolódeszkákkal.6De az adatosítás egy másik eszközének a fejlődésére is szükség volt ahhoz, hogy az arab számok végső diadalt arathassanak: ez pedig a kettős könyvelés megjelenése volt. Könyvelési célra az i. e. 3. évezredtől használtak okiratokat. Bár a köny velés az évszázadok során folyamatosan fejlődött, abban a tekintetben nem változott a rendszer, hogy az egyes tranzakciók feljegyzése egy helyen történt. Emiatt épp azt nem sikerült megvalósítani, ami a könyvelőket és az őket foglalkoztató kereskedőket a legjobban érdekelte: hogy bármikor könnyűszerrel ki tudják mutatni, vajon egy adott üzletkötés vagy vállal kozás nyereséges volt-e, vagy sem. Mindez a 14. században kezdett meg változni, amikor az itáliai könyvelők elkezdték a tranzakciókat két helyen rögzíteni. Az egyik oldalon a „tartozik", a másikon a „követel" szerepelt, úgy, hogy összességében a számlák egyensúlyban legyenek. E rendszer szépsége abban rejlett, hogy így azonnal látszott a nyereség és a veszteség. Az addig unalmasnak tartott adatok beszélni kezdtek. Ma a kettős könyvelést rendszerint csak számviteli és pénzügyi követ kezményei miatt szokás méltatni. Pedig az adatfelhasználás fejlődésére is rendkívül jelentős hatást gyakorolt. Lehetővé tette, hogy az információt a bizonylatokat összekapcsoló „kategóriák" szerint rögzítsék. Egy sor adatrögzítésre vonatkozó szabály segítségével működött - ez az informá ciók szabványosított feljegyzésének egyik legkorábbi példája. Ha egy könyvelő belenézett a másik könyveibe, mindent értett. Megszervezték, hogy az adatokat - a nyereség- vagy veszteségkalkulációt - gyorsan és egyértelmű módon lehessen lekérdezni. Emellett az adatok könnyebb
94
BIG DATA
nyomon követhetősége érdekében a kettős könyvelés létrehozta a tranz akciók eseménynaplóját. Minden mai geek elismerését kiválthatja, aho gyan a „hibakorrekciót" beemelték a tervezési jellemzők közé. Ha valami nem stimmelt a főkönyv egyik oldalán, össze lehetett vetni a megfelelő könyvelési tétellel. Az arab számokhoz hasonlóan azonban a kettős könyvelés sem aratott azonnali sikert. Kétszáz évvel a módszer kidolgozása után egy matemati kusra és egy kereskedőcsaládra volt szükség ahhoz, hogy fordulat követ kezzen be az adatosítás történelmében. A matematikus egy Luca Pacioli nevű ferences szerzetes volt, aki 1494-ben kiadott egy laikusoknak szóló kézikönyvet a matematikáról és annak kereskedelmi alkalmazásáról. A könyv hatalmas sikert aratott, és gyakorlatilag korának matematika-tankönyvévé vált. Ebben használ tak először az elejétől a végéig arab számokat, úgyhogy azok európai elfogadásához a kötet népszerűsége is nagyban hozzájárult. Leginkább maradandó része azonban a könyvelésről szóló fejezet volt, amelyben Pacioli remekül magyarázta el a kettős könyvelés rendszerét. A következő évtizedekben ezt a részt külön is kiadták, mégpedig hat nyelven, és év századokon keresztül irányadó mű maradt ebben a témakörben. Ami pedig a kereskedőcsaládot illeti, az nem volt más, mint a híres firen zei kereskedő- és művészetpártoló dinasztia, a Mediciek. A 16. században Európa legbefolyásosabb bankárjaivá váltak, amihez nem kis mértékben járult hozzá, hogy egy kiváló adatrögzítési módszert használtak, a kettős könyvelést. Pacioli művének és a Medici család sikeres gyakorlatának együttese garantálta a kettős könyvelés győzelmét, és meghonosította az arab számok nyugati használatát. Az adatrögzítés fejlődésével párhuzamosan a világon létező mérési módok, vagyis az idő, a távolság, a terület, a térfogat és a tömeg mérésé nek pontossága folyamatosan nőtt. A 19. század során a tudományt az a szemlélet határozta meg, hogy a természet megismeréséhez a mennyiségi meghatározásokon keresztül vezet az út, ezért új eszközök és mértékegysé gek születtek az elektromos áram, a légnyomás, a hőmérséklet, a hang frekvenciája és hasonlók mérésére és feljegyzésére. Ez az a korszak volt, amikor az égvilágon mindent meg kellett határozni, meg kellett különböz tetni és meg kellett jelölni. A megszállott mérési törekvések odáig fajul tak, hogy egyesek az emberi koponya formájából következtettek az illető
ADATOSÍTÁS
95
mentális képességeire. Szerencsére a frenológia áltudománya nagyrészt elsorvadt, a számszerűsítés iránti vágy azonban egyre nőtt. A valóság mérése és az adatok rögzítése az eszközök fejlődésének és az emberek fogékonyságának köszönhetően indult virágzásnak. E kom bináció remek táptalajt jelentett a modern adatosítás szárba szökkené séhez. Adott volt már minden, ami kellett hozzá, bár az analóg világban még nagyon költséges és időrabló tevékenységnek számított. Sok esetben végtelen türelmet, vagy legalábbis élethosszig tartó elkötelezettséget igé nyelt. Tycho Brahe például az 1500-as években fáradhatatlanul és aprólékos gonddal figyelte éjszakánként a csillagok és bolygók járását. Azok a ritka esetek, amikor az adatosítás az analóg korszakban sikeres volt - mint pél dául Maury kapitány navigációs térképeinél -, gyakran a véletlenek szeren csés összjátékának voltak köszönhetők. Maury például irodai munkára kényszerült, de a régi hajónaplók formájában kincsesbányára bukkant. A sikeres adatosítások során óriási érték jött létre az alapinformációkból, és rengeteg új ismeret megszerzése vált lehetővé. A számítógépek megjelenését követően a digitális mérések és tárolóesz közök révén óriási mértékben növekedett az adatosítás hatékonysága. Sok kal könnyebbé vált az adatok matematikai elemzése, így rejtett értékeiket is fel lehetett tárni. Egyszerűbben fogalmazva: a digitalizáció felturbózza az adatosítást. Nem lép azonban a helyébe. A digitalizálás - az analóg in formációk számítógéppel olvasható formátumba alakítása - önmagában nem tesz adattá semmit.
Amikor a szavakból adatok lesznek Az adatosítás és a digitalizáció különbsége azonnal nyilvánvalóvá vá lik, ha egy olyan területet vizsgálunk meg, amelyen mindkettő végbe ment. Nézzük például a könyveket! 2004-ben a Google egy hihetetlenül bátor tervvel állt elő: az összes megszerezhető könyv minden oldalát - a szerzői jogok keretein belül - a világon bárki számára kereshetővé és hozzáférhetővé teszi az interneten, mégpedig ingyenesen. E rendkívül ambiciózus cél érdekében a vállalat szövetkezett a világ legnagyobb és legnevesebb tudományos könyvtárai közül néhánnyal, és automatikus
96
BIG DATA
lapozásra képes szkennereket fejlesztett ki, hogy a könyvek millióinak beszkennelése egyrészt megvalósítható, másrészt anyagilag is vállalható legyen. Először digitalizálták a szövegeket: minden oldalt beszkenneltek, és a Google szerverein tárolt nagy felbontású digitális képfájlokban rögzítet tek. Az oldalakról olyan digitális másolatot készítettek, amelyet bárki le kérhetett a világhálón. A lekéréskor azonban az olvasónak tudnia kel lett volna, pontosan melyik az a könyv, amelyben meg akarja keresni a kívánt információt, vagy sok mindent kellett volna elolvasnia ahhoz, hogy megtalálja a megfelelő részt. Nem lehetett volna elemezni a szöveget, vagy rákeresni benne egyes szavakra, mert a szöveg nem volt adatosítvá. A Google csupán képekkel rendelkezett, amelyeket csak az ember képes hasznos információkká alakítani - azáltal, hogy elolvassa a rajtuk lévő szöveget. Bár ez is nagyszerű eszköz lett volna - egy modern, digitális alexand riai könyvtár, átfogóbb, mint bármely más könyvtár a történelemben -, a Google többet akart elérni. A vállalat tisztában volt azzal, hogy az infor mációból csak akkor lehet értéket kinyerni, ha adatosítják. Ezért a Google optikai karakterfelismerő szoftvert alkalmazott, amely képes volt a digitá lis képeken található betűk, szavak, mondatok és bekezdések felismerésére. Ennek eredményeképpen a könyvoldal digitalizált képe helyett adatosított szöveg jött létre. Az oldalon lévő információ így már nemcsak az emberek számára volt használható, hanem számítógépes feldolgozásra és matematikai elem zésre is alkalmassá vált. Az adatosítás a szövegeket indexelhetővé és ezáltal kereshetővé tette. Emellett a szöveges elemzések végtelen sorára is lehetőség nyílt. Ma már megtudhatjuk, hogy bizonyos szavakat és ki fejezéseket mikor használtak első alkalommal, vagy mikor váltak népsze rűvé, ez az ismeret pedig új megvilágításba helyezi az eszmék terjedését és az emberi gondolkodás évszázadokon és nyelvi kultúrákon átívelő fejlődését. Mindezt magunk is kipróbálhatjuk. A Google Ngram Viewer7 alkal mazása a teljes Google Books indexet adatforrásként használva, grafiko non mutatja meg, hogyan alakult az idők folyamán az egyes szavak vagy kifejezések használata. Másodperceken belül megtudhatjuk, hogy 1900 előtt a „kauzalitás" (causality) kifejezést gyakrabban használták, mint
ADATOSÍTÁS
97
a „korrelációt" (correlation), azután viszont fordult a kocka. Összehason líthatjuk az írói stílusokat, és betekintést nyerhetünk a szerzői vitákba. Az adatosítás azt is lehetővé teszi, hogy sokkal könnyebben felismerjük a tudományos munkákban előforduló plágiumot; ennek következtében jó pár európai politikus, köztük a német védelmi miniszter is lemondásra kényszerült. A könyvnyomtatás 15. század közepén történt feltalálása óta becslések szerint 130 millió egyedi kötet jelent meg. 2012-re a Google - 7 évvel az után, hogy megkezdte könyvprojektjét - több mint 20 millió könyvet olvasott már be. Ez nem kis részarány: a világ írott örökségének több mint 15%-a.8 Mindez egyebek közt egy új tudományág, a „kulturomika" (cultűromics) megszületését eredményezte. Ez egy olyan számítógépes lexikológiát jelent, amely szövegek mennyiségi elemzésén keresztül igyek szik megérteni az emberi viselkedést, illetve a kulturális irányzatokat. Harvardi kutatók egy tanulmányukban arról számoltak be, hogy több millió könyv átszúrásé után (ami több mint 500 milliárd szót jelent) fel tárták: a könyvekben szereplő angol szavaknak csak kevesebb mint a fele szerepel a szótárakban. Mint írták, a szavak e hatalmas erdeje lexikai értelemben olyan „sötét anyagból" áll, amit nem dokumentáltak a meg szokott hivatkozási helyeken. Továbbá, a Marc Chagall festőre - akinek munkáit zsidó származása miatt betiltották a náci Németországban vonatkozó hivatkozásokat algoritmikai elemzésnek alávetve a kutatók ki mutatták, hogy az eszmék vagy személyek elnyomása vagy cenzúrázása „számszerűsíthető nyomokat" képes hagyni maga után.9A szavak olyanok, mint az üledékes kőzetekbe ágyazódott kövületek. A kulturomika művelői fel tudják tárni őket, ugyanúgy, mint a paleontológusok a fosszíliákat. Természetesen ezek az adatkészletek kismillió belső torzítást tartalmaz nak - vajon a könyvtári könyvek a való világ igaz tükrözését jelentenék, vagy csak azt mutatnák, ami a szerzőknek és a könyvtárosoknak fontos? A kulturomika mindenesetre teljesen új nézőpontból segíti az emberi meg ismerés folyamatát. Az adatokká alakított szavakat számtalan területen lehet hasznosítani. Míg az emberek olvasásra, a gépek elemzésre használhatják őket. A big data cégek mintaképének számító Google-nál azonban jól tudják, hogy az információknak egyszerre többféle rendeltetésük is lehet, ami indokolt tá teszi gyűjtésüket és adatosításukat. A Google ügyesen arra használta
98
BI G D A T A
a könyvszkennelési projektjéből származó, adatosított szövegeket, hogy segítségükkel javítsa a gépi fordítást. Ahogy azt a 3. fejezetben tárgyal tuk, a rendszer lefordított szövegekkel dolgozik, és azt elemzi, hogy a fordítók milyen szavakat és kifejezéseket használtak munkájuk során. Mindezt egy hatalmas matematikai feladatként kezeli, a számítógép pedig valószínűségszámítással határozza meg, hogy melyik szó felel meg leginkább egy másik nyelv bizonyos szavának. Természetesen nem a Google volt az egyetlen szervezet a világon, ahol arról álmodtak, hogy a világ írott örökségének gazdagságát átültetik a számítógépes korba, sőt, még csak nem is ők próbálkoztak vele először. A Gutenberg-projekt elnevezésű közösségi kezdeményezésnek már 1971-ben az volt a célja, hogy digitalizálja a köztulajdonban lévő műveket. Ugyanakkor ez a projekt csak arra vállalkozott, hogy olvasható formában tegye közzé a szövegeket, és nem gondolt arra a másodlagos felhasználási lehetőségre, hogy adatként kezelje a szavakat. Az olvasásról, nem pedig az újbóli felhasználásról szólt. Ehhez hasonlóan a könyvkiadók is évekig kísérleteztek a könyvek elektronikus változataival. Ők is a könyvek tartal mát tekintették alapvető értéknek, nem pedig a bennük rejlő adatokat; üzleti modelljük ezen alapult. Úgyhogy az adatokat sohasem használták fel, és ezt másoknak sem engedélyezték. Soha nem ismerték fel ennek szükségességét, mint ahogy a benne rejlő lehetőséget sem. Manapság sok cég áll versenyben egymással az elektronikus könyvek piacán. Az Amazon a Kindle e-könyv-olvasóval már a kezdet kezdetén jókora előnyre tett szert. Az Amazon és a Google stratégiája azonban e területen nagymértékben különbözik. Az Amazon is adatosította a könyveket - ám a Google-lal ellentétben nem sikerült kiaknáznia a szövegek adatként kezelésében rejlő lehető ségeket. Jeff Bezos, a cég alapítója és vezérigazgatója kiadók százait győzte meg róla, hogy Kindle formátumban jelentessék meg könyveiket. A Kindle könyvek nem az oldalak képeiből állnak. Ha így lenne, akkor nem lehetne megváltoztatni a betűméretet, vagy egy oldalt színesben és fekete-fehérben is megnézni. A szövegeket nemcsak digitalizálták, adatosították is. Az Amazon ugyanazt teszi új könyvek millióival, mint amit a Google lelkiismeretes munkával igyekszik elérni sok-sok régi könyvvel. Ugyanakkor az Amazon - „statisztikailag jelentős szavak" elnevezésű, remek szolgáltatásától eltekintve, amely algoritmusok segítségével olyan
A D A T O S Í TÁS
99
kapcsolatokat keres a könyvek témái között, amelyek máskülönben nem tűnnének fel - nem használta fel a birtokában lévő hatalmas szókészletet big data elemzésekre. A cég könyvkereskedéssel foglalkozik, ami szerintük a tartalmon, nem pedig az adatosított szövegek elemzésén alapul. Emellett valószínűleg a kiadók régimódi hozzáállásával is szembe kell nézniük a könyveikben található információk felhasználását illetően. A Google a big data határokat feszegető fenegyerekeként nem érzi úgy, hogy szabadságát bármi is korlátozná: a felhasználók klikkeléseiből él, nem pedig abból, hogy hozzáférést nyújt a kiadók által megjelentetett művekhez. Talán nem vagyunk igazságtalanok, ha - legalábbis egyelőre - úgy fogalmazunk, hogy az Amazon a tartalom digitalizálásának, a Google pedig az adatosításának értékét ismerte fel.
Amikor a helymeghatározásból adat lesz A világ egyik legalapvetőbb információja maga a világ. A történelem leg nagyobb részében a térbeli helyzetet nem számszerűsítették vagy használ ták adatformában. Pedig a természet, a tárgyak és az ember földrajzi el helyezkedése információt hordoz. A hegy ott van, az ember pedig itt van. A leghasznosabb tehát, ha ebből az információból adatot csinálunk. Az el helyezkedés adatosításának azonban van néhány előfeltétele. Szükségünk van egy olyan módszerre, amellyel meg tudjuk mérni Földünk területének minden egyes négyzetméterét. Kell egy szabvány a méretek feljegyzésé hez. Elengedhetetlen, hogy legyen egy eszközünk az adatok nyomon kö vetésére és rögzítésére. Számszerűsítés, szabványosítás, adatgyűjtés - csak ezután tudjuk az elhelyezkedést adatként tárolni és elemezni. Nyugaton a földrajzi helyzet számszerűsítése az ókori görögöknél kez dődött, i. e. 200 körül. Megjelölésére Eratoszthenész találta fel a rácsvonalak rendszerét, amely hasonló volt a földrajzi szélességhez és hosszúsághoz. De mint oly sok remek ókori ötlet, idővel ez is feledésbe merült. Másfél évezreddel később, 1400 körül Ptolemaiosz Geográfia című munkájának egy példánya Konstantinápolyból Firenzébe került, ahol a reneszánsz és a tengeri kereskedelem fellendülése következtében akkortájt kezdtek újra érdeklődni a tudomány és az ókori ismeretek iránt. Ptolemaiosz értekezése
100
BIG DATA
szenzációsnak bizonyult, és régi tanait alkalmazni kezdték a navigációs problémák megoldására. Attól fogva a térképeken feltüntették a földrajzi hosszúságot és szélességet, valamint a térkép méretarányát. A rendszert 1570-ben Gerardus Mercator flamand térképész továbbfejlesztette, a hajó sok így egyenes útvonalat tervezhettek, a Föld gömbölyű alakja ellenére. Bár akkoriban már fel tudták jegyezni a földrajzi helyzetet, az infor máció megosztásának nem létezett általánosan elfogadott formája. Egy közös azonosítási rendszerre volt szükség, ugyanúgy, ahogy az internet nek is kellettek a domain nevek ahhoz, hogy az emailhez hasonló dolgok az egész világon működni tudjanak. A földrajzi hosszúság és a földrajzi szélesség egységesítése sokáig tartott. Végül 1884-ben, a washingtoni Nem zetközi Meridián Konferencián született erről megállapodás: 25 ország az angliai Greenwichet választotta kezdő meridiánnak és nulladik hosszúsá gi foknak (a sértődött franciák tartózkodása mellett, akik a nemzetközi szabványok terén magukat tekintették vezetőnek). Az 1940-es években létrehozták az Univerzális Transzverzális Mercator (UTM) elnevezésű koordinátarendszert, amely a pontosság növelése érdekében a földfelszínt 60 zónára osztotta fel. A térinformatikai elhelyezkedés azonosítása, rögzítése, kiszámítása, elemzése és kommunikációja ma már szabványosított, numerikus formá tumban történhet. Minden pozíció adatosítható. Korábban viszont csak ritkán tették ezt meg, mivel az információ mérése és rögzítése analóg keretek között igen költséges volt. Az adatosításhoz olcsó helymeghatá rozási eszközökre volt szükség. Egészen az 1970-es évekig a fizikai hely meghatározáshoz feltűnő tereptárgyakat, csillagképeket, hozzávetőle ges számításokat és meghatározott rádiólokációs technológiákat kellett használni. A nagy változás 1978-ban vette kezdetét, amikor a GPS (Global Positioning System) rendszerét alkotó 24 műhold közül az elsőt felbocsátot ták. A földi vevőegység háromszögeléssel határozza meg a helyzetét a 20 200 km-es magasságban keringő műholdakról érkező jelek időkülönb ségének észlelése alapján. Az Amerikai Egyesült Államok védelmi minisz tériuma által kifejlesztett rendszer polgári felhasználását először az 1980-as években tették lehetővé, és az 1990-es évekre vált teljesen működőképessé. A kereskedelmi alkalmazások számára egy évtizeddel később tovább pon tosították. Az egyméteres pontossággal működő GPS gyorsan, (viszony
A DAT 0 S fTÁ S
101
lag) olcsón és előképzettséget nem igényelve váltotta valóra a hajósok, térképészek és matematikusok ókor óta létező álmát a helymeghatározás képességéről. Az információt mindenesetre elő kell állítani. Eratoszthenészt és Mercatort semmi sem akadályozhatta volna meg abban, hogy akár a nap min den percében megbecsüljék a tartózkodási helyüket, ha ezt akarták volna. Megvalósítható lett volna, de értelmetlen. Hasonlóképp az első bonyolult és drága GPS-vevők is megfeleltek ugyan a tengeralattjáróknak, de nem lettek volna megfelelőek minden embernek minden körülmények kö zött. Ez a helyzet a technika fejlődésével, az eszközökbe beépített, könynyen hozzáférhető és olcsó chipeknek köszönhetően változott meg. Egy GPS-modul költsége az 1990-es években több száz dollár volt; mára nagy jából egydolláros szintre zuhant. A GPS mindössze néhány másodperc alatt meg tudja határozni a tartózkodási helyet, a koordinátákat pedig mostanra szabványosították. Tehát a 37° 14' 06" N, 115° 48' 40" W csakis azt jelentheti, hogy valaki éppen Nevada állam egy eldugott részén, az „51-es körzetként" ismert szupertitkos amerikai katonai bázison tartózko dik, ahol (állítólag) űrlényeket tartanak fogva. Manapság a GPS csupán egyike a helymeghatározó rendszereknek. Kínában és Európában is próbálkoznak rivális műholdrendszerek kiépí tésével. Ráadásul még nagyobb pontosság érhető el azáltal, ha a jelerősség alapján végzett helymeghatározás során mobil adótornyok vagy wifi-routerek között háromszögelünk, ugyanis a GPS fedett helyen vagy magas épületek között nem működik. Ez segít megmagyarázni, hogy az olyan cé gek, mint a Google, az Apple és a Microsoft miért építették ki saját földrajzi helymeghatározó rendszereiket a GPS kiegészítéseként. A Google Street View autói fényképezés közben wifi-routerekről is gyűjtöttek be infor mációkat, az iPhone pedig „spyPhone-ként" (kémtelefonként) a telefonáló tartózkodási helyéről és wifihasználatáról gyűjtött adatokat, amelyeket az tán az Apple-nek továbbított, anélkül hogy a felhasználó minderről bármit is tudott volna. (A Google Androidos telefonjai, valamint a Microsoft mobil operációs rendszere szintén gyűjtött ilyen jellegű adatokat.) Ma már nemcsak az embereket, hanem a tárgyakat is nyomon lehet követni. A járművekben elhelyezett vezeték nélküli modulok segítségével a biztosítók például adatokhoz juthatnak a kocsi helyéről, a megtett távol ságról vagy a vezetés idejéről, így fel tudják mérni a kockázatot, és ehhez
102
BIG DATA
szabhatják díjaikat.10 Az Egyesült Államokban és Nagy-Britanniában az autótulajdonosok köthetnek olyan biztosítást, amelynél azt is figyelembe veszik, hol és mikor használják kocsijukat, nem pedig csak a korukat, a nemüket és a korábbi káreseményeiket. E megközelítés a biztosítások díjszabásában a sofőröket is óvatosságra ösztönzi. A biztosítás alapvető természetét változtatja meg azáltal, hogy a csoportszintű kockázatmeg osztásról az egyén tettein alapuló kockázatvállalásra tér át. Az egyének járművek segítségével történő nyomon követése az utakkal és más infra struktúrákkal kapcsolatos állandó költségek természetét is megváltoztatja, amikor használatukat a vezetőkhöz és más „fogyasztókhoz" köti. Ez a földrajzi helyzet mindenre és mindenkire kiterjedő, folyamatos adatfor mába alakítása előtt lehetetlen lett volna - a világ azonban ma ebbe az irányba halad. A UPS például sokféle módon használja a helymeghatározási adatokat. Járműveit érzékelőkkel, vezeték nélküli modulokkal és GPS-szel szerelte fel, hogy a vállalat központjában előre jelezhessék a várható motorhibákat, ahogy azt az előző fejezetben bemutattuk. Emellett késés esetén utána tud nak nézni, hol jár éppen a furgon, nyomon követhetik az alkalmazottakat, és alaposan meg tudják vizsgálni az útvonalterveket, hogy kiválasszák, melyik az optimális. Az utóbbit részben a korábbi szállítások alapján ha tározzák meg, hasonlóképpen, mint ahogy Maury navigációs térképei a korábbi tengeri hajóutak alapján készültek. Az elemzőprogram rendkívüli eredményeket hozott. 2011-ben a UPSnek több mint 43 millió km-rel sikerült lerövidítenie a sofőrjei által meg tett utat, amivel több mint 11 millió liter üzemanyagot spórolt, és 30 ezer tonna szén-dioxiddal csökkentette károsanyag-kibocsátását - közölte Jack Levis, a UPS folyamatirányítási igazgatója. A program a biztonság ^ és a hatékonyság javítását is elősegítette. Az algoritmus úgy állítja össze az útvonalakat, hogy kevesebb olyan fordulót tartalmazzanak, amikor kereszteződéseken kellene áthajtani, így csökken a balesetek száma, vala mint a cég időt és üzemanyagot is megtakarít.11 „Az előrejelzés tudással ruházott fel minket - mondja Levis. - De van, ami még a tudásnál is többet ér: a bölcsesség és a tisztánlátás. Eljön majd az idő, amikor a rendszer olyan okos lesz, hogy már azelőtt jelzi és orvosolja a problémákat, mielőtt a felhasználó egyáltalán észrevenné, hogy valami nem stimmel."12
A DAT 0 S fTÁ S
103
Az adatosított helymeghatározás akkor nyer igazán nagy jelentőséget, ha emberekkel kapcsolatban alkalmazzák. A mobilszolgáltatók éveken át gyűjtötték és elemezték az információkat hálózataik szolgáltatási szín vonalának emelése érdekében. Az adatokat azonban egyre gyakrabban használják egyéb célokra - harmadik félnek adják át, aki aztán új szol gáltatásokra használja fel. Egyes okostelefon-alkalmazások például hely információkat gyűjtenek, függetlenül attól, hogy magának az alkalmazás nak van-e helyalapú funkciója. Más ebetekben az egész alkalmazásnak az a lényege, hogy üzletet építsen a felhasználó tartózkodási helyének ismeretére. Példa erre a Foursquare, amely lehetővé teszi, hogy az embe rek bejelentkezhessenek a kedvenc helyeikre. Bevételét törzsvásárlói prog ramokból, étteremajánlatokból és más, helyhez kötött szolgáltatásokból szerzi. Rendkívüli értéke van annak, ha valaki be tudja gyűjteni a felhasználók helymeghatározási adatait. így lehet célzott hirdetésekkel bombázni a fel használót ott, ahol éppen van, vagy ahová készül. Az információt emellett összesíteni is lehet a trendek jelzése érdekében. A helyre vonatkozó adatok gyűjtése például lehetővé teszi a cégeknek, hogy anélkül észleljék a for galmi dugókat, hogy látnák a kocsikat: ezt az információt az autópályán „utazó" telefonok száma és sebessége jelzi. Az AirSage nevű cég mobiltele fon-előfizetők 15 milliárd helymeghatározási adatát dolgozza fel naponta azért, hogy Amerika száznál is több városában valós idejű közlekedési jelentéseket készíthessen. Két másik, helymeghatározással foglalkozó cég, a Sense Networks és a Skyhook az adatokból meg tudja mondani, hol a legnyüzsgőbb az éjszakai élet egy városban, vagy képes felbecsülni, hányán voltak egy tüntetésen. Előfordulhat azonban, hogy a helymeghatározásnak nem a kereske delmi célú felhasználása lesz majd a legfontosabb. Sandy Pentland, az MIT humánkutató intézetének (Human Dynamics Laboratory) igazgatója és Nathan Eagle együtt teremtették meg az alapjait az általuk „valóság bányászatnak" nevezett tevékenységnek. Ez nem más, mint a mobiltelefo nokból származó hatalmas mennyiségű adat feldolgozása, ami alapján aztán az emberi viselkedésre következtethetnek, illetve előrejelzéseket készíthetnek. Egyik tanulmányukban a mobiltelefonálók mozgásának és hívásainak elemzéséből sikerült azonosítaniuk azokat, akik már elkapták az influenzát, pedig még nem is tudták magukról, hogy betegek.13 Egy
104
BIG DATA
halálos járvány kitörése esetén ez a módszer emberek millióinak életét menthetné meg azáltal, hogy a közegészségügyi szakembereknek megmu tatja, az adott pillanatban hol tombol legerősebben a járvány. Ugyanakkor, ha a valóságbányászat hatalma rossz kezekbe kerülne, szörnyű következ ményekkel járhatna, ahogy azt majd látni fogjuk. Eagle, aki egy mobiladatokkal foglalkozó startup cég, a Jana alapítója, egyebek közt arra használta fel a több mint 100 ország 200-nál is több mobilszolgáltatójától - Latin-Amerika, Afrika és Európa 3,5 milliárd lakójá tól - származó összesített mobiltelefon-adatokat, hogy választ kapjon néhány, a marketingesek számára igen fontos kérdésre, például arra, hogy a háztartásokban hetente hány alkalommal mosnak. De afféle kérdések vizsgálatára is felhasználta a big datát, hogy egyes városoknak milyen az anyagi helyzetük. Egyik kollégájával összekapcsolták az afrikai kár tyás előfizetők helyére vonatkozó adatokat azzal az összeggel, amellyel feltöltötték telefonjukat. Ez utóbbi értéke erős összefüggést mutatott a jöve delemmel: a gazdagabbak egy-egy alkalommal több percet vásároltak. Az egyik kutatás eredménye azonban azt is kimutatta: bár a nyomornegyedek a szegénység központjai, ugyanakkor gazdasági szempontból ugródeszkát jelentenek.14A lényeg az, hogy a helymeghatározási adatok ilyen közvetett felhasználási módozatainak semmi közük a mobilkommunikációs irányí táshoz, amely célból ezeket az információkat eredetileg létrehozták.
Amikor a kapcsolatainkból adatok lesznek Az adatosítás következő határterületei személyesebb jellegűek: ezek a kap-i csolataink, a tapasztalataink és a hangulataink. Sok internetes közösségimédia-vállalkozás gerincét az adatosítási elképzelések alkotják. A közös ségi hálózati platformok nem csupán arra szolgálnak, hogy barátokra leljünk, és kapcsolatot tartsunk velük és kollégáinkkal; mindennapi éle tünk nem kézzelfogható elemeit alakítják adatokká, amelyeket aztán telje sen új dolgokra lehet felhasználni. A Facebook adatosította a kapcsolato kat, amelyek mindig is léteztek, és mindig is információt jelentettek, de a Facebook „közösségi gráfját" (social graph) megelőzően ezeket formálisan soha nem határozták meg adatként. A Twitter az érzések adatosítását tette
A D A T 0 S 1T Á S
105
lehetővé, megteremtve a módját annak, hogy az emberek könnyedén le jegyezhessék és megoszthassák kósza gondolataikat, amelyek korábban hamar feledésbe merültek. A Linkedln úgy adatosította szakmai tapaszta latainkat, ahogyan Maury alakította át a régi hajónaplókat, jelenünkre és jövőnkre vonatkozó előrejelzéssé téve azt az információt, kit ismerhetünk, vagy mely állás érdekelhet bennünket. Az adatok effajta felhasználása még kezdeti stádiumban van. A Facebook bölcsen kivár, tudván, hogy ha túl hamar túl sok új módját vonul tatná fel a felhasználói adatok hasznosításának, azzal kiborítaná a bilit. Emellett a vállalat még mindig nem igazította üzleti modelljét (és adat védelmi szabályzatát) az olyan nagyságrendű és jellegű adatgyűjtéshez, amilyet végezni akar. így a céget érő kritika sokkal inkább arra összpon tosul, hogy mit tud begyűjteni, semmint arra, hogy mit is kezd valójában ezekkel az információkkal. 2012-ben a Facebook körülbelül egymilliárd felhasználóval rendelkezett, a köztük lévő ismeretségek száma pedig meghaladta a 100 milliárdot.15 Az ezek eredményeképpen létrejövő adatosított közösségi gráf a világ teljes népességének 10% -át ábrázolja - és ez a rengeteg adat mind egyetlen vállalat rendelkezésére áll. A felhasználás lehetőségei rendkívüliek. Több startup cég vizsgálta már meg a közösségi gráf alkalmazási lehetőségét a hitelbírálatok terüle tén. Az elgondolás a „hasonló a hasonlót vonzza" elven alapul: a megfon tolt embereknek általában a barátaik is ugyanilyenek, míg a kicsapongó életet kedvelők a hasonszőrűekkel szeretnek együtt lógni. Ha minden jól alakul, a Facebookból válhat a következő nagy hitelminősítő intézet. Jó okunk van feltételezni, hogy a közösségimédia-cégektől származó gazdag adatkészletek olyan új üzletek alapját teremthetik meg, amelyek jócskán túllépnek a felszínes fényképmegosztásokon, állapotfrissítéseken és lájkolásokon. A Twitternek is érdekes elképzelései vannak az adatai hasznosításáról. Egyesek szemében a havi 140 millió látogató által 2012-ben elküldött napi 400 millió tweet alig több üres fecsegésnél.16Gyakran tényleg az is. A vál lalat azonban lehetővé teszi az emberek gondolatainak, hangulatainak és interakcióinak adatosítását, amire korábban gondolni sem mert volna senki. A Twitter két céggel, a Data-Sifttel és a Gnippel is megállapodást kötött arról, hogy hozzáférhetnek az adataihoz (mert bár valamennyi tweet nyilvános, ha valaki a „tömlőhöz" akar hozzájutni, annak bizony
106
BIG DATA
ára van). Sok cég foglalkozik a tweetek nyelvi elemzésével - időnként az érzelemelemzésnek nevezett technikát használva - hogy vásárlói vissza jelzéseket összesítsen, vagy egy-egy marketingkampányt követően értékelje azok hatását. Két hedge fund, a londoni Derwent Capital és a kaliforniai MarketPsych a Twitter-üzenetek adatosított szövegeit kezdte elemezni, hogy jelezhesse a részvénypiaci befektetések trendjeit. Tényleges kereskedési stratégiáikat titokban tartották: nem lehetett tudni, hogy agyonajnározott cégekbe fek tetnek-e, vagy éppenséggel ellenük spekulálnak.17 Ma már mindkét cég tőzsdei kereskedőknek értékesíti információit. A MarketPsych, miután összefogott a Thomson Reutersszel, ajánlatában 119 ország 18 864 különböző indexét szerepelteti, amelyeket percenként frissít az adott helyen éppen uralkodó érzelmi állapotoknak - optimizmus, lehangoltság, öröm, félelem, düh - megfelelően, sőt még olyan szempon tokat is figyelembe vesz, mint az innovációk, a jogviták és a konfliktu sok. Az adatokat nem annyira az emberek, mint inkább a számítógépek használják: a Wall Street „kvantokként" (quants) emlegetett matekzseni jei betáplálják őket algoritmikus modelljeikbe, annak reményében, hogy segítségükkel nyereséget hozó, eddig még fel nem ismert korrelációkra bukkannak. A közösségiháló-elemzések egyik atyja, Bernardo Huberman szerint egy adott témában születő tweetek gyakorisága is előre jelez het dolgokat: egy új filmmel kapcsolatos üzenetekből például következ tetni lehet Hollywood mozijegyekből származó bevételeire. Huberman egy Hewlett-Packardnál dolgozó kollégájával kifejlesztett egy olyan mo dellt, amely az új tweetek posztolásának ütemét vizsgálja. Ezzel jobb előrejelzést tudnak adni egy-egy film várható sikeréről, mint a többi, általánosan használt módszerrel.18 De ez még nem minden. A Twitter-üzenetek terjedelme legfeljebb 140 karakter lehet, a hozzájuk kapcsolódó metaadatok - vagyis az infor mációról szóló információk - viszont igen terjedelmesek: 33 különálló tételt foglalnak magukba. Némelyek nem tűnnek különösebben hasznos nak, mint például a felhasználó Twitter-oldalának háttérképe, vagy az a szoftver, amelyet az illető a szolgáltatáshoz történő hozzáféréshez használ. Más metaadatok ellenben rendkívül érdekesek, például a felhasználó anya nyelve, tartózkodási helye, az általa követett, valamint az őt követő embe rek száma és neve. Egy tanulmány, amelyről a Science 2011-ben számolt be,
ADATOSÍT ÁS
107
és amelyben 84 ország 2,4 millió lakosának 2 év alatt elküldött 509 millió tweetjét elemezték, kimutatta, hogy az emberek hangulata hasonló napi és heti mintákat követ az egész világon, kultúrától függetlenül.19 Ezt ko rábban nem lehetett volna megfigyelni; sikerült adatosítani a hangulatot. Az adatosítás nemcsak arról szól, hogy elemzésre alkalmas formába ön tik az emberek érzelmeit, hanem az emberi viselkedésről is. Ezt máskülön ben igen nehéz nyomon követni, különösen a tágabb közösség és annak alcsoportjai tekintetében. Marcel Salathé, a Pennsylvaniai Állami Egyetem biológusa és Shashank Khandelwal szoftvermérnök a Twitter-üzenetek elemzése során arra jutott, hogy az emberek hozzáállása a védőoltások hoz és annak valószínűsége, hogy ténylegesen meg is kapják az influenza elleni injekciót, egyezést mutat. Munkájuk során azokat a metaadatokat használták, amelyek megmutatták, hogy ki kivel állt kapcsolatban a Twitter-követők közül, és észrevették, hogy létezhetnek a beoltatlan em berek alcsoportjai.20 E kutatást az teszi rendkívül különlegessé, hogy míg más tanulmányok - például a Google Flu Trends - esetében összesített adatokat használtak az egyéni egészségi állapot megítéléséhez, addig a Salathé és társa által elvégzett érzelemelemzés valójában az egészséggel kapcsolatos magatartásról adott előrejelzést. Ezek a korai kutatási eredmények jelzik, hogy milyen irányba halad majd az adatosítás. A Google-hoz hasonlóan több más közösségimédiahálózat is - például a Facebook, a Twitter, a Linkedln és a Foursquare - az adatosított információk hatalmas kincsesládáján üldögél, és ha egyszer elemezni kezdik az információikat, megvilágítják majd a társadalmi dina mika minden szintjét, az egyéntől kezdve a társadalom egészéig.
Adatosítsunk mindent! Egy kis képzelőerővel rengeteg dolgot lehet adat formájában megjeleníte ni - el sem hinnénk, mennyi mindent. Koshimizu professzor emberi hát sókkal kapcsolatos munkásságának szellemében az IBM 2012-ben ezzel a tárgymegjelöléssel nyújtott be szabadalmi kérelmet az Egyesült Álla mokban: „Helyiségek biztonságossá tétele felületalapú számítógépes tech nológia használatával".21 Ez a szellemi tulajdonnal foglalkozó jogászok
10 8
BIG DATA
jellegzetes zsargonjában megfogalmazott megnevezés egy érintésérzékelő padlóburkolatot takar, ami olyan, mint egy gigászi méretű okostelefon képernyője. Rengeteg felhasználási területe lehet. Képes arra, hogy azono sítsa a rajta lévő tárgyakat. Alapesetben fel tudja kapcsolni egy helyiség világítását, ha valaki belép, vagy ki tudja nyitni az ajtót. Ennél is fontosabb azonban, hogy személyeket is képes azonosítani a súlyuk vagy a járásuk alapján. Jelezni tudja, ha valaki elesett, és nem kelt fel, ami fontos funkció lehet az idősek szempontjából. A kiskereskedők ismereteket szerezhetnek az üzletükön áthaladó forgalomról. A padló adatosításával a felhasználási lehetőségek végtelen sora tárul fel. A lehető legnagyobb mértékű adatosítás már nem is olyan távoli dolog, mint hisszük. Ott van például a „digitális önismeret" (quantified self) mozgalom, amely fitneszőrülteket, egészségmániásokat és kütyürajongókat tömörít, akik a legújabb technológiai eszközök és alkalmazások segítségével testük minden porcikáját és életük minden területét mérics kélik a jobb életminőség reményében - vagy legalábbis azért, hogy olyan új dolgokat ismerjenek meg, amelyeket korábban nem tanulmányozhat tak ennyire alaposan. Az „önmegfigyelők" egyelőre nincsenek sokan, de számuk egyre nő.22 Az okostelefonoknak és az olcsó számítógépes technológiának köszön hetően az élet legfontosabb tevékenységeinek adatosítása még soha nem volt olyan egyszerű, mint manapság. Számos startup vállalkozás teszi már lehetővé, hogy agyhullámaink éjszakai mérése révén megismerhessük alvásmintánkat. A Zeo cég már létre is hozta az alvástevékenységek leg nagyobb adatbázisát a világon, és feltárta a férfiak és a nők alvásának REMfázisbeli különbségeit. Az Asthmapolis pedig olyan érzékelőt erősített az asztma kezelésére szolgáló inhalálókészülékekre, amely GPS-en keresztül követi nyomon a páciens tartózkodási helyét; az adatok összesítésével a cég megismerheti az asztmás rohamokat kiváltó környezeti okokat, például bizonyos növények közelségét. A Fitbit és a Jawbone cég mérhetővé tette fizikai aktivitásunkat és alvá sunkat. Egy másik vállalat, a Basis csuklópántjának viselői pedig figye lemmel tudják kísérni alapvető életfunkcióikat, egyebek közt a szívritmu sukat és a bőrük vezetőképességét, amelyek a stressz mértékét jelzik. Az adatokhoz egyre könnyebben lehet hozzájutni, és egyre kevésbé tolakodóan. 2009-ben az Apple egy olyan módszert szabadalmaztatott, amellyel
A D A T OS Í TÁS
109
fülhallgatón keresztül lehet adatokat gyűjteni a vér oxigénellátásáról, a szívritmusról és a testhőmérsékletről.23 Az adatosítással rengeteget tanulhatunk az emberi test működéséről. A norvégiai Gjovik University College kutatói és a Derawi Biometrics munkatársai kifejlesztettek egy olyan okostelefon-alkalmazást, amely a járás közbeni egyéni testtartást elemzi, és ezt az információt biztonsági kódként használja a telefonzárolás feloldásához.24 Mindeközben a Geor giái Műszaki Egyetem Kutatóintézetének (Georgia Tech Research Institute) két professzora, Róbert Delano és Brian Parisé egy másik okostelefon-alkalmazás, az iTrem fejlesztésén dolgozik, amely a telefonok beépített gyorsulásmérőjét felhasználva a Parkinson-kórral és más neurológiai rend ellenességekkel kapcsolatos testremegést figyeli.25 Az alkalmazás igazi áldás lesz mind az orvosoknak, mind a betegeknek. Lehetővé teszi, hogy a páciensek mellőzzék a költséges rendelői vizsgálatokat; az egészségügyi szakemberek pedig a távolból figyelhetik pácienseik állapotát, és azt, hogy miként reagálnak a kezelésekre. Kiotói kutatók szerint az okostelefo nok csak egy árnyalatnyival kevésbé hatékonyak, mint a speciális orvosi berendezésekben használt háromtengelyű gyorsulásmérők, tehát megbíz hatóan használhatók.26 Ismét azt látjuk tehát, hogy egy kis kuszasággal többre megyünk, mint a precizitással. Az ilyen esetek többségében a megszerzett információk adattá alakí tása lehetővé teszi az újrafelhasználásukat. Ez szinte mindenhol és majd hogynem mindennel kapcsolatban lehetséges. A GreenGoose, ez a San Franciscó-i startup olyan apró mozgásérzékelőt árusít, amelyet tárgyakra rögzítve nyomon követhetővé válik, hogy mennyit használják őket. Egy doboz fogselyemre, egy öntözőkannára vagy a macskaalom dobozára erő sítve adatosíthatóvá teszi a szájhigiéniát, a növénygondozást és az állat tartást. Az „internetesítésser - vagyis a chipek, érzékelők és kommuniká ciós modulok mindennapi tárgyainkba építésével - kapcsolatos lelkesedés legalább annyira szól környezetünk adatosításának, mint a kapcsolattartás és-építés lehetőségének. A világ adatosítását követően az információk felhasználási lehetőségeit szinte csak a saját leleményességünk korlátozhatja. Maurynak a korábbi hajóutak információit még szorgos hangyaként, manuális munkával kel lett adatosítania, hogy rendkívül értékes tudás birtokába juthasson. Ma már olyan módszerek (statisztika és algoritmusok) és eszközök (digitális
110
BIG DATA
processzorok és tárolók) vannak a birtokunkban, hogy a hasonló felada tokat gyorsabban, nagyobb léptékben és a legkülönfélébb szempontokat vizsgálva hajthatjuk végre. A big data korában még az emberi hátsó is szolgáltathat kincset érő információkat. Egy nagyszerű infrastrukturális projekt közepén tartunk, amely sok vonatkozásban felveszi a versenyt a történelem nagy vállalkozásaival, a rómaiak vízvezetékeinek vagy a felvilágosodás Enciklopédiajának meg alkotásával. Ezt azonban elmulasztjuk értékelni, mert napjaink projektje még annyira új, mert még csak a közepén tartunk, és mert a vezetékek ben folyó vízzel ellentétben az eredménye nem valami kézzelfogható dolog. Ez a projekt nem más, mint az adatosítás, ami az infrastrukturális fejlődés többi példájához hasonlóan alapvető változásokat idéz majd elő a társadalomban. A vízvezetékek tették lehetővé a városok növekedését; nyomdagépek nélkül nem lett volna felvilágosodás, újságok nélkül pedig nem születhet tek volna meg a nemzetállamok.27 Ezek a fejlesztések azonban az áramlásról szóltak - a víz, a tudás áramlásáról. Ahogyan a telefon és az internet is. Ezzel szemben az adatosítás az emberi megértés gazdagodását mu tatja. A big data segítségével a világra többé már nem történések láncola taként fogunk tekinteni, amelyek magyarázatát különféle természeti és társadalmi jelenségekben találjuk, hanem alapvetően információkból álló univerzumként. A fizikusok már egy jó évszázada mondják, hogy nem az atomok jelen tik mindennek az alapját, hanem az információ.28 Ez talán kissé ezoteri kusán hangzik, ugyanakkor az adatosításon keresztül ma már sok eset ben valóban jóval átfogóbban tudjuk megragadni és mérlegelni a létezés fizikai és megfoghatatlan aspektusait, amelyek azután meghatározzák a tetteinket. Ha a világra információként, egyre mélyebben feltárható adatok óceánja ként tekintünk, az a valóságot olyan új megvilágításba helyezi, amely az élet minden területét áthatja. Mai, számításokon alapuló társadalmunk azt feltételezi, hogy a világot a számok és a matematika segítségével meg lehet érteni. Készpénznek vesszük, hogy a tudást időben és térben tovább lehet adni, mert mélyen belénk ivódott az írott szó fontossága. A jövő nemzedékei talán valamiféle „big data tudatossággal" rendelkeznek majd, annak a felismerésnek köszönhetően, hogy minden tettünknek
'
AD A T O S (TÁS
111
van egy mennyiségi összetevője, és hogy az adatok elengedhetetlenek a társadalom tudásának gyarapításához. A legtöbb embernek ma talán még újdonságot jelent az a gondolat, hogy a valóság megannyi dimenzióját ada tokká alakítjuk. Ám a jövőben ezt minden bizonnyal tényként kezeljük majd (és ezzel vissza is térünk az „adat" kifejezés eredeti értelméhez). Idővel az adatosítás hatása elhalványítja majd a vízvezetékekét és az újságokét, és talán a nyomtatással és az internettel is versenyre kelhet azáltal hogy a világ számszerűsíthető és elemezhető formában való feltérképezésének eszközévé válik. Egyelőre leginkább az üzleti világban terjedt el, ahol a big datát az értékteremtés új formájaként hasznosítják. Ez lesz a következő fejezet tárgya.
6
ÉRTÉK Az 1 9 9 0 - e s é v e k v é g e f e l é a világháló egyre nehezebben kezelhető, rideg és barátságtalan hellyé kezdett válni. Az email-postafiókokat és az on line fórumokat elárasztotta a robotprogramok által generált levélszemét. 2000-ben a 22 esztendős, friss diplomás Luis von Ahnnak támadt egy ötlete a probléma megoldására: a regisztrálókat arra kellene kényszeríte ni, hogy bizonyítsák ember mivoltukat. Ehhez valami olyasmit keresett, amit az emberek könnyűszerrel meg tudnak tenni, a gépek viszont annál nehezebben.1 Végül azzal az ötlettel állt elő, hogy a regisztrációs folyamat során kacskaringós, nehezen kiolvasható betűket kell megjeleníteni. Az em berek képesek néhány másodperc alatt kisilabizálni és begépelni a helyes szöveget, a számítógépek azonban felsülnek. Miután a Yahoo bevezette Ahn módszerét, egyik napról a másikra vissza tudta szorítani a kéretlen üzeneteket küldözgető robotprogramok működését. Von Ahn a művét Captchának nevezte el (Completely Automated Public Turing Test to Teli Computersand Humans Apart - teljesen automatizált nyilvános Turingteszt a számítógép és az ember megkülönböztetésére). Öt évvel később már Captchák millióit gépelték be naponta. A Captcha jelentős hírnevet hozott Von Ahnnak, aki PhD-je megszer zése után számítástechnikát kezdett oktatni a Carnegie Mellon Egyetemen. Egyebek közt a Captchának köszönhette, hogy 27 éves korában elnyerte a MacArthur Alapítvány „zseniknek" létrehozott, magas presztízsű, fél millió dollárral járó ösztöndíját. Amikor azonban ráébredt, hogy embe rek milliói miatta pazarolják az idejüket arra, hogy idétlen, kacskaringós
ÉRTÉK
113
betűket - lényegében fölösleges információmennyiséget - pötyögjenek be, már nem is érezte annyira okosnak magát. Olyan megoldást keresett tehát, amely révén az ember és a gép kénysze rűen igénybe vett kapacitását termékenyebb célra is fel lehet használni, és előállt az ötlet utódjával, a ReCaptcha projekttel. Véletlenszerűen generált betűk helyett most már szövegszkennelési projektekből származó szavakat kell begépelni, melyekkel a számítógép optikai karakterfelismerő prog ramja nem boldogul, méghozzá kettőt. Az egyik szó annak a megerősítése, amit más felhasználók gépeltek be, ami azt jelzi, hogy az illető ember, a másik pedig egy olyan új szó, melyet egyértelművé kell tenni. A pontosság érdekében a rendszer ugyanazt az elmosódott szót átlagosan öt különböző felhasználónak is megjeleníti, hogy gépeljék be helyesen, mielőtt helyes nek fogadja el. Az adatok elsődleges célja a felhasználó ember mivoltának igazolása, de másodlagos rendeltetésük is van, mégpedig az, hogy a digitá lis szövegekben előforduló, nem egyértelmű szavakat megfejtsék.2 Mindez hatalmas értéket hoz létre, hiszen gondoljunk csak bele, meny nyibe kerülne e módszer helyett alkalmazottakat foglalkoztatni. Alkal manként 10 másodperccel számolva naponta 200 millió ReCaptcha - ez a jelenlegi ütem - napi félmillió órát tesz ki. Az Amerikai Egyesült Államok ban 2012-ben a minimális órabér 7,25 dollár. Ha piaci áron szeretnénk egyértelművé tenni azokat a szavakat, melyek értelmezésére a számító gép képtelen volt, az napi 4 millió dollárba kerülne, vagyis évi egymilliárd dollárnál is többe. Ezzel szemben Von Ahn egy olyan rendszert tervezett, amely mindezt gyakorlatilag ingyen megoldja. A Google annyira értékes nek találta a gondolatot, hogy 2009-ben megvásárolta Von Ahntól a tech nológiát, melyet azóta bármely weboldalnak ingyenesen a rendelkezésére bocsát; mára mintegy 200 ezer oldalba építették be, egyebek közt a Facebookba, a Twitterbe és a Craigslistbe. A ReCaptcha története kiemeli, mekkora jelentőségű az adatok ismé telt felhasználása: a big data révén megváltozik az értékük. A digitális korszakban az adatok elvesztették tranzakciókat támogató szerepüket, és gyakran maguk váltak árucikké. A big data világában ez megint megvál tozik. Az adatok értéke az elsődleges felhasználási területről a potenciális jövőbeli felhasználás irányába tolódik, aminek mélyreható következmé nyei vannak. Megváltoztatja azt, hogyan értékélik a vállalatok a birtokuk ban lévő adatokat, és azt is, hogy kiknek engedélyezik a hozzáférést ada
114
BIG D AT A
taikhoz. Lehetővé teszi, illetve ki is kényszerítheti, hogy a vállalatok új üzleti modelleket hozzanak létre. Megváltoztatja a szervezetek adatok kal kapcsolatos gondolkodását, illetve az adatok hasznosításának módját. Az információk mindig is elengedhetetlenek voltak a kereskedelmi tranzakciókhoz. Az adatok teszik lehetővé például az árfeltárást, amely jelzi, hogy mennyit kell termelni - ezt a dimenziójukat jól értjük. Bizonyos fajta információkkal régóta kereskednek. A könyvekben, újságcikkekben, zenékben és filmekben fellelhető médiatartalom jó példa erre, csakúgy, mint a részvényárakhoz hasonló pénzügyi információk. Az elmúlt néhány évtizedben ezekhez a személyes adatok is társultak. Az Egyesült Államok erre szakosodott adatkereskedői - mint például az Acxiom, Experian and Equifax - csinos összegeket számítanak fel az emberek százmillióinak személyes információit tartalmazó dossziékért. A Facebook, a Twitter, a Linkedln és más közösségi oldalak használatával személyes kapcsolataink, nézeteink és mindennapi szokásaink is bővítik a velünk kapcsolatos, már meglévő információk halmazát. Bár az adatoknak régóta megvan az értékük, eddig vagy úgy tekintet tek rájuk, mint olyan dolgokra, amelyek hozzátartoznak egy vállalkozás alaptevékenységéhez, vagy pedig úgy, mint amelyek olyan szűkebb kate góriákra korlátozódnak, mint a szellemi tulajdon vagy a személyes adatok. Ezzel szemben a big data korában az összes adat önmagában is értékes lesz. Amikor az összes adatról beszélünk, abba még a legnyersebb, a leghét köznapibbnak tűnő információkat is beleértjük. Ilyenek lehetnek egy gyári gép hőérzékelőinek leolvasásai, a GPS-koordináták valós idejű ada tai, a gyorsulásmérők által közölt adatok, esetleg egy szállítójármű - vagy egy 60 ezer járműből álló flotta - üzemanyag-fogyasztása. Vagy gondol junk a régi keresési lekérdezések milliárdjaira, esetleg az Egyesült Álla mok minden kereskedelmi légi járatának szinte összes jegyárára, évekre visszamenőleg! Egészen a közelmúltig az ilyen adatokat nem lehetett egyszerűen be gyűjteni, tárolni és elemezni, így hát a bennük rejlő potenciális értékek kiaknázása is nehéz volt. Adam Smith rengeteget idézett, gombostű készítőkről szóló példájában3- amelyben a 18. századi munkamegosztást vette górcső alá - szükség lett volna megfigyelőkre, akik nemcsak egy tanulmány kedvéért, hanem mindennap, a teljes munkaidő alatt figyel ték volna a munkásokat, miközben részletes méréseket végeznek, és fel
ÉRTÉK
115
jegyzik a teljesítményüket, madártollból készített pennával vastag papírra jegyzetelve. Amikor a klasszikus közgazdászok a termelési tényezőket (föld, munka és tőke) tanulmányozták, alapvetően nem volt igény az ada tok hasznosítására. Bár az adatok összegyűjtésének és felhasználásának költsége az elmúlt két évszázad folyamán fokozatosan csökkent, egészen a legutóbbi időkig viszonylag drága maradt. Ma más a helyzet: az adatgyűjtés korábbi korlátainak többsége már nem létezik. A technológia eljutott arra a szintre, hogy viszonylag olcsón le het hatalmas mennyiségű információt megszerezni és rögzíteni. Az adat gyűjtés gyakran passzív, különösebb erőfeszítést sem igényel, sőt akár teljesen észrevétlenül is meg lehet tenni. Emellett az adattárolás költsé gei annyira lecsökkentek, hogy könnyebb megtartani az adatokat, mint megszabadulni tőlük. Emiatt sokkal több adathoz lehet hozzáférni, min den eddiginél olcsóbban. Az elmúlt fél évszázad során a digitális tárolás költségei nagyjából minden második évben megfeleződtek, miközben a tárolt adatmennyiség 50 milliószorosára emelkedett.4A Farecasthoz vagy a Google-hoz hasonló információs vállalatok fényében - amelyeknél a nyers tények felkerülnek egy digitális futószalag egyik végére, majd a sza lag másik végén feldolgozott információként jönnek le róla - az adatok egyre inkább új erőforrásnak vagy termelési tényezőnek tűnnek. Az adatgyűjtők számára a legtöbb adat azonnali értéke nyilvánvaló, hiszen meghatározott céllal fognak bele az adatgyűjtésbe. Az üzletek ér tékesítési adataikat a megfelelő könyvelés érdekében gyűjtik. A gyárak azért ellenőrzik folyamatosan a termelést, hogy megfeleljen a minőségi szabványoknak. Az internetes honlapok azért naplózzák a felhasználóik minden klikkelését - néha még azt is, hogy az egér kurzora merre mo zog -, hogy elemezzék és optimalizálják oldalaik tartalmát. Az adatoknak ez az elsődleges felhasználási módja igazolja, miért kellett összegyűjteni és feldolgozni őket. Az Amazon nemcsak azokat a könyveket jegyzi meg, amelyeket vásárlói megvesznek, hanem azokat a honlapokat is, amelyeket csak megnéznek, hogy az adatokat később személyre szabott ajánlatokhoz használja fel. Ehhez hasonlóan a Facebook is nyomon követi felhasználói állapotfrissítéseit és lájkjait, s így határozza meg, milyen - várhatóan jöve delmező - hirdetéseket tesz fel honlapjára. Az anyagi javakkal ellentétben az adatok nem használódnak el. Nem olyanok, mint az étel, amit megeszünk, vagy a gyertya, amit elégetünk;
116
BIG DATA
újra meg újra fel lehet őket dolgozni. Az információt a közgazdászok „nem rivalizáló" javaknak tekintik: ha valaki felhasznál egy információt, az nem akadályoz meg másokat abban, hogy ők is felhasználják. Az infor máció nem megy tönkre a használattól. Az Amazon például a múltbéli tranzakciók adatait használja fel, amikor ajánlásokat tesz vásárlóinak - az tán pedig újra felhasználja, nem csupán arra a vásárlóra vonatkoztatva, akivel kapcsolatban az adat keletkezett, hanem más vásárlóknál is. Az adatok többszöri felhasználásánál talán még fontosabb, hogy több célú alkalmazásuknak sincs akadálya. Ez egy fontos szempont, amikor azt próbáljuk megérteni, mekkora értéket képvisel majd az információ a big data korszakban. E lehetőséget aknázta ki a Walmart, amikor a régi eladási bizonylatok adatbázisában felfigyelt a hurrikánok közeledése és a Pop-Tarts eladása közötti összefüggésre. Mindez azt mutatja, hogy az adatok teljes értéke jóval nagyobb, mint amit elsődlegesen felhasználunk belőlük. Ez azt is jelenti, hogy ha a vál lalatok első vagy akár többszöri alkalommal viszonylag kevés értékhez jutnak is, képesek a hatékony kiaknázásukra, amennyiben elég sokszor próbálkoznak.
Az adatok „opciós értéke" Hogy érzékeljük, mit jelent az adatok végső értéke szempontjából az újbóli felhasználásuk, nézzük meg például az elektromos autókat! Az, hogy az elektromos autók elterjednek-e a közlekedésben, egy sereg olyan logisztikai feltételtől függ, melyeknek mind közük van az akkumuláto rok élettartamához. Lehetővé kell tenni a telepek gyors és kényelmes feltöltését, az áramszolgáltatóknak pedig gondoskodniuk kell arról, hogy az ilyen autók áramfelvétele ne okozzon zavart a villamosenergia-ellátásban. Benzinkúthálózatunk ma már elég jó, azt azonban nem tudhatjuk, hogy a jövőben ugyanilyen jó lesz-e az elektromos töltőállomások háló zata is. Meglepő, de ez nem annyira infrastrukturális, mint inkább információs problémát jelent. A big data pedig fontos szerepet játszik a megoldásban. Egy 2012-es vizsgálatban az IBM a kaliforniai Pacific Gas and Electric
ÉRTÉK
117
Company gáz- és áramszolgáltatóval, valamint a Honda autógyártóval együttműködve hatalmas mennyiségű információt gyűjtött össze olyan alapvető kérdésekkel kapcsolatban, mint például az, hogy az elektromos autók áramfelvétele mikor és hol fog történni, és ez mit jelent majd az áramellátás szempontjából. Az IBM kifejlesztett egy részletes előrejelzési modellt, amely több tényezőn alapult: az autó akkumulátorának töltöttségi szintjén, az autó helyén, a napszakon és a közelben található fel töltőállomások csatlakozási pontjainak számán. Az így kapott adatokat összevetették a jelenlegi és a múltbéli áramfogyasztással. Az óriási adat halmaz elemzése lehetővé tette az IBM-nek, hogy meghatározza a kocsik feltöltésének optimális helyét és idejét. A tanulmány arra is kitért, hol kell feltöltőállomásokat építeni. Úgy vélték, számításba kell majd venni a kö zelben található állomások árai közötti különbségeket, sőt még a meteo rológiai előrejelzéseket is figyelni kell: ha süt a nap, a közelben található napenergiával működő töltőállomás bővelkedik majd áramban, de ha egy hétig esik, a napelemeket nem tudják használni. E rendszer más célból létrejött információkat hasznosít újra, vagy más képpen fogalmazva: az adatok elsődleges felhasználását másodlagos hasz nosításuk váltja fel. Idővel mindez az adatokat sokkal értékesebbé teszi. A kocsi töltöttségjelzője közli az autóssal, meddig bírja még az akku. Az elektromos hálózat felhasználási adatait a szolgáltató gyűjti, hogy gondos kodhasson a stabil működésről. Ezek lesznek az adatok elsődleges fel használási területei. Mindkét adatkészletnek meglesz a maga másodlagos hasznosítása - és új értéke - is, amikor teljesen más célból használják fel: arra, hogy meghatározzák, mikor és hol lesz szükség feltöltésre, és hogy hol épüljenek fel az elektromos járműveket kiszolgáló állomások. Ezenfelül olyan kiegészítő információkat is betáplálnak a rendszerbe, mint az autók helye és a múltbéli hálózati áramfogyasztás. Az IBM pedig újra és újra feldolgozza az adatokat, folyamatosan frissítve az autók energiafogyasz tására és annak elektromos hálózatra gyakorolt hatására vonatkozó in formációkat.5 Az adatok igazi értéke olyan, mint a tengerben úszó jéghegy, amelyből csak egy kicsi rész látszik, a nagyobb a felszín alatt rejtőzik. Azok az in novatív vállalatok, amelyek ezt megértik, képesek hasznosítani e rejtett értéket, és hatalmas haszonra tehetnek szert. Vagyis az adatok értékét nem csak a pillanatnyi helyzet határozza meg; azt is figyelembe kell venni,
118
BIG D A T A
hogy a jövőben milyen további módon lehet még felhasználni őket. Erre már eddig is sok példát láttunk. A Farecast a múltban eladott repülőjegyek árai alapján jelezte a jövőbeli ármozgásokat. A Google a keresett kifeje zéseket hasznosította újra, hogy feltárja az influenza terjedésének útját. Maury a régi hajónaplók bejegyzései alapján tárta fel a tengeri áramlatok jellemzőit. Mindezek ellenére az adatok újrafelhasználásának jelentőségét még sem az üzleti világ, sem a társadalom nem ismerte fel teljesen. A Con Edisonnál kevés vezető tudta volna elképzelni, hogy az évszázados kábeladatok és a karbantartási naplók alapján megelőzhetnék a baleseteket. A statiszti kusok új nemzedékének, valamint új módszereknek és eszközöknek kel lett megszületniük ahhoz, hogy feltáruljanak az adatokban rejlő értékek. Egészen mostanáig sok internetes és technológiai cég sem volt tisztában vele, mennyire fontos az adatok újrahasznosítása. Talán segíthet, ha úgy tekintünk az adatokra, mint a fizikusok az ener giára. Ők a tárgyakban meglévő, de szunnyadó energiára a „tárolt" vagy „potenciális" jelzőt használják. Gondoljunk egy összenyomott rugóra vagy egy hegytetőn tartott labdára! Az e tárgyakban lakozó energia látens - potenciális -, egészen addig, amíg szabadjára nem engedjük. Ha a rugót és a labdát elengedjük, a tárgyak szunnyadó energiája mozgási energiává válik. Elsődleges felhasználásuk után az adatok értéke megmarad, csak szunnyad, ugyanúgy, mint a rugó vagy a labda energiája, egészen ad dig, míg sor nem kerül másodlagos felhasználásukra, amikor a bennük rejlő erő felszabadul. A big data korában végre olyan gondolkodásmóddal, találékonysággal és eszköztárral rendelkezünk, amelyek révén hasznosít hatjuk az adatokban rejlő értékeket. Végső soron az adatok annyit érnek, amennyit felhasználásuk összes lehetséges módozata révén kinyerhetünk belőlük. Ezek a végtelennek tűnő felhasználási lehetőségek olyanok, mint az opciók - nem pénzügyi ér telemben, hanem a szó hétköznapi, választást jelentő értelmében. Az ada tok értékét e lehetőségek összessége adja, ez az „opciós értékük". A múlt ban, miután az adatokat felhasználtuk az előre kijelölt célra, gyakran úgy véltük, hogy elvégezték feladatukat, és hagytuk, hogy végleg elússzanak. Végül is, úgy tűnt, nem kár értük, már kiaknáztuk a bennük rejlő értéket. A big data korszakban az adatok olyanok, mint egy kimeríthetetlen kincsesbánya: mindig találhatunk még valamit. Az adatok opciós értékének ki
ÉRTÉK
119
használására három hathatós módszer létezik: az egyszerű újrahasznosí tás, az adatkészletek összevonása, valamint az „akciós" lehetőségek.
Az adatok újrahasznos ítása
Az adatok innovatív újrahasznosításának klasszikus példái a keresési kifejezések. Első pillantásra ez az információ értéktelenné válik, amint betöltötte elsődleges szerepét. A fogyasztó és a keresőmotor közötti röpke kapcsolat internetes weboldalak és hirdetések listáját hozza létre, elvégez ve alapvető feladatát. A régi lekérdezések azonban később is rendkívül értékesek lehetnek. Egyes cégek - mint az Experian adatkereskedő tulaj donában lévő Hitwise, amely az internetes forgalom mérésével foglalko zik - lehetővé teszik ügyfeleiknek, hogy a keresések forgalmi adataiban kutakodva megismerhessék a fogyasztók preferenciáit. A marketingszak emberek a Hitwise alapján tájékozódhatnak például arról, hogy idén tavasszal a rózsaszín lesz-e a divat, vagy visszatér a fekete. A Google min denki számára elérhetővé teszi keresőkifejezési analitikájának egyik ver zióját. Spanyolország második legnagyobb bankjával, a BBVA-val közösen piacra dobtak egy szolgáltatást, amely üzleti előrejelzéseket nyújt a turisz tikai ágazat számára. A Bank of England az ingatlanokkal kapcsolatban használja a kereséseket, hogy jobban érzékelhesse a lakásárak emelkedését vagy csökkenését. Azok a vállalatok, amelyek nem ismerték fel az adatok újrahasznosí tásának jelentőségét, kemény tanulópénzt fizettek. Az Amazon például a kezdet kezdetén szerződést kötött az AOL-lal, hogy elektronikus kereske delmi oldalán keresztül működtesse az Amazon webáruházát. A legtöbb ember számára ez egyszerű kiszervezési megállapodásnak tűnhetett. Ám az Amazonnak valójában az volt az érdekes ebben az üzletben, magya rázza Andreas Weigend, az Amazon korábbi tudományos főmunkatársa, hogy így adatokat szerezhetett arról, hogy az AOL-felhasználók miket néztek és vásároltak meg. Ezáltal javítani tudta saját ajánlóprogramjának teljesítményét.6 Szegény AOL minderre soha nem jött rá. Az adatokban csak elsődleges célja, az értékesítés növelése szempontjából látott értéket. Az Amazon elég okos volt ahhoz, hogy tudja: az adatok másodlagos hasz nosításából rengeteg előnye származik.
120
BIG DATA
Most pedig vegyük szemügyre azt az esetet, amikor a Google belépett a beszédfelismerés területére, a 2007-2010 között működő GOOG-411 helyi telefonos szolgáltatói tudakozó segítségével! A keresőóriásnak nem volt saját beszédfelismerési technológiája, ezért a használatára engedélyt kellett szereznie. Végül a terület vezető cégével, a Nuance-szal kötött megállapodást, amely nagyon örült, hogy ilyen nagyra becsült ügyfelet szerezhetett. A Nuance-nak azonban akkortájt még fogalma sem volt róla, mi fán terem a big data: a szerződés nem rendelkezett arról, melyik fél őrizze meg a hangfelismerési adatokat, a Google pedig megtartotta őket magának. Az adatokból ki lehet deríteni, hogy egy adott digitalizált hangtöredék melyik szónak felel meg. Ez igen fontos a beszédfelismerési rendszerek továbbfejlesztése vagy akár egy új szolgáltatás létrehozása szempontjából. Akkoriban a Nuance a szoftverlicencelési, nem pedig az adatfeldolgozási ágazatban működő vállalatnak tekintette önmagát. Amint ráébredt tévedésére, azonnal elkezdett megállapodásokat kötni a mobilszolgáltatókkal és a készülékgyártókkal beszédfelismerő szolgáltatásának használatáról - hogy közben adatokat gyűjthessen.7 Az adatok újrahasznosításában rejlő érték jó hír azoknak a szerveze teknek, amelyek nagy adatállományokkal rendelkeznek, de még nem igen hasznosítják őket - ilyenek például a hagyományos, többnyire offline-vállalatok. Lehet, hogy egy kihasználatlan információs gejzír tetején üldögélnek. Néhány vállalat foglalkozott már adatgyűjtéssel, az adato kat egyszer már fel is használta, s mivel ma már a tárolásuk nem kgrül sokba, azóta is őrizgeti őket valahol - a szakemberek az ilyen régi adatok tárolóhelyét adattemetőnek nevezik. Az internetes és a technológiai vállalatok élen járnak az adatáradat hasznosításában, hiszen puszta működésük révén temérdek adatot képesek gyűjteni, emellett az adatok elemzésében is előrébb tartanak a többi vál lalatnál. Most azonban minden cég csak nyerhet. A McKinsey & Company tanácsadó cég - név nélkül - megemlített egy logisztikai vállalatot, amely észrevette, hogy áruszállítás közben rengeteg adatot gyűjtött be a világ minden tájáról. Megszimatolva a lehetőséget, egy külön részleget hozott létre az összesített adatok értékesítésére, üzleti és gazdasági előrejelzések formájában. Magyarán, megalkotta a Google múltbéli keresési lekérdezé seken alapuló üzletének offline változatát.8Vagy vegyük az elektronikus bankközi átutalások globális rendszerét, a SWIFT-et. Felfedezték, hogy
ÉRTÉK
121
a fizetések korrelálnak a világgazdasági aktivitással. A SWIFT ma már a hálózatán átmenő pénzeszköz-átutalások adatain alapuló GDP-előrejelzések értékesítésével is foglalkozik. Vannak vállalatok, amelyek az információs értékláncban elfoglalt sze repüknek köszönhetően hatalmas adatmennyiség begyűjtésére lenné nek képesek, de nem igazán érzik szükségét, vagy pedig nem értenek az újrahasznosításukhoz. A mobilszolgáltatók például információkkal ren delkeznek előfizetőik tartózkodási helyéről, hiszen ez alapján irányítják a hívásokat. Számukra csupán műszaki szempontból van jelentőségük ezek nek az adatoknak. Jóval értékesebbekké válnak azonban, amikor olyan vállalatok hasznosítják újra őket, amelyek személyre szabott, helyalapú reklámokat és promóciókat terjesztenek. Időnként nem az egyéni adatok jelentenek értéket, hanem az összesítésük. Ezért tudnak az előző fejezet ben említett, helymeghatározással foglalkozó cégek, amilyen az AirSage és a Sense Networks, olyan információkat értékesíteni, mint az, hogy hol jönnek össze az emberek péntek este, vagy mennyire lassan vánszorognak az autók a forgalomban. Ezt az adattömeget aztán ingatlanok értékének vagy óriásplakátok árszabásának meghatározására is fel lehet használni. Még a legbanálisabb információnak is lehet különleges értéke, ha helye sen alkalmazzák. Vegyük szemügyre még egyszer a mobilszolgáltatókat, amelyek rögzítik, hol és mikor kapcsolódnak a telefonok a bázisállomá sokhoz, és milyen jelerősséggel. A szolgáltatók ezeket az információkat régóta használják már arra, hogy finomítsanak hálózataik teljesítményén, és eldöntsék, mely területeken kell bővíteni vagy fejleszteni infrastruk túrájukat. Az adatokat azonban más módon is lehetne hasznosítani. A mobilgyártók például megtudhatnák, mely tényezők befolyásolják a jelerősséget, és ennek segítségével javíthatnának készülékeik vételi minő ségén. A mobilszolgáltatók egyelőre vonakodnak pénzzé tenni az említett információkat, mert attól tartanak, hogy megsértik a személyiségi jogokra vonatkozó törvényeket. Pénzügyi nehézségeik növekedésével azonban egyre inkább enyhítenek szigorukon, és adatállományukra potenciális jövedelemforrásként tekintenek. 2012-ben a spanyol Telefonica mobilszolgáltató odáig jutott, hogy Telefonica Digital Insights néven külön vál lalatot hozott létre előfizetői tartózkodási helyére vonatkozó anonim és összesített adatainak értékesítésére.9
122
BIG DATA
Újrakombinált adatok
Az adatokban rejlő értéket időnként csak úgy lehet felfedezni, ha az adott adatállományt egy másik, olykor nagyon eltérő adatkészlettel kombináljuk. Az összesítéssel új felfedezésekre juthatunk. Egy 2011-ben publikált okos kis tanulmány arról szól, vajon a mobiltelefonok használata növeli-e a rák valószínűségét. Remek példa arra, hogyan is működik a vegyítés. Tekintet tel a világon működő mintegy 6 milliárd mobiltelefonra - a Föld majdnem minden lakosára jut egy készülék -, a kérdés alapvető fontosságú. Sok tanul mány keresett már kapcsolatot a rák és a mobiltelefon-használat között, de az eredményes munkát különböző hiányosságok hátráltatták. Vagy a minta volt túl kicsi, vagy a vizsgált időszakok voltak túl rövidek, vagy saját bevalláson alapultak, és hemzsegtek a hibáktól. A rákkutatással foglalkozó Danish Cancer Society tudóscsoportja azonban érdekes megközelítést alkal mazott, amely korábban begyűjtött adatokon alapult. A szolgáltatóktól beszerezték valamennyi előfizető adatait, attól kezdve, hogy Dániában bevezették a mobiltelefont. A tanulmány azokra terjedt ki, akik 1987 és 1995 között mobillal rendelkeztek, leszámítva a vállalati előfizetőket és azokat, akiknek a társadalmi-gazdasági adataik nem álltak rendelkezésre. Ez összesen 358 403 embert jelentett. A dán rákbetegekről vezetett országos nyilvántartás szerint az 1990 és 2007 közötti követési időszakban 10 729 embernek volt központi idegrendszeri daganata. A tanul mány egy olyan országos nyilvántartást is felhasznált, amely valamennyi dániai lakos legmagasabb iskolai végzettségét és jövedelmét mutatta. Mi után összekapcsolták a három adatállományt, a kutatók azt vizsgálták, va jon a mobilhasználók között magasabb arányban fordult-e elő rákbetegség, mint azok körében, akiknek nem volt előfizetésük, illetve nagyobb eséllyel lettek-e rákosak azok, akiknek régebben volt előfizetésük. A tanulmány nagyságrendje ellenére az adatok egyáltalán nem voltak kuszák vagy pontatlanok: az adatállományok megfeleltek az orvosi, keres kedelmi vagy demográfiai célú felhasználáshoz szükséges igényes minő ségi előírásoknak. Az információgyűjtés módjának eredményeképpen az elemzés nem járt a témához kapcsolódó torzításokkal. Az adatok évekkel korábban születtek, és olyan okokból, amelyeknek semmi közük nem volt ehhez a kutatáshoz. A legnagyobb jelentősége annak volt, hogy a tanul mány nem mintavétel, hanem szinte a teljes sokaság alapján készült: majd
ÉRTÉK
123
nem valamennyi rákfajta előfordulására kiterjedt, és csaknem az összes mobilfelhasználót figyelembe vette, ami összesen 3,8 millió mobiltelefon birtoklási évet tett ki. Mivel az adatállomány szinte minden esetet tartalma zott, a kutatók vizsgálni tudták a népesség nagyobb csoportjait is, például a magas jövedelműeket. Végül a kutatócsoport nem talált összefüggést a mobilhasználat és a rák betegség előfordulása között. Megállapításaikat 2011 októberében publi kálták a British Medical Journal orvosi szaklapban, aminek alig volt vissz hangja a médiában.10 Bezzeg, ha a tanulmány összefüggést tárt volna fel a kettő között, világszerte a címlapokra került volna, és mindenki az „újra kombinált adatok" módszertanát ünnepelné. A big data estében az összeg értékesebb a részeknél, és az összetett adatállományok újrakombinálása is többet ér az egyes összetevőknél. Napjaink ban az internethasználók már ismerik az olyan alapvető tartalom- vagy adategyesítéseket, amelyek új módon kombinálnak két vagy több adat forrást. Az ingatlanokat értékesítő Zillow weboldala például egy térképre helyezi az Egyesült Államok lakókörnyékeinek ingatlanadatait és árait. Rengeteg adatot fel is dolgoz, például a közelmúltban történt környékbeli tranzakciókat, valamint az ingatlanspecifikációkat, hogy előrejelzést ad jon a környékre jellemző otthonok értékéről. A vizuális megjelenítés révén könnyebben hozzáférhetők az adatok. A big datában rejlő lehetőségek azonban messze túlmutatnak ezen. A dániai, rákbetegekkel kapcsolatos tanulmány rávezet minket arra, mik is ezek a lehetőségek.
Bővíthető adatok
Az adatállomány újrahasznosításához a kezdetektől számolnunk kell a bő víthetőséggel, hogy alkalmassá váljon a többszörös felhasználásra. Bár ez nem mindig lehetséges - hiszen talán csak jóval az adatgyűjtés után vesszük észre a lehetőséget -, bizonyos módszerek elősegíthetik. Egyes kis kereskedők például úgy helyezik el a biztonsági kamerákat, hogy ne csak az áruházi tolvajokat tudják kiszúrni, hanem azt is nyomon követhessék, hogyan mozognak a vevők az áruházban, és hol állnak meg nézelődni. A kiskereskedők ez utóbbi információt arra használhatják, hogy a lehető legpraktikusabban tudják kialakítani az üzletet, illetve meg tudják ítélni
124
BIG DATA
marketingkampányaik hatékonyságát. Korábban csak biztonsági okokból szereltek fel videokamerákat. Ma már erre olyan beruházásként tekinte nek, amely növelheti a bevételeket. A bővíthetőségre is tekintettel lévő adatgyűjtésre az egyik legjobb pél da —nem meglepő módon —a Google. Sok vitát kiváltó Street View-autói cirkálás közben fényképeket készítenek a házakról és az utakról, de behab zsolják a GPS-adatokat, ellenőrzik a térképinformációkat, emellett még a wifihálózatok neveit is rögzítik (és illegálisan talán a nyílt vezeték nélküli hálózatokból kiáramló tartalmakat is). Egyetlen Google Street View-autó minden pillanatban temérdek különböző adatot gyűjt be. A bővítés úgy jön a képbe, hogy a Google nemcsak elsődleges célja érdekében használja fel ezeket az adatokat, hanem sok másodlagos dologra is. A begyűjtött GPS-adatokkal például javítja a cég térképszolgáltatását, és vezető nélküli autója működéséhez is nélkülözhetetlenek.11 A sokszoros adatfolyam vagy az adatfolyamok sokkal több adatpontjá nak begyűjtése nem jár túl sok pluszköltséggel. Van tehát értelme annak, hogy annyi adatot szedjünk össze, amennyit csak lehet, és tekintettel a po tenciális másodlagos felhasználásra, érdemes őket már a kezdetektől fogva bővíthetővé tenni. Ez növeli az adatok opciós értékét. A lényeg, hogy keres sünk „egyet fizet, kettőt kap" lehetőségeket, amikor egy adatkészletet több alkalommal is hasznosíthatunk.
Az adatok értékének am ortizálódása A digitális adatok tárolási költségeinek zuhanása miatt a vállalkozások erős gazdasági motivációt éreznek adataik megőrzésére, mert úgy gondolják, később majd újrahasznosíthatják őket, ugyanolyan vagy hasonló célból. A hasznosítás lehetősége azonban véges. Az olyan cégek például, mint a Netflix és az Amazon, amelyek renge teg adatot halmoznak fel annak kapcsán, hogy a vásárlóik költenek, bön gésznek és áttekintik az új ajánlásokat, arra is kísértést érezhetnek, hogy adataikat éveken keresztül, többször is felhasználják. Ezt szem előtt tartva akár azt is gondolhatnánk, hogy míg egy vállalat nem ütközik például személyiségi jogi korlátokba, digitális adatait örökké használnia kellene,
[érték
125
vagy legalábbis addig, amíg gazdaságilag lehetséges. A valóság azonban nem ilyen egyszerű. Az idő múlásával sok adat veszít a használhatóságából. Ha ennek elle nére továbbra is a régi adatokra támaszkodunk, nemcsak új értéket nem tudunk létrehozni, ám a frissebb adataink is használhatatlanná válnak. Gondoljunk például egy olyan könyvre, amelyet tíz évvel ezelőtt vásárol tunk az Amazontól, ám ma már nem érdekel minket! Ha az Amazon tíz éves vásárlási adatokat használna arra, hogy további könyveket ajánljon nekünk, alaposan mellélőne - még az sem biztos, hogy egyáltalán figye lembe vennénk az ajánlásait. A régi adatok jelenléte tehát csökkenti az újabbak értékét. A vállalat ezért csak addig használja az adatait, amíg hasznosak. Infor mációs kincsestárát folyamatosan takarítja, hogy megszabaduljon az érté küket vesztett adatoktól. Az igazi kihívás abban rejlik, hogy tudnia kell, mely információk váltak haszontalanná. Ha pusztán időalapon döntene, az ritkán vezetne jó eredményre. Ezért az Amazon és más vállalatok kifino mult modelleket hoztak létre, amelyek segítenek elkülöníteni a hasznos adatokat a lényegtelenektől. Ha például egy vásárló megnéz vagy megvesz egy olyan könyvet, amelyet egy korábbi vásárlása alapján ajánlottak neki, az internetes kereskedőcégek ebből arra következtetnek, hogy a régebbi vásárlása még mindig tükrözi a jelenlegi érdeklődését. Ezáltal képesek értékelni a régebbi adatok hasznosságát, és így modellezik az információk „amortizációs sebességét". Az adatok nem ugyanolyan ütemben és nem ugyanolyan módon veszí tenek értékükből. Ez megmagyarázza, miért hiszik egyes cégek, hogy mu száj őrizgetniük az adatokat, még akkor is, ha a szabályozó hatóság vagy a közvélemény egy idő után töröltetni vagy anonimizálni szeretné őket. A Google például régóta ellenáll a felhívásnak, hogy törölje felhasználói teljes IP-címét a régi keresésekből. Csupán az utolsó számjegyeket törli kilenc hónap után, hogy anonimmá tegye a lehívásokat. A vállalat így továbbra is össze tudja hasonlítani az éves adatokat, például a nyaralá sokkal kapcsolatos lekérdezéseket, bár csak regionálisan, egyéni szin ten már nem. A keresést végzők tartózkodási helye is befolyásolhatja a találatokat: ha például New Yorkban sokan keresnek rá Törökországra, és klikkéinek az országhoz kapcsolódó weboldálakra, akkor az algoritmus New Yorkban másoknak is gyakrabban mutat majd Törökországgal kap
126
BIG D AT A
csolatos oldalakat. Még ha az adatok értéke csökken is bizonyos szempon tokból, opciós értékük erős maradhat.
A digitális lábnyom értéke Az adatok újrahasznosítása néha leleményes, rejtett formában történik. Az internetes vállalatok bármiről képesek adatokat gyűjteni, amit a fel használóik csinálnak, és minden egyes interakciójukat hasznosítják az oldal személyre szabásához, a szolgáltatás javításához vagy egy teljesen új digitális termék létrehozásához. Ennek nagyon érdekes példáját láthatjuk két helyesírás-ellenőrző program történetében. Húszévnyi munkával a Microsoft komoly helyesírás-ellenőrzést fejlesz tett ki Word programjához, amely a helyesen leírt kifejezéseket tartalmazó, gyakran frissített szótárt összevetette a felhasználók által begépelt karak terekkel. A szótár ismert szavakból jött létre; a rendszer a szótárban nem szereplő, de valamely meglévő szóhoz hasonlító szavakat elütésekként kezelte, és javítást javasolt. A szótárnak nemcsak az összeállítása, hanem a frissítése is nagyon nehéz volt, ezért a Microsoft Word helyesírás-ellen őrzése csak a legelterjedtebb nyelveken volt elérhető. Létrehozására és fris sítésére a vállalat dollármilliókat költött. Most pedig lássuk a Google-t! Vitathatatlanul az övé a világ legteljesebb helyesírás-ellenőrzése, és a világ szinte valamennyi nyelvén működik. A rendszer folyamatosan fejlődik, és új szavak kerülnek bele, annak ered ményeként, hogy az emberek naponta használják a keresőmotort. Félreütöt ted az „iPad"-et? Benne lesz. „Obama" helyett „Omabát" írtál? Az is. Mi több, a Google lényegében ingyenesen hozta létre helyesírás-ellen őrzését, újrahasznosítva azokat a félreütéseket, amelyeket a napi hárommilliárd lekérdezés során begépeltek keresőjébe. Egy ügyes visszacsatolás még azt is megmutatja, hogy a felhasználók valójában milyen szót akar tak írni. Ha az emberek rosszul ütnek be valamit, a Google jelzi a találati oldal tetején - „Inkább erre szeretnék rákeresni: epidemiológia"-, és a ja vaslatra kattintva új keresést kezdhetnek a helyes kifejezéssel. Az a weboldal, amelyet a felhasználók felkeresnek, értelemszerűen jelzi a helyes betűzést, mivel valószínűleg jobban korrelál egy helyesen betűzött szóval,
ÉRTÉK
127
mint egy helytelennel. Ez fontosabb dolog, mint amilyennek tűnik: ahogy a Google helyesírás-ellenőrzése fejlődött, a számítógép előtt ülők egyre kevésbé törődtek vele, hogy a szavakat helyesen írják-e be, mert a Google ettől függetlenül helyesen tudta feldolgozni őket. A Google helyesírás-ellenőrzése azt mutatja, hogy a „rossz", a „helyte len" és a „hibás" adatok mind nagyon hasznosak lehetnek. Érdekes módon ez az ötlet nem a Google-nál vetődött fel először: 2000 tájékán a Yahoo látta meg a lehetőséget abban, hogy a felhasználók lekérdezéseinek elütéseiből helyesírás-ellenőrzést hozzon létre. Tervéből azonban soha nem lett sem mi. A régi keresési adatokat jószerivel szemétként kezelte. Ehhez hason lóan a korábbi népszerű keresőmotorok, az Infoseek és az Alta Vista, a kor legátfogóbb adatbázisával rendelkeztek hibásan beütött szavakból, de nem ismerték fel ennek az értékét. Rendszereik „kapcsolódó kifejezésekként" kezelték az elírásokat, és végrehajtották a keresést. Ez azonban szótárakon alapult, nem pedig a felhasználói interakciók összességén. Csak a Google ismerte fel, hogy a felhasználói interakciók törmeléke valójában aranypor, amelyet összegyűjtve fényes aranyrudat lehet ön teni. A Google egyik vezető mérnöke úgy becsülte, hogy helyesírás-ellen őrzésük legalább egy nagyságrenddel jobban teljesít, mint a Microsofté (bár amikor rákérdeztem, elismerte, hogy ezzel kapcsolatban nem végzett megbízható méréseket). Az az elképzelés, hogy a rendszer kifejlesztése „ingyenes" volt, nevetésre ingerelte. Bár a nyersanyag - az összes félregépelés - közvetlen költségráfordítás nélkül futott be, a Google jóval töb bet költött a rendszer kifejlesztésére, mint a Microsoft, vallotta be széles mosoly kíséretében.12 A két vállalat eltérő megközelítése rendkívül sokatmondó. A Microsoft csupán egyetlen szempontból, a szövegszerkesztés miatt látott értéket a helyesírás-ellenőrzésben. A Google ugyanakkor megértette, hogy ennek jó val több a haszna. A cég nemcsak arra használta az elütéseket, hogy a világ legjobb és legnaprakészebb helyesírás-ellenőrzését fejlessze ki a keresések javítása céljából, hanem sok más szolgáltatásához is felhasználta a rend szert: például az „automatikus kiegészítés" funkcióhoz a kereséseknél, a Gmailhez, a Google Docshoz, sőt a fordítóprogramjához is. Az ember által hagyott digitális nyomok leírására egy új szakkifejezés született: a nem szándékosan hagyott„digitális lábnyom" (data exhaust). Ez azokat az adatokat jelenti, amelyeket az ember a tettei és a mozgása
1 28
BIG D A T A
során melléktermékként hátrahagy a világban. Az internetre vonatkoz tatva a felhasználók online interakcióit írja le: mire klikkéinek, mennyi ideig néznek egy oldalt, hová viszik a kurzort, mit gépelnek be, és így tovább. Sok cég eleve úgy tervezi a rendszereit, hogy begyűjthesse és újra hasznosíthassa a digitális lábnyomokat, és ezáltal javítsa szolgáltatásait, vagy újakat fejlesszen ki. E téren is vitathatatlanul a Google jár az élen. Sok szolgáltatására alkalmazza újra meg újra a „Tanuljunk az adatokból!" elvet. A felhasználók minden tettét jelzésnek veszi, elemzi, és visszatáplálja a rendszerbe. A Google például nagyon is tisztában van azzal, hogy az emberek hány szor keresnek rá egy szóra és a vele kapcsolatos kifejezésekre, és milyen gyakran fordul elő, hogy ráklikkelnek egy keresési eredményre, majd, mi vel nem találták meg, amit akartak, visszatérnek a keresőoldalra, hogy újra rákeressenek. A Google azt is tudja, hogy az első oldal nyolcadik linkjére, vagy a nyolcadik oldal első linkjére kattintottak-e rá, esetleg abbahagy ták-e a keresést. Lehet, hogy nem ez a vállalat tett szert elsőként a szóban forgó ismeretekre, de bámulatos hatékonysággal alkalmazza őket. Ezek az információk nagyon értékesek. Ha sok felhasználó klikkel egy találatra a keresési eredmények listájának alján, az arra utal, hogy relevánsabb információkat hordoz, mint a fölötte lévők, a Google rangsorolási algoritmusa pedig a következő keresések alkalmával automatikusan fel jebb helyezi majd az oldalon (egyébként a hirdetéseknél is ugyanezt a mód szert követi). Egy Google-nál dolgozó szakember mindezt így fogalmazta meg: „Szeretünk tanulni a nagy és kusza adatkészletekből." A digitális lábnyomra számos szolgáltatás épít, például a hangfelismerő programok, a levélszemétszűrők, a fordítóprogramok és így tovább. Ami kor a felhasználók jelzik egy hangfelismerő programnak, hogy félreértet te, amit mondtak, azzal voltaképpen továbbfejlesztik a rendszert. Sok vállalkozás tervezi az alapján a rendszerét/hogy ily módon gyűjthesse és használhassa fel az információkat. A Facebook egyik első „adat tudósa", Jeff Hammerbacher (egyike azoknak, akiknek az új kifejezés megalkotását tulajdonítják) a cég birtokában lévő digitális lábnyomok tömkelegét vizsgálta. Csapatával azt találta: az emberek tevékenységé nek előrejelzése szempontjából (megtesznek-e valamit, posztolnak-e egy médiatartalmat, vagy ráklikkelnek-e valamely ikonra) meghatározó, hogy a barátaik megtették-e ugyanezt.13A Facebook emiatt áttervezte rendszerét,
ÉRTÉK
129
hogy a felhasználók jobban nyomon követhessék, mit tesznek a barátaik, ami aztán hozzájárult az oldal dinamikus fejlődéséhez. Az elképzelés alkalmazása messze túlmutat az internetes szektoron, hiszen bármelyik vállalat profitálhat belőle, amely az ügyfelei visszajelzé seivel kapcsolatban rendelkezik valamilyen módszerrel. Az e-könyv-olvasók például rengeteg adattal szolgának a felhasználók irodalmi ízléséről és szokásairól: mennyi ideig olvasnak egy oldalt vagy bekezdést, hol olvas nak, épp csak átlapozzák-e a könyvet, vagy végleg becsukják. Az eszkö zök azt is rögzítik, ha a felhasználók aláhúznak egy részt, vagy a margóra jegyzetelnek. Az, hogy ilyen információkat lehet összegyűjteni, a koráb ban magányos tevékenységnek számító olvasást valamiféle közösségi élménnyé teszi. A digitális lábnyomok összesítése olyan dolgokat tárhat fel a kiadók és a szerzők előtt, amelyeket számszerűsíthető formában azelőtt nem ismer hettek volna meg: megmutatja a tetszést, a nemtetszést és az emberek olvasási szokásait. Ezeknek pedig kereskedelmi értékük van. Elképzel hető, hogy az e-könyvés cégek az adatokat kiadóknak értékesítik, hogy azok javítani tudjanak könyveik tartalmi és szerkezeti sajátosságain. A Barnes & Noble például a Nook e-könyv olvasóitól származó adatokat elemezve feltárta, hogy az emberek a hosszú, nem szépirodalmi könyvek olvasását általában félúton abbahagyják.14E felfedezés késztette a vállala tot „Nook Snaps" nevű sorozatának elindítására: ezek rövidebb, tematikus jellegű munkák például az egészségről vagy aktuális témákról. Most pedig vegyük szemügyre az online oktatási programokat, mint amilyen az Udacity, a Coursera és az edX! Ezek nyomon követik diákjaik webes interakcióit, hogy lássák, pedagógiai szempontból mi működik a legjobban. Az egyes osztályok akár több tízezer főt is kitehetnek, ami rend kívül sok adatot hoz létre. A tanárok észlelik, ha egy-egy lecke valamely részét a diákok többsége újra megnézte, mert ez azt jelentheti, hogy vala mit nem magyaráztak el elég világosan. A Coursera számítógépes kurzus egyik osztályát oktató stanfordi professzor, Andrew Ng észrevette, hogy az egyik kérdést körülbelül 2000 diákja válaszolta meg rosszul - és mind annyian ugyanazt a hibás választ adták.15 Rövid vizsgálódás után rájött, hogy az egyik algoritmusban felcseréltek két algebrai egyenletet. Úgyhogy amikor ma a többi diák ugyanazt a hibát követi el, a rendszer nemcsak egyszerűen azt közli velük, hogy téved
130
BIG D A T A
nek, hanem azt is, hogy nézzék meg még egyszer a számítást. A rendszer a big datát is alkalmazza, amikor elemzi a diákok által elolvasott összes fórumposztot, valamint azt, hogy helyesen oldják-e meg a házi feladatukat, így előre jelezheti annak valószínűségét, hogy egy adott poszt elolvasása a helyes megoldáshoz vezet-e - vagyis meghatározhatók-e azok a posztok, amelyek elolvasása a legnagyobb haszonnal jár a diákok számára. Mind ezek megismerése korábban lehetetlen lett volna, most viszont örökre meg változtatja a tanítást és a tanulást. A digitális lábnyom óriási versenyelőnyt hozhat a vállalatoknak, és ko moly akadályt gördíthet a konkurencia piacra lépése elé. Gondoljunk csak bele: hiába találna ki egy induló vállalkozás egy minden eddiginél jobb webáruházat, közösségi hálózatot vagy keresőmotort, nemcsak egysze rűen a méretgazdaságosság, a hálózati hatás vagy a márka miatt lennének gondjai a versenyben, hanem azért is, mert az Amazonhoz, a Google-hoz vagy a Facebookhoz hasonló élenjáró cégek teljesítménye jelentős részben a vevők interakcióiból megszerzett digitális lábnyomoknak köszönhető, és az ezekből levont következtetéseket mind beépítik a szolgáltatásaikba. Vajon rendelkezhet-e egy új online oktatási rendszer olyan know-how-val, hogy versenyezhessen egy olyan rendszerrel, amely már irdatlan tömegű adattal felvértezve képes a legjobban működő dolgokat kínálni?
A nyílt adatok értéke Manapság valószínűleg úgy gondolunk a Google-hoz és az Amazonhoz hasonló weboldalra, mint a big data úttörőire, pedig a tömeges adatgyűjtés eredetileg a kormányokhoz fűződik, melyek az ellenőrzésük alatt tartott adatok puszta mennyiségét tekintve mind a mai napig felveszik a versenyt bármely magánvállalattal. Van azonban valami, ami a magánszektorban máshogy működik: a kormányok kötelezhetik az embereket az információ szolgáltatásra, és nem kell meggyőzniük őket arról, hogy így tegyenek, sem pedig valamilyen ellenszolgáltatást felajánlaniuk érte. Következésképpen cormányok a jövőben is adatok óriási tárházát fogják felhalmozni. A big data tanulságai ugyanúgy alkalmazhatók az állami szektorra, mint a kereskedelmi vállalkozásokra: a kormányzati adatok értéke is látens,
ÉRTÉK
131
s a felszabadításához innovatív elemzésre van szükség. Az információszerzésben elfoglalt különleges helyzetük ellenére a kormányok gyakran nem használják elég hatékonyan adataikat. Az utóbbi időben egyre inkább teret hódít az a nézet, hogy a legjobban úgy lehetne kinyerni a kormány zati adatokban rejlő értéket, ha megengednék a magánszektornak és a társadalom egészének, hogy hozzáférjen ezekhez az információkhoz. E szemlélet mögött elvi okok is meghúzódnak. Az állam az állampolgárai képviseletében végzi adatgyűjtéseit, tehát elvárható tőle, hogy a társada lom megismerhesse a begyűjtött adatokat (persze néhány eset kivételével, például ha ez nemzetbiztonsági okokból kockázatos lenne, vagy sértené egyesek személyiségi jogait). Ez a gondolat világszerte a „nyílt kormányzati adatok" kezdeményezé séhez vezetett. Abból kiindulva, hogy a kormányzatok csak őrzői az álta luk begyűjtött információknak, illetve hogy a magánszektor és a társa dalom jobban tudná őket hasznosítani, a nyílt adatok szószólói felhívással fordulnak a hivatalos testületekhez, hogy tegyék hozzáférhetővé adataikat a civil társadalom és a vállalkozások számára. Ezeknek természetesen szabványosítottnak kell lenniük, számítógépes feldolgozásra alkalmas formá tumban, máskülönben csak névleg lennének nyilvánosak. A kormányzati adatok nyílttá tételének gondolata hatalmas lökést ka pott, amikor Barack Obama amerikai elnök első teljes hivatali napján, 2009. január 21-én elnöki rendeletben utasította a szövetségi kormányzati szervek vezetőit, hogy annyi adatot hozzanak nyilvánosságra, amennyit csak lehet. „Kétség esetén a nyitottság elvének kell érvényesülnie" - szólt az indoklás.16Figyelemre méltó kijelentés volt, különösen a korábbi elnök hozzáállásához képest, aki ennek pontosan az ellenkezőjét képviselte. Obama rendeletének köszönhetően jött létre a data.gov internetes oldal, ahol meg lehet nézni a szövetségi kormányzat által hozzáférhetővé tett információkat. Az itt megtalálható adatmennyiség szinte osztódással sza porodott: mire a site 2012 júliusában hároméves lett, a 2009-es 47 adat készlet helyett immár 172 kormányzati szerv közel 450 ezer adatkészletét tartalmazta. Még a zárkózott Nagy-Britanniában is lényeges fejlődés ment végbe, ahol a brit koronát megillető szerzői jogvédelem, a Crown Copyright rengeteg kormányzati információt tart elzárva, és ahol nehéz és költséges dolog engedélyt kapni ezek használatára (például a postai irányítószámokéra az
132
BIG D AT A
elektronikus kereskedelemmel foglalkozó vállalkozásoknak). Az Egyesült Királyság kormánya intézkedéseket hozott az információ nyílttá tételének ösztönzésére, és támogatta az Open Data Institute (Nyílt Adatok Intézete) létrehozását - melynek társigazgatója Tim Berners-Lee, a világháló fel találója lett hogy előmozdítsa a nyílt adatok újszerű felhasználását, és mindazon módokat, amelyek segítségével ki lehet szabadítani az adatokat az állam szorításából. Az Európai Unió szintén bejelentett olyan nyíltadat-kezdeményezéseket, amelyek hamarosan az egész kontinensre kiterjedhetnek. További orszá gok, például Ausztrália, Brazília, Chile és Kenya is kidolgoztak és végrehaj tottak nyílt adatokkal kapcsolatos stratégiákat. Az egyes országokon belül egyre több város és önkormányzat teszi magáévá a nyílt adatok gondolatát, csakúgy, mint sok nemzetközi szervezet. A Világbank például gazdasági és társadalmi mutatók korábban korlátozott adatkészleteinek százait tette hozzáférhetővé. Ezzel párhuzamosan webes fejlesztők és látnoki gondolkodók is össze fogtak, hogy kitalálják, hogyan lehetne az adatokból a legtöbbet kihozni. Példa rá az Egyesült Államokban a Code fór America és a Sunlight Foun dation, Nagy-Britanniában pedig az Open Knowledge Foundation. A nyílt adatokban rejlő lehetőségek egyik korai példája a FlyOnTime. us weboldal. A honlap látogatói interaktív módon megtudhatják (sok más összefüggés mellett), mennyire valószínű, hogy a zord időjárás járatkésé sekhez vezet egy adott repülőtéren. A weboldal az interneten szabadon hozzáférhető hivatalos adatforrásokból származó járat- és időjárási infor mációkat egyesít. A nyílt adatok szószólói fejlesztették ki, hogy megmutas sák, mennyire hasznosak lehetnek a szövetségi kormány adatai. Még a honlap szoftvere is nyílt forráskódú, hogy mások is tanulhassanak belőle, és akár újra fel is használhassák. A FlyOnTime.us hagyja, hogy az adatok beszéljenek, azok pedig gyakran közölnek meglepő dolgokat. Láthatjuk, hogy a Bostonból a New York-i LaGuardia repülőtérre tartó járatok utasainak a köd miatt kétszer olyan hosszú késésekre kell felkészülniük, mint a hó miatt. Ezt valószínűleg nem találta volna ki a terminálban nyüzsgő emberek többsége; a késések szempontjából a hó valahogy komolyabb oknak tűnik. Épp ezek azok az ismeretek, amelyekre a big data segítségével tehetünk szert, ha vegyítjük a Közlekedésstatisztikai Hivatal (Bureau of Transportation Statistics, BTS)
ÉRTÉK
133
múltbeli járatkésési adatait a Szövetségi Légügyi Hivatal (Federal Aviation Administration, FAA) jelenlegi repülőtéri információival, emellett pedig a Nemzeti Óceán- és Légkörkutató Intézet (National Oceanic and Atmospheric Administration, NOAA) múltbéli jelentéseit a Nemzeti Meteo rológiai Szolgálat (National Weather Service, NWS) valós idejű időjárás jelentéseivel. A FlyOnTime.us példája azt hangsúlyozza, hogy egy olyan szervezet, amely maga nem foglalkozik információgyűjtéssel vagy -fel ügyelettel, mint például egy keresőmotor vagy egy kiskereskedelmi lánc, az értékteremtés érdekében mégis beszerezheti és felhasználhatja a szük séges adatokat.
A felbecsülhetetlen értékelése Az adatok értékének mérése kemény feladat, akár nyilvános adatokról van szó, akár olyanokról, amelyek el vannak zárva a vállalati páncélter mekben. Nézzük, mi történt 2012. május 18-án, egy pénteki napon! Az nap Mark Zuckerberg, a Facebook 28 éves alapítója a vállalat kaliforniai főhadiszállásáról szimbolikusan megszólaltatta a NASDAQ nyitóharangját. A világ legnagyobb közösségi hálózata - amely azzal büszkélkedett, hogy bolygónk minden tizedik lakója a tagja - részvénytársasággá alakulva megkezdte új életét. A részvény árfolyama azonnal 11% -ot ugrott, ahogy az sok technológiai cég értékpapírjával történik kereskedése első napján. Ezt követően azonban valami furcsa dolog történt. A Facebook-részvények értéke esni kezdett. Az sem segített, hogy a NASDAQ számítógépei nek technikai problémája következtében egy időre szünetelt a kereske dés. A lényeg viszont még hátravolt. Érezve a bajt, a részvényt jegyzők a Morgan Stanley vezetésével gyakorlatilag megtámasztották a papírt, hogy a kibocsátási árfolyama fölött tudjon maradni. Előző este a Facebook bankja 38 dollárra árazta be a részvényeket, ame lyek összértéke így 104 milliárd dollárt tett ki (csak az összehasonlítás kedvéért: ez az összeg nagyjából a Boeing, a General Motors és a Dell Computers együttes piaci kapitalizációjának felelt meg). De mennyit ért ténylegesen a Facebook? 2011-es auditált pénzügyi beszámolójában, mely nek alapján a befektetők felmérték a vállalatot, a Facebook 6,3 milliárd
134
BIG D AT A
dollár értékű eszközzel rendelkezett, ami a számítógépes hardver, az iro dai berendezések és más állóeszközök értékét jelentette. És mennyi volt a Facebook páncéltermeiben tárolt hatalmas információállomány könyv szerinti értéke? Alapvetően nulla. Nem vették figyelembe, pedig a vállalat szinte semmi másból nem áll, mint adatokból. A helyzet egyre furcsábbá vált. Doug Laney, a Gartner piackutató cég kutatási elnökhelyettese még a kezdeti nyilvános ajánlattételt (initial public offering, IPO) megelőző időszakban osztott-szorzott, és arra jutott, hogy a Facebook 2009 és 2011 között 2,1 billió „pénzzé tehető tartalmat" gyűjtött be: lájkokat, posztolt anyagokat és hozzászólásokat. Az IPO értékelésével összevetve ez azt jelentette, hogy minden egyes adatnak körülbelül 5 cent volt az értéke. Más megközelítésben pedig minden egyes Facebook-felhasználó körülbelül 100 dollárt ért, hiszen a felhasználók voltak a Facebook által gyűjtött információk forrásai.17 Mivel magyarázható, hogy ilyen hatalmas különbség állt fenn a Face book számviteli értéke (6,3 milliárd dollár) és a között az érték között, amennyire a piac a részvények kibocsátásakor értékelte (104 milliárd dol lár)? Erre nem lehet egészen korrekt választ adni. Sokan egyetértenek ab ban, hogy a módszer, mellyel a vállalatok könyv szerinti értékét (azaz főként a készpénz és a fizikai eszközök értékét) meghatározzák, már nem tükrözi megfelelően a valódi értéket. Valójában a könyv szerinti és a piaci érték közötti szakadék - mennyit érne a tőzsdén, vagy ha egy az egyben megvennék - évtizedek óta növekszik. Az Egyesült Államok sze nátusa 2000-ben még meghallgatásokat is tartott az 1930-as évekre vissza vezethető pénzügyi jelentési szabályok korszerűsítéséről (akkoriban még nemigen voltak információalapú vállalkozások).18 Ez nem csak egy-egy vállalati mérleg szempontjából lényeges; ha nem tudjuk meghatározni a cég értékét, az vitathatatlanul üzleti kockázatot és piaci volatilitást eredmé nyez (vagyis a hozam változékonyságát). Egy vállalat könyv szerinti és piaci értékének különbségére az ún. immateriális javak adnak magyarázatot. Ez az érték az Amerikai Egyesült Államokban az 1980-as évek közepétől az új évezred kezdetéig a tőzsdén jegyzett vállalatok értékének 40%-áról annak háromnegyedére nőtt/ami nem kis eltérés.19 Ezek az immateriális javak a márkát, a tehetséget és a stratégiát foglalják magukban: mindent, ami nem fizikai jellegű, és nem ré sze az előírt pénzügyi-számviteli rendszernek. Az immateriális javak fogai-
1
ÉRTÉK
135
mába a vállalatok által birtokolt és használt adatokat is egyre gyakrabban beleértik. Végső soron mindez azt mutatja, hogy jelenleg nincsenek egyértelmű módszereink az adatok értékelésére. Aznap, amikor a Facebook megjelent a tőzsdén, a cég előírások szerinti eszközei és a nem feljegyzett immateriális értékek közötti különbség csaknem 100 milliárd dollár volt. Ez egy szerűen abszurd. Egy ekkora szakadékot át kell hidalni, és meg is fog történni, amint a vállalatok rájönnek, hogyan tüntessék fel adateszközeik értékét a mérlegeikben. Néhányan már tettek bátortalan lépéseket ebbe az irányba. Amerika egyik legnagyobb mobilszolgáltatójánák egyik felső vezetője bizalmasan közölte, hogy a társaság felismerte adatainak óriási értékét, és tanulmá nyozta a lehetőséget, hogy számviteli szempontból esetleg vállalati esz közként kezelhetné őket. Amint azonban a jogászai értesültek erről a kezdeményezésről, leállították az egészet. Azzal érveltek/hogy az adatok feltüntetése a könyvekben növeli a cég jogi felelősségét, amit nem tartot tak valami jó ötletnek. Eközben a befektetők szintén kezdenek felfigyelni az adatok opciós ér tékére. Emelkedhet azoknak a cégeknek a részvényárfolyama, amelyek adatokkal rendelkeznek, vagy könnyen tudnak adatokat gyűjteni, a ke vésbé szerencséseket pedig egyre kevesebbre értékelik majd a piacon. Mindehhez az adatoknak még csak nem is kell hivatalosan megjelenniük a mérlegekben. A piacok és a befektetők beszámítják ezeket az immateriális javakat a cégek értékelésébe - jóllehet komoly nehézségek árán, aho gyan arról a Facebook részvényárfolyamának első hónapokban tapasztalt kilengései is tanúskodnak. Amint azonban a számviteli dilemmák és a felelősséggel kapcsolatos aggodalmak enyhülnek, szinte bizonyosra vehe tő, hogy az adatok értéke új eszközosztályként jelenik majd meg a vállalati mérlegekben. Hogyan lehet majd az adatokat értékelni? Értékük kiszámítása többé nem azt fogja jelenteni, hogy egyszerűen összeszámolják, mennyi hasznot hajtottak az elsődleges alkalmazásuk során. Ugyanakkor, ha az adatok értékének legnagyobb része látens, mert az ismeretlen, jövőbeli, másod lagos hasznosításból származik, nem azonnal egyértelmű, hogyan fog junk hozzá a becsléshez. Ez a származékos értékpapírok árazásának - még
136
BIG D A T A
a Black-Scholes-egyenlet 1970-es évekbeli kidolgozása előtti - nehézsé geire emlékeztethet, vagy a szabadalmak értékelésének dilemmáira, ahol az aukciók, a csereüzletek, a privát értékesítés, az engedélyezés és a renge teg per miatt csak nagyon lassan alakul ki a tudás tőzsdéje. Ha más nem is, az adatok opciós értékének beárazása bizonyára remek lehetőséget jelent a pénzügyi szektornak. Az egyik módszer az, hogy megvizsgáljuk, milyen stratégiákat alkalmaz nak az adatok birtokosai az érték kinyerésére. A leginkább kézenfekvő lehetőség a cég adatainak használata. Persze, nem valószínű, hogy a válla lat az adatok összes látens értékét fel tudja tárni. Kecsegtetőbb megoldás lehet, ha inkább átengedjük adatainkat egy harmadik félnek, hogy haszno síthassa. A big data korában sok adatbirtokos választja azt a megoldást, hogy nem fix díjért engedi át az adatokat, hanem százalékot kér az általuk hajtott haszonból, ahhoz hasonlóan, ahogy a kiadók jogdíjat fizetnek a szerzőknek és az előadóknak, átengedve a könyvek, dalok vagy filmek árbevételének bizonyos százalékát. E megoldás a biotechnológia terüle tének a szellemi tulajdonhoz fűződő szerződéseire is emlékeztet; ott az engedélyező jogdíjat követelhet minden olyan találmány után, amely az ő technológiáján alapul. így mindenkinek az az érdeke, hogy maximalizálja az adatok újrahasznosításából származó értéket. Megtörténhet persze, hogy a harmadik fél nem tudja az adatok összes értékét kinyerni, emiatt az adatbirtokos nem mindig akar kizárólagos hozzáférést adni adattárához. E téren inkább az „adatok promiszkuitása" válhat követendő normává, ami által az adatbirtokos egyszerre több lóra is fogadhat. Egy sor piacon kísérleteznek már az adatok beárazásának módszerei vel. A 2008-ban Izlandon alapított DataMarket más forrásokból, például az ENSZ-től, a Világbanktól és az Eurostattól származó ingyenes adat készletekhez biztosít hozzáférést, bevételeit pedig a piackutató cégekhez hasonló kereskedelmi szolgáltatóktól származó adatok újraeladásából szer zi. Más startupok az információs közvetítő szerepét igyekeznek betölteni, harmadik feleknek ajánlva platformjaikat, ahol vagy ingyenesen, vagy díjfizetés ellenében oszthatják meg adataikat. Az elképzelésük az, hogy bárki számára lehetőséget adnak az aktuális adatbázisában fellelhető ada tai értékesítésére, éppen úgy, ahogy az eBay platformján az emberek elad hatják fölöslegessé vált holmijukat. Az Import.io arra bátorítja a cégeket,
ÉRTÉK
137
hogy engedélyezzék adataik használatát, amelyeket előbb-utóbb úgyis „levesz" valaki az internetről, és aztán ingyen fogja használni. A Google egykori fejlesztője, Gil Elbaz cége, a Factual pedig olyan adatkészleteket kínál, amelyek összegyűjtése egyébként nagyon sok időbe telne. A Microsoft a Windows Azure Piactérrel lépett az arénába. A kiváló minőségű adatokra koncentrál, ezért ellenőrzése alatt tartja a kínálatot, va lahogy úgy, ahogy az Apple felügyeli app store-jának felhozatalát. A Micro soft elképzelése szerint, ha a jövőben például egy marketinges szakember kiötli, hogy szeretné közös Excel-táblázatba foglalni vállalatának belső adatait, összevetve egy gazdasági tanácsadó GDP-növekedésre vonatkozó előrejelzésével, néhány kattintással akkor és ott megveheti majd az adato kat, amelyeket aztán azonnal be is vezethet a táblázat megfelelő oszlopaiba. Azt még mindig nem tudjuk, milyenek lesznek majd az értékesítési mo dellek. Egy dolog azonban biztos: kezd kialakulni egy adatokra épülő gazdaság, amiből sok új szereplőnek származik majd előnye, egy sor régi játékos pedig új erőre kaphat. Tim O'Reilly technológiai kiadó, a szilícium völgyi lángelme úgy fogalmazott erről: „Az adat egy platform",20mivel új termékek és üzleti modellek építőköve. Az adatok értékét azért nehéz meghatározni, mert korlátlan módon és alkalommal újrahasznosíthatok: ez az opciós értékük. Az információgyűjtés lényeges, de nem elegendő, hiszen az adatok értékének legnagyobb része a használatukban, nem pedig a puszta birtoklásukban rejlik. A következő fejezetben az adatok tényleges felhasználását vesszük majd górcső alá, illetve a feltörekvő big data vállalkozásokat.
7 |g §g
KOVETKEZMENYE 2 0 1 1 - b e n S e a t t l e - b e n elindult a Decide.com, egy leleményes startup vállal kozás, fantasztikusan merész ambíciókkal: kismillió fogyasztási cikk árát akarta előre jelezni. Mindenesetre viszonylag szerényebb körrel kezdett: műszaki berendezésekkel, a mobiltelefonoktól és a síkképernyős tévéktől a digitális fényképezőgépekig. Számítógépei webáruházakból szerezték az adatokat, emellett folyamatosan böngészték a világhálót, ár- és termékinformációk után kutatva. A webes árak állandóan változnak, dinamikusan frissülnek, számtalan, komplikált tényező alapján. A vállalatnak tehát folyamatosan áradatokat kellett gyűjtenie. Ez nemcsak sok adatot jelentett, hanem sok szöveget is, mivel a rendszernek szavakat kellett elemeznie, hogy felismerje, ha a gyártók abbahagyták egy termék forgalmazását, vagy egy újabb modellt készültek piacra dobni - vagyis olyan információkat, amelyeket a fogyasz tóknak ismerniük kell, mivel hatást gyakorolnak az árakra. Egy év alatt a Decide.com 4 millió terméket elemzett, és több mint 25 milliárd ármegfigyelést végzett. Olyan furcsaságokat sikerült megállapí tania a kiskereskedelemben, amelyeket az emberek korábban nem vettek észre: kiderült például, hogy a régebbi modellek ára átmenetileg megemel kedik, amikor újakat dobnak piacra. A legtöbb ember azért vesz régebbi modellt, mert olcsóbbnak hiszi, de attól függően, hogy mikor klikkel rá a „Vásárlás" gombra, előfordulhat, hogy éppenséggel többet fizet. Mivel az online áruházak egyre gyakrabban használnak automatizált árazási rendszereket, a Decide.com képes a szokatlan algoritmusok kiszúrására az árugrásokban, és figyelmezteti a fogyasztókat, hogy várjanak a vásárlással.
KÖVETKEZMÉNYEK
1 39
A vállalat belső statisztikája szerint előrejelzései az esetek 77%-ában pon tosnak bizonyulnak, ami a vásárlóknak termékenként átlagosan 100 dollár megtakarítást jelent. A Decide.com annyira magabiztos, hogy ha téved, visszatéríti a különbséget a szolgáltatásáért fizető tagoknak.1 A Decide.com látszólag olyan, mint sok ígéretes startup, melyeknek az a céljuk, hogy új módon fogják munkára az információkat, és becsülettel meg is dolgoznak a pénzükért. A Decide.com-ot nem az adatok teszik kü lönlegessé: a vállalat az internetről szerzett vagy az internetes kereskedel mi oldalak engedélyével használt ingyenes információkra támaszkodik. Nem is a technológiai tudása különbözteti meg a többi cégtől: nem végez annyira bonyolult feladatot, hogy azt hihetnénk, csakis az ő mérnökei képesek összehozni mindezt. Bár az adatgyűjtés és a technikai felkészült ség is fontos, a lényeg nem ez. A Decide.com-ot maga az ötlet teszi külön legessé: a vállalat igazi „big data gondolkodással" rendelkezik. Észrevett egy lehetőséget, és felismerte, hogy bizonyos adatok felszínre hozatalával értékes titkokra deríthet fényt. Ha a Decide.com-ról netán a Farecast re pülőjegyárakat előrejelző oldala jut eszünkbe, nem véletlen: mindkettő Oren Etzioni nevéhez fűződik. Az előző fejezetben megemlítettük, hogy az adatok nagyrészt akkor válnak új érték forrásává - amit mi az opciós értéküknek neveztünk - ha új célok elérése érdekében használják fel őket. A hangsúlyt akkor azok ra a cégekre helyeztük, amelyek az adatgyűjtést végezték. Most nézzük meg azokat, amelyek felhasználják az adatokat, és vizsgáljuk meg, hogyan illeszkednek az információs értékláncba! Tekintsük át, mit jelent mind ez a szervezetek és az egyének szempontjából, szakmai és hétköznapi értelemben! A biga data vállalatoknak az általuk kínált értékek - az adatok, a képes ségek és az ötletek - alapján három típusa létezik. Az első csoportba az adatokat kínálók tartoznak. Ezek azok a vállalatok, amelyek adatokkal rendelkeznek, vagy legalábbis hozzáférnek adatok hoz. Tevékenységük középpontjában azonban nem az adatok állnak. Vagy nincs meg a képességük az adatokban rejlő értékek kiaknázásához, vagy nincsenek ötleteik, mivel lenne érdemes próbálkozniuk. A legjobb példa erre a Twitter, amelynek szerverei hatalmas adatforgalmat bonyolítanak le, mégis - két független cégen keresztül - másoknak engedi át az adatok hasznosítását.
140
BIG DATA
A második csoport a képességeket kínálóké. Ezek gyakran tanácsadó szervezetek, technológiai vállalatok és elemzőcégek, melyek speciális szak értelemmel rendelkeznek, és maguk végzik el a munkát. Többségüknek azonban sem adatok nincsenek a birtokában, sem pedig az a kreativitás, amely elengedhetetlen az adatok leginkább innovatív hasznosításához. A Walmart és a Pop-Tarts esetében például a kiskereskedelmi lánc a Teradata adatelemző cég szakembereihez fordult, hogy segítsenek felismerni az adatokban megbúvó összefüggéseket. A harmadik csoportba azok a vállalatok tartoznak, amelyek „big data gondolkodást" kínálnak. Bizonyos cégek sikerének titkát nem az adat, és nem is a know-how jelenti. Az emeli ki őket a többi közül, hogy alapí tóiknak és alkalmazottaiknak olyan ötleteik vannak, amelyek révén új módszereket tudnak kidolgozni az adatok újrahasznosítására, amivel új értékformákat hoznak létre. Jó példa erre Pete Wardennek, a Jetpac társalapí tójának cége, amely az alapján tesz utazási ajánlatokat, hogy megvizsgálja a felhasználók feltöltött fotóit. Mindeddig a három tényező közül az első kettő kapta a legnagyobb figyelmet: a képességek, melyeknek nem vagyunk bővében, és az ada tok, melyekben viszont bővelkedünk. Az elmúlt években új hivatás jött létre, az „adattudósé", aki egy személyben rendelkezik egy statisztikus, egy számítógépes programozó, egy infografikus és egy történetmesélő ké pességeivel. Az adattudós nem mikroszkópba bámulva tárja fel a világ mindenség titkait, hanem adatbázisokba merülve tesz felfedezéseket. A McKinsey Global Institute vészjósló előrejelzései szerint hamarosan óriási igény mutatkozik majd ilyen szakemberekre,2 amit napjaink adat tudósai előszeretettel idéznek, hogy éreztessék fontosságukat, és felsrófol ják a fizetésüket. Hal Varian, a Google vezető közgazdásza a statisztikusi munkát ko runk „legszexisebb" foglalkozásának nevezte. „Ha valaki sikeres szeretne lenni, muszáj rendelkeznie valami nélkülözhetetlen és ritka dologgal, ami mindenütt jelen van és olcsó - mondta. - Az adatok olyan széles körben jelen vannak, és akkora a stratégiai jelentőségük, hogy nincs is elegendő tudásunk ahhoz, hogy kinyerjük belőlük a sok bölcsességet. Ezért hát a statisztikusok, az adatbázis-kezelők és a gépi tanulásra szakosodott szak emberek tényleg fantasztikus lehetőségek előtt állnak."3
KÖVETKEZMÉNYEK
141
A szaktudásra irányuló jelenlegi figyelem, valamint az adatok jelentősé gének bagatellizálása talán nem lesz hosszú életű. Az ágazat fejlődésével megoldódik majd a szakemberhiány, és a Varian által említett képességek mindennapossá válnak. Mi több, az is téves feltételezés, hogy az adatok, óriási mennyiségük miatt, ingyen használhatók, vagy legalábbis alig van értékük. Valójában az adat a kritikus összetevő. Annak érzékeltetésére, hogy ez miért van így, vizsgáljuk meg a big data értéklánc különböző ré szeit, és azt is, hogy ezek idővel hogyan változhatnak meg! Kezdjük azzal, hogy sorra vesszük az egyes kategóriákat - az adatbirtokost, az adatszak értőt és a „big data gondolkodót".
A big data értéklánc A big data lényege maga az információ. Logikus tehát, ha először az adat birtokosokat vizsgáljuk meg. Lehet, hogy eredetileg nem ők gyűjtötték be az adatokat, de ők felügyelik a hozzáférést az információkhoz, és vagy maguk használják fel őket, vagy megengedik másoknak, hogy kinyerjék belőlük az értékeket. Az ITA Software például, amely (az Amadeus, a Travelport és a Sabre után) az egyik legnagyobb repülőjegy-foglalási hálózat, a Farecast rendelkezésére bocsátotta adatait a jegyár-előrejelzésekhez, ám az elemzést nem maga végezte. Miért? Az ITA szerint a vállalatnak arra a célra kell használnia az adatokat, amire eleve akarta - repülőjegy-értékesítésre -, nem pedig másodlagos hasznosításra. Az ITA alapvető kompetenciái mások; arról nem beszélve, hogy Etzioni szabadalmát is tekintetbe kellett vennie. A vállalat egyebek közt az információs értékláncban elfoglalt helye miatt döntött úgy, hogy nem maga hasznosítja az adatokat. „Az ITA visszarettent az olyan projektektől, amelyek a légitársasági bevételekkel túl szoros kap csolatban álló adatok kereskedelmi hasznosításával jártak volna - emlék szik vissza Carl de Marcken, az ITA Software társalapítója és korábbi tech nológiai igazgatója. - Nem akarta ugyanis veszélyeztetni azt a lehetőséget, hogy hozzáférhetett a szolgáltatásaihoz nélkülözhetetlen adatokhoz. Bár óvatosságból nem használták fel az adatokat, hasznosításra átengedték, így sikerült megtartaniuk a három lépés távolságot. Az adatokban rejlő
142
BIG D AT A
másodlagos érték nagy része a Farecasthoz került, olcsóbb repülőjegyek formájában a vásárlóihoz, annak a jövedelemnek a révén pedig, amelyhez a Farecast hirdetésekből, jutalékokból és végül a cég értékesítéséből jutott, az alkalmazottaihoz és a tulajdonosaihoz. Egyes cégek jó érzékkel az információáramlás középpontjába helyezked tek, hogy a lehető legjobban kiaknázhassák az adatokban rejlő értékeket. Ez történt az Egyesült Államok hitelkártya-ágazatában is. Sok kisebb bank éveken keresztül azért nem bocsátott ki saját hitelkártyát, hogy elkerül je a csalásokat, amelyek ellen harcolni nagyon drága mulatság. Inkább átengedték mindezt a nagyobb pénzintézeteknek, amelyeknek - nagy ságuk miatt - nem jelentett gondot a szükséges technológia kiépítése. A hitelkártyaüzlet fő haszonélvezői olyan cégek voltak, mint a Capital One és a Bank of America kezében lévő MBNA. A kisebb bankok azonban rüa már bánják ezt a döntésüket. A kártyaműveletek elvesztése ugyanis meg fosztotta őket a költési szokásokkal kapcsolatos adatoktól, melyek segítsé gével több ismeretet szerezhetnének ügyfeleikről, akiknek így személyre szabott szolgáltatásokat értékesíthetnének. Ehelyett szemlátomást a nagyobb bankok, valamint a Visához és a MasterCardhoz hasonló kártyakibocsátók foglalják el a legjobb helyeket az információs értékláncban. Azáltal hogy sok bankot és kereskedőt szol gálnak ki, hálózataikon keresztül temérdek tranzakcióra nyernek rálátást, melyekből aztán következtetni tudnak a fogyasztói viselkedésre. Üzleti modelljük a fizetések feldolgozásától az adatgyűjtés irányába tolódik el. Kérdés, hogy mit tesznek az adatokkal. A MasterCard az ITA-hoz hasonlóan átengedhetné az adatokat harma dik feleknek, hogy azok nyerjék ki belőlük az értéket, de a vállalat inkább maga végzi el az elemzést. A MasterCard Advisors divíziója 210 ország másfél milliárd kártyabirtokosának 65 milliárd tranzakcióját összesíti és elemzi, hogy ezáltal előre jelezhesse az üzleti és fogyasztói trendek várható alakulását. Ezeket az információkat aztán másoknak értékesíti. A cég egyebek közt azt is felfedezte, hogy ha valaki délután 4 körül üzem anyagot vásárol egy benzinkútnál, akkor a következő órában jó eséllyel 35-50 dollárt költ egy élelmiszerüzletben vagy étteremben.5 Egy marke tingszakember e tény ismeretében a benzinkút nyugtáinak hátoldalára egy közeli szupermarketben ebben az időszakban beváltható kuponokat nyomtathatna.
KÖVETKEZMÉNYEK
143
Az információáramlások közvetítőjeként a MasterCard remek helyzet ben van ahhoz, hogy összegyűjthesse és hasznosíthassa az adatokat. El jöhet még az az idő, amikor a kártyatársaságok lemondanak jutalékukról, és a tranzakciókat ingyen dolgozzák fel, cserébe azért, hogy még több adathoz férhessenek hozzá, jövedelmüket pedig az ezeken alapuló rend kívül kifinomult elemzések értékesítéséből fogják nyerni. A második csoport az adatszakértőkből áll: ezek olyan vállalatok, amelyek nek megvan a szükséges szakértelmük vagy technológiájuk ahhoz, hogy összetett elemzéseket végezzenek. A MasterCard ezt házon belül teszi, néhány cég pedig épp a kategóriaváltás időszakában van. Sokan azonban specialistákhoz fordulnak. Az Accenture tanácsadó cég például különböző ágazatok vállalataival dolgozik együtt azon, hogy fejlett, vezeték nélküli szenzorokat telepítsenek, majd elemezzék az általuk gyűjtött adatokat. A Missouri állambeli St. Louis városával közös kísérleti projektjében az Accenture vezeték nélküli érzékelőket telepített 20 autóbuszjáratra, hogy a motorok adatainak figyelemmel kísérése révén előre jelezhessék a meg hibásodásokat, illetve meghatározzák a karbantartások optimális időközét. Ezzel nem kevesebb, mint 10%-kai csökkentek az üzemeltetés költségei. Csupán egyetlen megállapítás - az, hogy egy bizonyos alkatrészt az eddigi 320-400 ezer km helyett elég 450 ezer km-enként cserélni - járművenként több mint 1000 dolláros megtakarítást hozott.6 Az adatokban rejlő érték nem a tanácsadót, hanem az ügyfelet gazdagította. Az orvosi adatok területén is találhatunk példát arra, hogyan tudnak külső technológiai cégek hasznos szolgáltatásokat nyújtani. A washingtoni - MedStar Washington Kórházi Központ a Microsoft Research-csel együtt működve, a Microsoft Amalga nevű szoftverének segítségével, több év anonim orvosi adatait elemezte - demográfiai adatokat, teszteket, diagnózi sokat, kezeléseket stb. - abból a célból, hogy csökkenthessék az újrafelvéte lek arányát, valamint a fertőzéseket. Ezek az egészségügy legköltségesebb területei közé tartoznak, tehát bármi, amivel csökkenteni lehet a kiadáso kat, óriási megtakarítást jelent. A közös munka néhány meglepő összefüggést tárt fel. Egyik eredmé nye egy olyan lista lett, amely felsorolta azokat a körülményeket, ame lyek növelik az esélyét annak, hogy egy korábbi páciens egy hónapon belül újra kórházba kerül. Jó néhány körülménnyel már eddig is tisztában
144
BIG D AT A
voltak, nem is létezik rájuk könnyű gyógyír. A pangásos szívelégtelenség gel küzdő beteg valószínűleg visszatér; ezt az állapotot igen nehéz kezelni. A rendszer azonban feltárt egy másik, igen váratlan okot is: a beteg men tális állapotát. Annak a valószínűsége, hogy egy beteg egy hónapon belül újra bekerül a kórházba, kifejezetten megnőtt, ha az illető eredeti kór képe mentális zavarokra utaló szavakat tartalmazott, például azt, hogy „depresszió".7 Bár e korreláció semmit nem árul el az esetleges ok-okozati kapcsolatról, annyit azért mégis sejtet, hogy hazabocsátás után a páciensek mentális gyógyulása a testi egészségüket is javíthatja. Az ilyen betegeket ritkábban látják viszont a kórházban, és persze az orvosi költségek is csökkennek. Ezt az összefüggést egy gép találta egy hatalmas adattömegben; egy ember talán soha nem szúrta volna ki. A Microsoft nem felügyelte az adatokat, azok a kórházhoz tartoztak. Bámulatos ötlettel sem állt elő, mert nem volt szükség ilyesmire. Csupán rendelkezésre bocsátott egy eszközt, az Amalga szoftvert, mely a felfedezéshez kellett. A big datát birtokló cégeknek specialisták segítenek abban, hogy kinyer jék az adatokból a bennük rejlő értéket. A dicséretek és a hízelgő titulusok - „adatnindzsák" és hasonlók - ellenére azért a technikai szakemberek élete sem fenékig tejfel. Naphosszat a big data gyémántbányáiban robotol nak, s noha szép kis summát vihetnek haza fizetségképpen, a felszínre hozott drágaköveket át kell adniuk azoknak, akiket illet: az adatok birto kosainak. A harmadik csoportot az ún. big data gondolkodású vállalatok és embe rek alkotják. Fő erősségük abban rejlik, hogy mindenki másnál korábban veszik észre a lehetőségeket, még akkor is, ha nincsenek a birtokukban adatok, vagy nincs meg a képességük a felhasználásukhoz. Talán éppen azért, mert kívülállóként híján vannak e dolgoknak, gondolkodásuk is mentes minden képzeletbeli börtönrácstól: azt látják, ami lehetséges, és nem korlátozza őket a megvalósíthatóság béklyója. Bradford Cross megtestesíti azt, amit big data gondolkodásnak ^eve zünk.8 2009 augusztusában, mikor a húszas évei közepén járt, néhány barátjával létrehozta a FlightCaster.com-ot. A FlyOnTime.us-hez ha sonlóan a FlightCaster is annak az előrejelzésével foglalkozott, hogy az Egyesült Államokban egy repülőjárat milyen valószínűséggel késik.
KÖVETKEZMÉNYEK
145
Az előrejelzésekhez a korábbi 10 év összes járatának adatait elemezte, és összevetette a múltbeli és az aktuális időjárási adatokkal. Érdekes módon az adatbirtokosok képtelenek voltak ugyanerre. Egyiket se ösztönözte semmi - vagy nem volt törvényi felhatalmazásuk - arra, hogy ilyesmire használják az adatokat. Valójában, ha az adatforrások - a közlekedésstatisztikai hivatal, a Szövetségi Légügyi Hivatal és a Nemzeti Meteorológiai Szolgálat - megpróbálták volna megjósolni a kereskedel mi repülőjáratok késéseit, azt valószínűleg kongresszusi meghallgatások követik, és fejek is hullottak volna. A légitársaságok sem tudták volna elvégezni e munkát, de nem is állt érdekükben. Nekik az a jó, ha közép szerű teljesítményük titokban marad. A fátyol fellebbentéséhez mérnökök kellettek. Valójában a FlightCaster előrejelzései annyira hátborzongatóan pontosak voltak, hogy még a légitársasági alkalmazottak is használni kezd ték őket. A légitársaságok ugyanis a legutolsó pillanatig el akarják kerülni a késések bejelentését, ezért, bár ők az információ forrásai, a friss közzé tételben nem szoktak jeleskedni. Big data gondolkodásmódja következtében Bradford Cross FlightCastere lépett a színre először. Crossnak az adta az ötletet, amikor ráeszmélt, hogy csupa nyilvános forrásból származó adat feldolgozásával képes olyan válaszokat kínálni, melyekre emberek milliói kíváncsiak. Nem sokon múlt azonban az elsősége: ugyanabban a hónapban, amikor a FlightCastert elindították, a FlyOnTime.us megszületése körül bábáskodó geekcsapat is nekiállt, hogy nyílt adatokból összedobja a saját oldalát. A FlightCaster előnye hamar semmivé lett. 2011 januárjában Cross és tár sai eladták a céget a Next Jumpnak, egy olyan vállalatnak, amely big data technika segítségével vállalati kedvezményprogramok menedzselésével foglalkozik. Cross ezután egy másik ágazatra figyelt fel, ahol egy olyan piaci rést talált, ahová kívülállóként is be tudott törni: a média világára. Prismatic nevű startupja szövegelemzés, felhasználói preferenciák, közösségimédianépszerűség és big data analitika alapján összesíti és rangsorolja a világ háló minden részéből származó médiatartalmakat. Rendszere nem tesz különbséget egy tinédzser blogbejegyzése, egy nagyvállalati honlap és a Washington Post egyik újságcikke között: ha a médiatartalmat (nézettsége és a megosztások száma alapján) tárgyhoz tartozónak és népszerűnek tekintik, akkor a lista élére kerül.
146
BIG D AT A
A Prismatic szem előtt tartja, hogyan viszonyul a fiatal generáció a médiához. A fiatalok számára az információ forrása már nem lényeges. Ez azért meglehetősen megszégyenítő a mainstream média apostolai szá mára: lassan a nagyközönség összességében jobban informált náluk, az újságíró-társadalom elitjének pedig a gépük előtt pizsamában üldögélő bloggerekkel kell versenyeznie. A lényeg itt mégis az, hogy a Prismatic nem a média világából emelkedett ki, bár az ágazat maga is rengeteg infor mációt gyűjt össze. A washingtoni nemzeti sajtóklub (National Press Club) bárjának törzsvendégei soha nem gondoltak arra, hogy újrahasznosítsák a médiafogyasztás online ádatait. De a New York állambeli Armonkban vagy az indiai Bangalore-ban dolgozó analitikai szakemberek sem fogták volna munkára az információkat ily módon. Cross, ez a kétes kinézetű kívülálló, ez a zilált hajú, vontatottan beszélő alak el tudta hitetni magáról, hogy adatokkal felvértezve meg tudja mondani a világnak, mire kellene jobban odafigyelnie a New York Times szerkesztőinél. A big data gondolkodás és a briliáns ötlettel előrukkoló kívülálló tör ténete nem volt ritka az 1990-es évek közepén, az elektronikus kereske delem hajnalán, amikor az élenjárókat nem akadályozta a tradicionális ágazatokra jellemző meggyökeresedett gondolkodásmód és az intézményi korlátok. így nem a Barnes & Noble hozott létre online könyváruházát, hanem egy hedge fund* kvant (Jeff Bezos, az Amazon alapítója), és nem a Sotheby's fejlesztett ki aukciósoldalt, hanem egy szoftverfejlesztő (Pierre Omidyar, az eBay alapítója). Manapság a big data gondolkodásmódű vál lalkozókkal gyakran előfordul, hogy kezdetben nincsenek adataik. így azonban nem is korlátozzák őket olyan rejtett érdekek vagy pénzügyi leg demotiváló tényezők, amelyek megakadályoznák elképzeléseik meg valósítását. Mint láttuk, vannak esetek, amikor egy cég több big data jellegzetességet vegyít. Etzioni és Cross megelőzött másokat nyerő ötletével, ugyanakkor a szükséges képességeik is megvoltak. A Teradata és az Accenture csa pataiban dolgozók sem csupán a mechanikus műveletekhez értenek; időről időre nagyszerű ötleteik támadnak. Az archetípusok mégis jól
* Spekulatív befektetési alap. (A Ford.)
KÖVETKEZMÉNYEK
147
érzékeltetik a különböző cégek által betöltött szerepeket. A big data mai éllovasai gyakran igen eltérő háttérrel rendelkeznek, képességeiket pedig a legkülönbözőbb területeken tudják alkalmazni. Az ún. „angyal befektetők"* (angel investors) és vállalkozók új generációja kezd kiala kulni, amelybe elsősorban az egykori google-osok és az ún. PayPal-maffia képviselői - a cég korábbi vezetői, mint Peter Thiel, Reid Hoffman és Max Levchin - tartoznak. Ők, féltucatnyi egyetemi informatikaoktatóval karöltve, az adatokra épülő startupok legnagyobb támogatói. A big data képviselőinek elképzelései megváltoztatják a vállalatok ér tékét. A Salesforce.com például nem csupán vállalati alkalmazások hasz nos gyűjtőhelye lehet; ahhoz is jó helyzetben van, hogy felszabadíthassa a rajta keresztüláramló adatfolyamban rejlő értékeket. A mobilszolgál tatók - ahogy az előző fejezetben láttuk - irgalmatlan mennyiségű adatot gyűjtenek be, de gyakran nem ismerik fel azok értékeit. Annyit viszont ők is megtehetnek, hogy adataik hasznosítását átengedik másoknak, akik képesek belőlük új értéket kinyerni - így döntött a Twitter is, amikor adat hasznosítási jogait átengedte két külsős cégnek. Néhány szerencsés vállalkozás tudatos stratégia alapján ölel fel bizo nyos területeket. A Google olyan adatokat gyűjt például, mint a keresések közbeni elütések, amelyeket egy ragyogó ötlettől vezérelve nyelvhelyes ség-ellenőrző fejlesztésére használ, s a cégen belüli tudásra építve az elkép zelést remekül kivitelezi. A Google sok más tevékenységében is élvezi a big data értéklánc vertikális integrációjának előnyeit, és ebben az értékláncban mindhárom pozíciót egyszerre tölti be. A cég ugyanakkor bizonyos ada tait alkalmazásprogramozói felületeken keresztül másoknak is átengedi újrahasznosításra, amivel további értékeket teremt. Jó példával szolgálnak erre a Google-térképek, melyeket az ingatlanügynökségektől kezdve a kormányzati honlapokig mindenki ingyenesen használhat az interneten (bár a leglátogatottabb weboldalaknak fizetniük kell érte). Az Amazonnak is megvan mindene: a big data gondolkodásmódja, a tapasztalata és az adatai. Érdekes, hogy üzleti modelljét is ebben a sor
* Sikeres üzleti m últra visszatekintő m agánszem élyek, akik tőkét fektetnek be újon nan induló innovatív cégekbe, személyes közreműködéssel, tanácsokkal segítve a cégvezetést. (A Ford.)
148
BIG D AT A
rendben valósította meg, ami a szokásosnak pont a fordítottja. Nagy sikert arató ajánlórendszere is egy elképzelésből indult ki. 1997-es részvényjegyzési felhívásában már azelőtt leírta a csoportos információszűrést (collaborative filtering), mielőtt tudta volna, hogyan működne a gyakorlat ban, vagy elég hasznosítható adata lett volna hozzá.9 Mind a Google, mind az Amazon kategóriákat fog át, stratégiájuk azonban eltérő. Amikor a Google adatgyűjtésbe kezd, már a másodlagos hasznosításra gondol. Street View-autói, mint láttuk, nemcsak a térképek hez gyűjtötték a GPS-információkat, hanem a vezető nélküli autók „betaní tásához" is. Ezzel szemben az Amazon az adatok elsődleges hasznosítására összpontosít, a másodlagosra inkább csak bonuszként tekint. Ajánlórend szere például a kattintási adatokat használja jelzésként, de a vállalat nem hasznosította még ezt az információt annak érdekében, hogy rendkívüli dolgokat vigyen véghez, például előrejelezze a gazdaság állapotát vagy az influenzajárvány terjedését. Annak ellenére, hogy az Amazon Kindle e-könyv-olvasója jelezni tudja, ha egy bizonyos oldalt a felhasználók sok jegyzettel láttak el, vagy sok mindent húztak rajta alá, a cég ezt az információt nem értékesíti szer zőknek vagy kiadóknak. Pedig a marketingszakemberek örülnének, ha tudnák, mely részek a legnépszerűbbek, mert ennek segítségével még több könyvet tudnának eladni. Talán a szerzőknek se lenne ellenükre, ha tisztában lennének vele, hogy egy-egy emelkedettebb stílusú, bár kissé hosszabb művüket mely résznél teszi félre az olvasók többsége, hátha leg közelebb el tudnák ezt kerülni. A kiadók pedig tippeket kaphatnának egy következő könyvsiker témájához. Úgy tűnik, az Amazon inkább hagyja az adatokat parlagon heverni. A big data okos felhasználása átalakíthatja a vállalatok üzleti modelljét és a régi partnerek közötti kapcsolatokat is. Egy meghökkentő esetben egy nagy európai autógyártó cég megváltoztatta kereskedelmi kapcsolatát az egyik alkatrész-beszállítójával, miután kielemezte azokat a felhasználási adatokat, melyekről a beszállítónak nem volt tudomása. (Mivel ezt a szá mításokat végző cég csak háttér-információként mondta el, a vállalatok nevét nem közölhetjük.) Manapság a személyautókat telerakják chipekkel, érzékelőkkel és szoft verekkel, amelyek a jármű szervizelésekor teljesítményadatokat töltenek az autógyártók számítógépeire. A középkategóriás járművekben körül
KÖVETKEZMÉNYEK
149
belül 40 mikroprocesszor található; egy autó elektronikája a kocsi összkölt ségének harmadát teszi ki.10Méltó utódai tehát Maury hajóinak, az „úszó obszervatóriumoknak".11 Ha egy cég képes rá, hogy adatokat gyűjtsön az autóalkatrészek működés közbeni viselkedéséről - és ezt az információt a továbbfejlesztésükre használja fel -, az nagy előnyt jelent számára. Egy külsős analitikai céggel együttműködő autógyártó rájött, hogy az üzemanyagtartály egyik érzékelője, amelyet egy német beszállító gyártott, nagyon rosszul működik: minden érvényes riasztására több téves riasztás jutott. A vállalat egyszerűen átadhatta volna ezt az információt a beszállí tónak, és kérhette volna, hogy köszörülje ki a csorbát. Régebben minden bizonnyal így is tett volna, de manapság nem ilyen időket élünk. A vállalat egy vagyont költött analitikai programjára, és szerette volna, ha befekte tése legalább részben megtérül. Mérlegelte tehát a lehetőségeit. Adja el az adatokat? Mennyit lehet fel számítani egy ilyen információért? Mi van, ha a beszállító felmondja az együttműködést, a cég meg ott marad a rossz alkatrésszel? Emellett azt is tudta, hogy ha átadná az információt, akkor a beszállító azokon az alkat részeken is javítana, melyeket a konkurens autógyártókhoz szállít. Oko sabbnak tűnt, ha olyan megoldást választ, amely révén csak ő jár jól. Végül egészen új ötlettel állt elő. Megtalálta a módját, hogyan lehet szoftvermódosítással javítani az alkatrész minőségén, szabadalmaztatta a techni kát, majd a szabadalmát eladta a beszállítónak. Csinos kis summát keresett az egészen.
Az új adatközvetítők Kinek a birtokában van a legnagyobb érték a big data értékláncban? Ma erre azt felelhetnénk, hogy azokéban, akiknek megvan a szükséges gon dolkodásmódjuk, akiknek innovatív ötleteik vannak. A dotcom-korszak idején láthattuk, hogy tényleg sokat ér, ha valaki elsőként csap le egy lehe tőségre. Ugyanakkor lehet, hogy ez az előny nem tart sokáig. A big data korszakában idővel mások is átveszik majd e gondolkodásmódot, és az úttörők viszonylagos előnye csökkenni fog.
150
BIG DATA
Lehet, hogy az értéktermelés kritikus pontja valójában a képességek terén rejtőzik? Végül is, egy aranybánya semmit sem ér, ha nem tudjuk kitermelni az aranyat. A számítástechnika története azonban mást mutat. Manapság nagyon nagy a kereslet az adatbázis-kezelésben, adattudomány ban, analitikában, gépi tanulási algoritmusokban és hasonló területeken jártas szakemberek iránt. Idővel azonban, ahogy a big data egyre inkább részévé válik a mindennapjainknak, ahogy az eszközök egyre jobbak lesz nek, használatuk pedig egyre könnyebb, és egyre többen szereznek kellő szakértelmet, e képességek relatív értéke is csökkenni fog, mint ahogy a számítógépes programozás képessége is egyre köznapibbá vált az 1960-as és az 1980-as évek között. Az offshore kiszervezés elvén működő cégek tovább csökkentették a programozási munka értékét; ami valaha a mű szaki érzék netovábbjának számított, az ma a világ szegényebbik felén a fejlődés motorjának szerepét tölti be. Ezzel nem azt akarjuk mondani, hogy a big data területén ne lenne fontos a szakértelem. De nem ez a leg fontosabb értékforrás, mivel kívülről beszerezhető. Most, a big data korszak kezdetén úgy tűnik, az ötleteknek és a képes ségeknek van a legnagyobb értékük. Végül azonban a legnagyobb érték maga az adat lesz. Ugyanis több mindent tudunk majd kezdeni vele, és az adatbirtokosok is jobban meg fogják becsülni eszközéik potenfciális ér tékét. Ennek eredményeképpen valószínűleg jobban ragaszkodnak majd hozzájuk, mint korábban, a kívülállóknak pedig csak magasabb árért fog nak hozzáférést biztosítani. Az aranybánya-hasonlatnál maradva: maga az arany számít majd a legtöbbet. Az adatbirtoklás felértékelődésének ugyanakkor van egy fontos di menziója, amelyről érdemes szót ejtenünk. Bizonyos esetekben „adat közvetítők" is színre léphetnek majd, akik több forrásból tudnak adato kat gyűjteni és összesíteni, és azokat innovatív dolgokra használják. Az adatbirtokosok is érdekeltek lesznek abban, hogy a közvetítők betölthes sék szerepüket, mert az adatokban rejlő értékek egy részéhez csak rajtuk keresztül tudnak majd hozzáférni. Az adatközvetítői szerep betöltésére példaként hozhatjuk fel a Seattle közelében található forgalomelemző céget, az Inrixet, amely Észak-Amerikában és Európában 100 millió gépjármű valós idejű helymeghatáro zási adatainak összeállításával foglalkozik. Ezek az adatok egyebek közt BMW, Ford és Toyota márkájú személyautókból, valamint kereskedelmi
KÖVETKEZMÉNYEK
151
járműflottákból, például taxikból és furgonokból származnak. Magánautó sok mobiltelefonjairól is szereznek be adatokat (amiben fontos szerepet játszik a cég ingyenes okostelefon-alkálmazása: a felhasználók közleke dési információkhoz jutnak, az Inrix pedig cserébe megkapja a koordiná táikat). Ezeket az információkat az Inrix múltbeli forgalmi adatokkal, valamint időjárási és egyéb tényezők, például helyi események adataival elegyíti, hogy előrejelzést adjon a forgalomról. A feldolgozott adatokat a gépjárművek navigációs rendszereihez továbbítják, de kormányzati szer vek és kereskedelmi járműflották is használják őket. Az Inrix a független adatközvetítők jellegzetes példája. Információit szá mos, egymással rivalizáló járműipari vállalattól szerzi be, terméke pedig értékesebb, mint amilyet a cégek egyenként létrehozhattak volna. Lehet, hogy az egyes autógyáraknak birtokukban van néhány millió, az utakon futó járműveikből származó adatpont. Ha forgalmi előrejelzések készíté sére használnák fel őket, azok nem lennének túl pontosak, sem pedig telje sek. A prognózisok az adatmennyiség növekedésével egyre pontosabbá válnak. Az autógyártók valószínűleg a szükséges képességekkel sem ren delkeznek: a fémmegmunkáláshoz jobban értenek, mint a Poisson-eloszlások fölötti elmélkedéshez. A gyártókat tehát minden arra ösztönzi, hogy egy harmadik féllel végeztessék el a munkát. Emellett, noha a forgalmi előrejelzések fontosak a vezetőknek, e rendszer aligha befolyásol bárkit is abban, hogy milyen márkájú kocsit vesz. A versenytársaknak tehát nincs ellenükre, hogy ily módon egyesítsék erőiket.12 Sok ágazatban a cégek már régóta megosztanak egymással bizonyos információkat, például a biztosítási laboratóriumokban, illetve a bank-, az energia- és a telekommunikációs szektorban, ahol a problémák meg előzésében fontos szerepet játszik az információk cseréje, és ezt időnként a szabályozó hatóságok is megkövetelik. A piackutató cégeknek évtizedek óta vannak összesített ágazati adataik, csakúgy, mint bizonyos speciális feladatra szakosodott vállalatoknak, például az újságok példányszámának auditálásával foglalkozó társaságoknak. Egyes kereskedelmi szövetségek tevékenységének ez jelenti a legfontosabb részét. Manapság annyi a különbség, hogy az adat most már piacra kerülő nyers anyag; egy eszköz, függetlenül attól, hogy eredetileg mit akartak mérni a segítségével. Az Inrix információja például hasznosabb, mint amilyen nek első pillantásra tűnik. A cég forgalmi elemzéseit egyebek közt a helyi
152
BIG D AT A
gazdaság állapotának mérésére is használják, mert segítségükkel betekin tést nyerhetnek a munkanélküliség, a kiskereskedelem és a szabadidős tevékenységek alakulásába. Amikor 2011-ben az Egyesült Államok gazda sági fellendülése akadozni kezdett, a politikusok cáfolatai ellenére a for galmi elemzések kimutatták a hanyatlás jeleit: csökkent a zsúfoltság a csúcsforgalomban, ami magasabb munkanélküliségre utalt. Az Inrix az adatait egy befektetési alapnak is eladta, mely egy nagy kiskereskedelmi lánc áruházai körüli forgalmat használja a lánc értékesítési adatainak jelző számaként, amelyet az alap a vállalat részvényeivel való kereskedéshez használ fel a cég negyedéves jelentéseit megelőző időszakokban. Ha több autó van a környéken, az korrelációt mutat a javuló értékesítéssel. A big data értékláncon belül más közvetítők is felbukkannak. Az egyik első ilyen a Hitwise volt - a céget később az Experian megvásárolta -, amely internetszolgáltatókkal kötött megállapodásokat kattintási adataik begyűjtéséről, némi extra bevételért cserébe. Az adatokat alacsony, fix díjért engedték át neki, nem pedig a cég által termelt érték bizonyos száza lékáért. Az érték nagy részét a Hitwise szerezte meg közvetítőként. Egy másik példa a Quantcast, amely weboldalak forgalmát méri, hogy segít sen többet megtudni látogatóik demográfiai összetételéről és szokásairól. A Quantcast egy online eszközt biztosít, mellyel a weboldalak nyomon követhetik forgalmukat; ennek fejében a Quantcast is láthatja az adatokat, így javíthat célzott hirdetései pontosságán. Ezeknek az új adatközvetítőknek sikerült felfedezniük egy jövedelmező piaci rést, anélkül hogy veszélyeztették volna az adatbirtokosok üzleti modelljét. Jelenleg az internetes hirdetések területén mutatkozik piaci rés, mert ott található a legtöbb adat, ugyanakkor égető szükség is van rá, hogy az adatok kiaknázásával javítsák a célzott hirdetések pontosságát. Az adatosítás fejlődésével azonban egyre több ágazatban ismerik majd fel, mennyire alapvető fontosságú, hogy tanuljunk az adatokból, így a füg getlen információközvetítők máshol is megjelennek majd. A közvetítők nem feltétlenül kereskedelmi vállalkozások; nonprofit szervezetek is lehetnek. 2012-ben például több nagy amerikai egészségbiztosító megalapította az Egészségügyi Költségek Intézetét (Health Care Cost Institute). Egyesített adatállományuk 33 millió ember 5 milliárd igénybejelentésére terjedt ki (név nélkül). Az adatok megosztásával a cégek felfigyelhetnek azokra a tendenciákra, amelyeket saját, kisebb adatkészle-
KÖVETKEZMÉNYEK
1 53
v
teikben talán nem vettek volna észre. Az intézet egyik első megállapítása az volt, hogy az Egyesült Államok egészségügyi kiadásai 2009-2010-ben az inflációnál háromszor gyorsabban nőttek. A részletek feltárása azonban más képet mutatott: a sürgősségi ellátás árai 11% -kai növekedtek, míg az ápolási díjak csökkentek.13 Egyértelmű, hogy az egészségbiztosítók csak egy nonprofit közvetítő szervezetnek adhatták át árakat is tartalmazó adataikat; egy ilyen szervezet ugyanis az átláthatóságon és a számadási kötelezettségen alapul. A big data cégek változatossága az információk értékének eltolódását tük rözi. A Decide.com esetében az áradatokat a partner weboldalak biztosítják, részesedéses alapon. A Decide.com jutalékot kap, ha valaki a honlapján keresztül vásárol, de az adatszolgáltató cégek is részesülnek a haszon ból.14 Ez az adatkezelés bizonyos érettségét mutatja: a múltban az ITA nem kapott semmilyen jutalékot a Farecastnak szolgáltatott adatok után, eltekintve egy alaplicencdíjtól.15Az adatszolgáltatók ma már vonzóbb fel tételekkel tudnak megállapodást kötni. Etzioni következő startupja talán adatokat szolgáltat majd, hiszen a szaktudást, majd az ötletadást követően a jövőben ez lesz a legértékesebb tevékenység. Ahogy az érték egyre inkább azok irányába tolódik el, akik az adatokat felügyelik, az eddigi üzleti modellek is a fejük tetejére állnak. Bár annak az európai autógyártónak, mely a szabadalmát a beszállítójának értéke sítette, erős volt a saját adatelemzési csapata, az adatokban rejlő infor mációk feltárásához mégis szüksége volt egy külső technológiai közvetítő együttműködésére. A technológiai céget megfizették a munkájáért, ám a haszon döntő része az autógyártónál maradt. Miután azonban a technoló giai cég megszimatolta a lehetőségeket, változtatott üzleti modelljén, és kísérletképpen áttért a kockázat- és haszonmegosztásra. Olcsóbban vál lalta el a munkát, de részt kért az elemzése nyomán befolyó haszonból. Ami pedig az autóalkatrész-beszállítókat illeti, valószínűleg nem járunk messze az igazságtól, ha kijelentjük: a jövőben mindannyian mérési érzé kelőket akarnak majd helyezni termékeikre, vagy ragaszkodni fognak ah hoz, hogy szerződésben kössék ki, alkatrészeik minőségének folyamatos javítása érdekében hozzáférhetnek a teljesítményadatokhoz. A közvetítők dolga nem egyszerű, mert meg kell győzniük ügyfeleiket, hogy osszák meg a létrehozott értéket. Az Inrix például a helymeghatáro
15 4
BIG D AT A
zási információkon túl már más adatokat is gyűjteni kezdett. 2012-ben megkísérelte elemezni, hogy az autók automata fékrendszerei (Automatic Braking Systems) hol és mikor lépnek működésbe.16 Partnere egy olyan autógyártó volt, amelynek telemetriás rendszere valós időben gyűjti be az információkat. A kísérlet hátterében az az elképzelés rejlett, hogy ha az automata fékrendszereket gyakran hozzák működésbe egy adott útszaka szon, az arra utalhat, hogy ott veszélyesek a körülmények, így a vezetők nek másik utat kellene keresniük. Ezekkel az adatokkal felvértezve tehát az Inrix nemcsak a legrövidebb, hanem a legbiztonságosabb útvonalat is meg tudja mutatni. A szóban forgó autógyártó mégsem tervezi, hogy másokkal is megoszt ja az említett adatokat. Ragaszkodik hozzá, hogy az Inrix kizárólag az ő autóiban használja fel a rendszert. Úgy látszik, az exkluzív funkció reklámértéke többet ér számára, mint az, hogy adatai megosztásával ja vítsa az egész rendszer pontosságát. Ennek ellenére az Inrix hisz abban, hogy idővel az összes gyártó belátja, csak hasznos lehet, ha minden adatot összesítenek. Az Inrixnek adatközvetítőként muszáj optimistának lennie: a vállalkozás teljes egészében arra épül, hogy hozzáférhet a többes adat forrásokhoz. A big data üzletek során a vállalatok különböző szervezeti formákkal is kísérleteznek. Sok startuppal ellentétben az Inrix nem véletlenül buk kant rá üzleti modelljére; közvetítői szerepe eleve így volt megtervezve. A technológiához szükséges szabadalmakat tulajdonló Microsoft úgy vélte, hogy egy kis, független céget - egy nagyvállalattal szemben - talán semlegesebbnek tekintenek majd, könnyebben összehozhatja az ágazati riválisokat, és így tudja a legtöbbet kihozni szellemi tulajdonából. A MedStar Washington Kórházi Központ is - amely a Microsoft Amalga szoft verének segítségével elemezte a páciensek újrafelvételét a kórházba - pon tosan tudta, mit tesz az adataival: az Amalga rendszer eredetileg ugyanis a kórház Azyxxi nevű saját, házon belüli sürgősségi szoftvere volt, me lyet a kedvezőbb továbbfejlesztési lehetőségek érdekében 2006-ban adott el a Microsoftnak. 2010-ben a UPS eladta UPS Logistics Technologies nevű, házon belüli adatelemzési részlegét a Thoma Bravó magántőke-befektetési vállalkozás nak. A manapság Roadnet Technologies néven működő részleg több vál lalat számára is szabadabban elemezhet útvonalakat. Sok ügyfelétől gyűjt
KÖVETKEZMÉNYEK
155
be adatokat, hogy az egész ágazatot átfogó benchmarking szolgáltatásokat nyújtson, melyeket mind a UPS, mind a versenytársai igénybe vesznek. Mint azt Len Kennedy, a Roadnet vezérigazgatója elmagyarázta, UPS Logisticsként soha nem tudták volna meggyőzni anyacégük versenytársait arról, hogy adják át adatállományaikat. Miután azonban függetlenné váltak, a riválisok könnyebben belementek az adatszolgáltatásba, és vé gül mindenki csak nyert a dolgon, hiszen az összesítéssel nőtt a rendszer pontossága.17 Számtalan, a big data üzletágban dolgozó vállalat felvásárlása bizonyítja, hogy a szakértelemmel és a gondolkodásmóddal szemben a jövőben leg inkább maguk az adatok számítanak majd, 2006-ban például a Microsoft nak 110 millió dollárt ért Etzioni big data gondolkodásmódja, ennyiért vásárolta meg tőle a Farecastot. Két esztendővel később pedig a Google fizetett 700 millió dollárt azért, hogy felvásárolja a Farecast adatszállítóját, az ITA Software-t.
A szakértők visszaszorulása A Pénzcsináló című film arról szól, hogy újfajta analitikai és mérési eszkö zök alkalmazásával hogyan lett sikercsapat az Oakland Athletics baseballcsapata. Van benne egy pompás jelenet: őszülő hajú öreg megfigye lők ülnek az asztal körül, és értékelik a játékosokat. A nézők nem tudják feszengés nélkül figyelni mindezt. Nem egyszerűen azért, mert a jelenet rávilágít, hogy a döntéseik mennyire nélkülözik a tényeket és az adato kat, hanem azért, mert mindnyájan voltunk már olyan helyzetben, mikor a „meggyőződésünk" inkább a véleményünkön, semmint a tudásunkon alapult. - Jó a testfelépítése - mondja az egyik megfigyelő valamelyik játé kosról. - Gyönyörűen lendít - szól közbe egy törékeny, ősz hajú, hallókészülé ket viselő fickó. - Eltalálja a labdát, vezeti, és a labda kilő az ütőről. Az egész stadionban hallani a puffanást. - Csak úgy pufog az ütő - ért vele egyet a másik. - Ronda a barátnője - veti közbe egy harmadik férfi.
156
BI G D A T A
- Ezzel mit akarsz mondani? - kérdi a megbeszélést vezető játékosmegfigyelő. - Azt, hogy nincs önbizalma - magyarázza a kétkedő fickó tárgyilagos hangon. - Oké - mondja a vezető elégedetten, készen arra, hogy továbblépjen. Ugratják egymást egy ideig, majd az egyik, addig hallgatag megfigyelő felemeli a hangját: - Tökös a srác, és az jó. Olyan srác, hogy ha besétál valahová, a farka már két perccel megelőzte. - Jó svádájú gyerek. Van megjelenése. Csak bele kell jönnie a játékba teszi hozzá a másik. - Annyit mondok - szól ismét a kétkedő fazon -, a barátnője tízből maxi mum egy hatos. E jelenet tökéletesen tükrözi az emberi megítélés hiányosságait. Amit a játékosmegfigyelők értelmes vitának tartanak, valójában híján van min den konkrétumnak. Dollármilliókat érő szerződésekről zsigeri alapon döntenek, nincs objektív mércéjük. Persze, ez csak egy film, de a valós élet nem sokban különbözik tőle. Efféle üres okoskodások a manhattani igazgatósági tárgyalóktól az Ovális Irodáig, a kávéházaktól a vacsoraaszta lokig mindenütt elhangzanak. A Michael Lewis könyve alapján készült Pénzcsináló Billy Beane, az Oakland Athletics csapatfőnökének igaz történetét meséli el, aki matema tikai módszerre cserélte a játékosok kiválasztásának évszázados rendjét. A hagyományos statisztikákat, mint az „ütőátlagot" (batting average), szo katlan játékszemléletet tükröző statisztikák szorították ki, például a „bázis ra jutási átlag" (on-base percentage). Az adatokra fókuszáló megközelítés a sportág olyan dimenzióját tárta fel, amelyet korábban a játékot övező körítés eltakart. Mindegy volt, hogyan jutott egy játékos a bázisra - egy pattogó, földön guruló labda után rohant, vagy egyszerűen odasétált -, ha odajutott. Amikor az adatok kimutatták, hogy a bázislopás nem ha tékony, a játék egyik legizgalmasabb, de legkevésbé „eredményes" eleme kiesett a pikszisből. Jelentős vitákat váltott ki, amikor Beane bevezette a „sabermetricsként" ismertté vált módszert. A kifejezést Bili James sportújságíró alkotta a Society fór American Baseball Research kezdőbetűi alapján; a szervezetet egészen addig csupán a geek szubkultúra részeként ismerték. Beane éppen
KÖVETKEZMÉNYEK
157
úgy megrendítette a játékosok kiválasztásának dogmáját, ahogy Galilei heliocentrikus világképe a katolikus egyház tekintélyét. A 2002-es szezon ban végre sikerült hosszú ideje csak szenvedő csapatát az Amerikai Liga nyugati divíziójában győzelemre vezetnie, sőt ugyanebben a szezonban 20 meccset nyertek meg zsinórban. Ettől kezdve a statisztikusok kiszorítot ták a sportelméletből a játékosmegfigyelőket, és sok más csapat is igyeke zett alkalmazni a sabermetrics módszerét. Ugyanebben a szellemben: a big data legnagyobb hatása az lesz, hogy az adatok alapján hozott döntések javítani fogják, vagy akár meg is másít ják az emberi ítéleteket. lan Ayres, a Yale közgazdász- és jogászprofesszora Super Crunchersw (Számmágusok) című könyvében amellett érvel, hogy a statisztikai elemzések arra kényszerítik majd az embereket, hogy vizsgál ják felül ösztönös döntéseiket. A big data révén ez még fontosabbá válik. A témakör szakértői, az érdemi szakemberek egyre inkább alulmarad nak a statisztikusokkal és az adatelemzőkkel szemben, akiket nem kötnek gúzsba a régi módszerek, és hagyják, hogy az adatok beszéljenek. Ez az új gárda fenntartások nélkül támaszkodik majd a korrelációkra, ahogyan Maury sem vette készpénznek az öreg hajóskapitányok kocsmai beszámo lóit hajóútjaikról, hanem inkább az összesített adatok valóságfeltáró ere jében hitt. Sok területen tapasztaljuk, hogy egy-egy témakör szakembereinek a befolyása egyre csökken. A médiában a nagy weboldalakon - mint a Huffington Post, a Gawker és a Forbes - megjelenő írások tartalmát a szerkesztők döntése mellett az adatok is meghatározzák. Ezek ugyanis jobban megmutatják, miről akarnak olvasni az emberek, mint a tapasz talt újságírók ösztönei. A Coursera online oktatócég adatokat gyűjt arról, hogy a diákok melyik video-előadást nézték meg újra, és arra használja őket, hogy megtudja, mely anyagrészt nem magyarázták el elég alaposan. A rendszer aztán visszajelzést ad a tanároknak az eredményről. Mint ko rábban említettük, Jeff Bezos az Amazonnál megszabadult kritikákat és könyvismertetőket író munkatársaitól, mikor az adatokból kiderült, hogy az algoritmikus ajánlások magasabb eladásokhoz vezetnek. Ez azt jelenti: a jövőben másfajta képességek kellenek ahhoz, hogy az ember érvényesülni tudjon egy munkahelyen. Átalakulnak az alkalma zottakkal szembeni elvárások is. Dr. McGregornak, aki Ontarióban kora szülött csecsemőkkel foglalkozik, nem kell a kórház legokosabb orvosá
158
BIG D AT A
nak vagy az újszülöttellátás nemzetközi szaktekintélyének lennie ahhoz, hogy a legjobb eredményeket érhesse el. Valójában 6 nem is orvos - in formatikából doktorált. Viszont több mint egy évtized számítógépes betegadataira támaszkodva ajánlásokat tud tenni a legmegfelelőbb keze lésekre.19 Mint láttuk, a big data úttörői gyakran nem arról a területről érkeznek, ahol hírnévre tettek szert: adatelemzéssel, mesterséges intelligenciával, matematikával vagy statisztikával foglalkozó szakemberek, akik a tudá sukat más ágazatokban alkalmazzák. Anthony Goldbloom, a Kaggle vezérigazgatója azt mesélte: a big data projektek online platformjaként ismert Kaggle-versenyek győztesei jellemzően újoncok abban a szektorban, ahol jelentős eredményeket érnek el. Egy brit fizikus hajszál híján nyert a biz tosítási kárigények előrejelzésére és hibás használt gépjárművek azono sítására kifejlesztett algoritmusával. Egy szingapúri biztosítási statisztikus is nyerésre állt abban a versenyben, amely kémiai vegyületekre adott biológiai válaszok előrejelzésére irányult.20 Mindeközben a Google gépi fordítással foglalkozó csoportjában a mérnökök azt ünnepük, hogy olyan nyelvekre tudnak átültetni szövegeket, amelyeket az irodában senki sem beszél. A Microsoft gépi fordítással foglalkozó részlegének statisztikusai pedig élvezettel idézgetik a régi poént: valahányszor távozik egy nyelvész a csapatukból, a fordítások minősége javul. Szögezzük le: azért a szakemberek sem tűnnek majd el, de csökken a hegemóniájuk. Mostantól osztozniuk kell a pódiumon a big data geekekkel, pontosan úgy, ahogy a fejedelmi rangú kauzalitásnak is osztoznia kell a rivaldafényen az egyszerű származású korrelációval. Ez átformálja majd a gondolkodásunkat, hiszen mindeddig úgy véltük, ha valaki mélyen beleásta magát egy szakterületbe, a tudása többet ér, mint a generalistáké. Nos, a szaktudás - a pontossághoz hasonlóan - helyénvaló a small data világában, ahol nincsenek elegendő vagy helyes információink, ezért az ösztöneinkre és a tapasztalatainkra kell támaszkodnunk. A jártasság kitüntetett szerephez jut, mert a hosszú idő alatt felhalmozódott, látens tudás - amelyet nem vehetünk át egykönnyen, nem tanulhatunk meg könyvekből, netán a tudatában sem vagyunk - lehetővé teszi számunkra, hogy okosabb döntéseket hozzunk. Ha azonban teletömnek minket adatokkal, tapasztalatok nélkül is egész jól elboldogulhatunk - sőt, még jobban. Azok, akik képesek a big data elem
KÖVETKEZMÉNYEK
159
zésére, talán nem azért látnak át a babonákon és a szakmai konvenciókon, mert okosabbak, hanem mert rendelkeznek adatokkal. Kívülállóként pedig elfogulatlanok tudnak maradni a szakmai perpatvarokban, melyek során a szakemberek éleslátását óhatatlanul is csökkentik a meggyőződéseik. Ez arra utal, hogy lassanként megváltozik, mitől lehet értékes egy alkalma zott a vállalat számára. Változik, mit kell tudnunk, változik, kit kell ismer nünk, és ennek megfelelően az is változik, mit kell tanulnunk ahhoz, hogy felkészüljünk szákmai pályafutásunkra. A matematika és a statisztika ismerete, talán egy csipetnyi programozás sal és hálózattudománnyal fűszerezve, pontosan annyira alapvető lesz a modern munkahelyeken, amennyire egy évszázaddal ezelőtt a számolás volt, még korábban pedig az írás-olvasás tudománya. A múltban ahhoz, hogy valakiből jó biológus lehessen, sok más biológust kellett ismernie. Ez nem is változott meg teljesen. Ma azonban már nemcsak a tárgyi tudás mélysége számít, hanem a big data is. Ugyanúgy elképzelhető, hogy egy talányos biológiai problémát egy asztrofizikus segítségével lehet megolda ni, mint az, hogy egy adatmegjelenítési tervező bevonásával. A videojáték-iparban például a big data tisztjei már utat törtek maguk nak, hogy a szakértő tábornokok mellett állhassanak, miközben átala kították az üzletágat. A videojáték-szektor nagy üzlet, többet hoz, mint amennyi Hollywood éves árbevétele világszerte.21 Régebben a vállalatok megterveztek egy játékot, piacra dobták, és reménykedtek, hogy nagy sikert arat. Az értékesítési adatokat látva aztán a cégek vagy kijöttek a folytatással, vagy új projektbe fogtak. A játék tempója és elemei, például á szereplői, a cselekménye, a célja és az eseményei a tervezők kreativitásán múltak, akik ugyanolyan komolyan vették a munkájukat, mint Michelan gelo, amikor a Sixtus-kápolna mennyezetfreskóját festette. Művészet volt ez, nem tudomány; a megérzések és az ösztönök világa, hasonló a Pénz csináló játékmegfigyelőinek világához. Ezek az idők azonban már véget értek. A Zynga FarmVille-je, FrontierVille-je, FishVille-je és más játékai online és interaktív játékok. A felszínen az online játék lehetővé teszi a Zyngának, hogy megnézze a felhaszná lási adatokat, és az alapján módosítson a játékon, ahogy a gyakorlatban játsszák.22 Tehát, ha a játékosoknak túl nehéz az egyik szintről a másikra jutniuk, vagy egy adott pillanatban kezdenek elszállingózni, mert a cselek mény veszít a lendületéből, akkor ezeket a Zynga észleli az adatokból, és
16 0
BIG D AT A
orvosolni is tudja. Kevésbé nyilvánvaló azonban, hogy a vállalat az egyéni játékosok jellemvonásai alapján is igazíthat a játékon. A FarmVille-nek nem egy verziója van, hanem több száz. A Zynga big data elemzői tanulmányozzák, hogy a virtuális áruk eladá sait befolyásolja-e a színük, vagy pedig az, ha a játékosok látják, hogy a barátaik is felhasználják őket. Miután az adatok megmutatták, hogy a FishVille-játékosok egy áttetsző halból hatszor annyit vásároltak, mint a többi állatból, a Zynga több áttetsző fajjal gyarapította ajánlatát, és csinos kis profitra tett szert. A MafiaWars adatai kimutatták, hogy a játékosok több fegyvert vásároltak aranyszegéllyel, és minden kistigris, melyet megvettek, fehér volt. Ezeket a dolgokat a stúdióban keményen dolgozó játéktervezők nem tudhatnák, de az adatok elárulják. „A Zynga egy elemzővállalat, csak játék cégnek álcázza magát. Mindent a számok irányítanak" - magyarázta Ken Rudin, mikor még a Zynga analitikai vezetője volt23; később hűtlen lett cégéhez, és átigazolt a Facebookhoz. Az adatok kiaknázása nem garancia az üzleti sikerre, de jól mutatja a lehetőségeket. Komoly változást jelent az átállás az adatvezérelt döntésekre. A legtöb ben tények és reflexiók, valamint jórészt találgatások alapján döntenek. Thomas Davenport professzor, aki a Massachusetts állambeli Babson College-on oktat üzleti tudományokat, és számtalan analitikai könyv szerzője, „arany zsigerekről" beszél.24 Az üzleti élet vezetőinek magabiztossága az ösztöneikből fakad. Csakhogy ez kezd megváltozni, ahogy a vezetői dön téseket egyre inkább prediktív modellezés és big data elemzés alapján hozzák, vagy legalábbis igazolják vissza. A The-Numbers.com például - sok adattal és matematikával alátámaszt va - megmondja a független hollywoodi producereknek, mekkora bevételt hozhat egy film, jóval az előtt, hogy a legelső jelenetet felvennék. A válla lat egy körülbelül 30 millió rekordból álló adatbázis alapján végzi a mun káját, amely több évtizedre visszamenőleg felöleli az Egyesült Államok filmiparának valamennyi alkotását. Tartalmazza minden film költségvetését, műfaját, szereposztását, stábját, díjait, valamint bevételét (az egye sült államokbeli és a nemzetközi mozibevételeket, a külföldi jogdíjbevé teleket, a videók eladásából, illetve kölcsönzéséből származó bevételeket), és még sok minden mást. Az adatbázis emellett feltérképezi az emberi kap csolatokat is, például azt, hogy „ez a forgatókönyvíró ezzel a rendezővel, ez
KÖVETKEZMÉNYEK
161
a rendező ezzel a színésszel dolgozott együtt" - magyarázza a cég alapítója és elnöke, Bruce Nash.25 A The-Numbers.com képes bonyolult korrelációkat felfedezni, amelyek előre jelzik a filmek bevételeit. A producerek pedig ezt az információt el juttatják a stúdiókhoz vagy a befektetőkhöz, hogy pénzügyi támogatást szerezzenek. A cég még a változókkal is játszik, hogy közölje az ügyféllel, hogyan lehetne a bevételt növelni (vagy minimalizálni a veszteség kocká zatát). Egy elemzésében arra jutott, hogy az egyik filmnek sokkal nagyobb esélye lenne a sikerre, ha a férfi főszereplő egy A kategóriás színész lenne; különösen, ha egy Oscar-jelölt, az 5 millió dolláros fizetési tartományban. Egy másik esetben Nash arról informálta az IMAX stúdiót, hogy vitorlázás ról szóló dokumentumfilmje valószínűleg csak akkor lesz nyereséges, ha a 12 millió dolláros költségvetést 8 millió dollárra csökkenti. „A producer nagyon örült a hírnek; a rendező már kevésbé" - meséli Nash. Attól kezdve, hogy megcsináljanak-e egy filmet, egészen addig, hogy leigazoljanak-e egy baseballjátékost, a vállalati döntéshozatal változásai már kezdenek megmutatkozni a pénzügyi eredményességi mutatókban is. Erik Brynjolfsson, az MIT Sloan School of Management professzora és kollégái azoknak a cégeknek a teljesítményét tanulmányozták, ame lyek jeleskednek az adatvezérelt döntéshozatalban, és összehasonlították más vállalatokéval. Azt találták, hogy az előbbieknek 6% -kai jobb volt a termelékenységük/mint azoknak, akik a döntéshozatal során nem fektet tek hangsúlyt az adatok használatára.26 Az adatok iránymutatására hall gató cégeknek mindez jelentős előnyt biztosít, bár - a gondolkodásmód hoz és a hozzáértéshez hasonlóan - lehet, hogy az ebből származó előny is rövid életű lesz, ahogy egyre több vállalat kezdi alkalmazni a big data megközelítést.
Kinek hasznos? Miközben a big data sok vállalat számára versenyelőny forrásává válik, teljes ágazatok szerkezete fog átalakulni. A nyereség azonban egyenlőtlenül oszlik majd el. A győztesek a nagy és a kis cégek közül kerülnek ki, a kettő közötti többség rovására.
162
BIG DATA
A legnagyobbak, mint az Amazon és a Google, továbbra is szárnyalni fognak. Az ipari korral ellentétben azonban versenyelőnyük nem a mé retükön alapul majd. A rendelkezésükre álló adatközpontok hatalmas műszaki infrastruktúrája fontos, de nem a leglényegesebb jellemzőjük. Bőséggel lehet találni olcsón kibérelhető és perceken belül hozzáférhetővé tehető digitális tárolási és feldolgozási kapacitást, úgyhogy a cégek ezek nagyságát a valós szükségleteikhez igazíthatják. A korábban állandó költ ségek változó költségekké tételével járó átalakulás csökkenti a nagy cégek hosszú idő óta élvezett, technikai infrastruktúrájukon alapuló, mérethez fuzodo elonyet. A méret továbbra is fontos lesz, de másban. Az adatok nagysága számít majd. Az lesz a fontos, hogy ki rendelkezik nagy adatállománnyal, és ki képes könnyűszerrel még többet begyűjteni. így hát a nagy adatbirtoko sok prosperálni fognak, ahogy egyre többet halmoznak fel az üzleti te vékenységük nyersanyagát jelentő adatokból, melyeket aztán a további értékteremtés érdekében újra tudnak hasznosítani. A small data világának győztesei és az offline-bajnokok számára - mint a Walmart, a Procter & Gamble, a GE, a Nestlé és a Boeing - az a kihívás, hogy helyesen mérjék fel a big datában rejlő lehetőségeket. Adatgyűjtésüket és adathasználatukat pedig még fontosabb stratégiai kérdésként kell kezelniük. A Rolls-Royce repülőgéphajtómű-gyártó konszern az elmúlt évtizedben teljesen átalakí totta üzleti tevékenységét azáltal, hogy már nemcsak megépíti termékeit, hanem elemzi is a belőlük származó adatokat. A cég nagy-britanniai irá nyítóközpontjából a vállalat folyamatosan nyomon követi világszerte üzemelő több mint 3700 sugárhajtóművének teljesítményét, hogy a prob lémákat még a meghibásodás bekövetkezése előtt észlelhesse. Az adatokat arra használta fel, hogy segítségükkel gyártó cégből gyártó és szolgáltató vállalkozássá váljon: a Rolls-Royce úgy értékesíti a hajtóműveket, hogy nyomon követésükre is ajánlatot tesz, amelynek árát a repült üzemórák alapján számítja fel vevőinek (és problémák esetén javítja vagy cseréli is őket). E szolgáltatások díja ma már a polgári repülőgéphajtómű-divízió éves bevételének nagyjából 70%-át teszi ki.27 Az új üzleti területek startupjai és régi motorosai hatalmas mennyiségű adat begyűjtésére rendezkedtek be. Jó példa erre az Apple benyomulása a mobiltelefonok piacára. Bár a mobilszolgáltatók már az iPhone megjelené se előtt is rengeteg potenciálisan értékes felhasználói adatot halmoztak r ss
& j
At
1 y*>
/ ,
KÖVETKEZMÉNYEK
163
fel előfizetőiktől, képtelenek voltak hasznosítani őket. Az Apple viszont a mobilszolgáltatókkal aláírt szerződéseiben kikötötte, hogy igényt tart a leghasznosabb információk nagy részére. Azáltal, hogy az Apple világszer te rengeteg szolgáltatótól szerzi be adatait, sokkal gazdagabb képet tud alkotni a mobiltelefon-használatról, mint amilyet bármelyik mobilszolgál tató önmagában láthat. A big data izgalmas lehetőségeket kínál a méretpaletta másik végén lévő cégek, a piac ügyes és mozgékony kis szereplői számára is, akik kiélvezhe tik - Brynjolfsson professzor gyakran idézett szavaival - a „tömeg nél küli méret" előnyeit.28 Ez azt jelenti, hogy komoly tárgyi erőforrás nélkül jókora virtuális jelenlétet biztosíthatnak maguknak, kevés pénzért széles körben terjesztve innovációikat. Fontos az is, hogy a big data szolgáltatá sok egy része alapvetően innovatív ötleteken alapul, ezért nem igényelnek nagy kezdeti befektetést. A kis cégek saját adatok helyett dolgozhatnak hasznosításra átvett adatokkal, elemzéseiket elvégezhetik olcsó, felhőalapú számítógépes platformokon, a hasznosítási díjaikat pedig fizethetik a be vételeik bizonyos százalékában is. Jó esély van rá, hogy a paletta mindkét végén megmutatkozó előnyök nemcsak az adatok felhasználóit érintik majd, hanem az adatbirtokosokra is kiterjednek. A nagy adatbirtokosok erősen motiváltak arra, hogy bő vítsék adatkészletüket, hiszen ez minimális költséggel nagyobb hasznot jelent számukra. Először is, megvannak a tároláshoz és a feldolgozáshoz szükséges eszközeik. Másodszor, az adatkészletek kombinálása egyedi ér téket hordoz. Harmadszor pedig, az adatfelhasználók dolgát egyszerűsíti, ha az adatok egy helyen beszerezhetők. Még érdekesebb, hogy az adatbirtokosok új típusa is megjelenhet: a ma gánszemélyek. Ahogy az adatok értéke egyre nyilvánvalóbbá válik, könynyen lehet, hogy a rájuk vonatkozó információk - például vásárlási, médianézési szokásaik, és talán az egészségügyi adataik - birtokosaiként az emberek fitogtatni akarják az erejüket. Személyes adataik birtoklása révén a magánszemélyek olyan hatalom hoz juthatnak, amire korábban senki sem gondolt. Eldönthetik, kinek en gedik át adataikat, és mennyiért. Természetesen nem mindenki akarja majd elpasszolni őket a legtöbbet ígérőnek; sokan nem bánnák, ha ingye nesen használnák újra meg újra az adataikat, cserébe azért, hogy jobb szol gáltatásokat kapjanak, például találó könyvajánlókat az Amazontól, vagy
164
BIG D AT A
nagyobb felhasználói élményt a Pinterest digitális üzenőfalon és tartalqmmegosztó szolgáltatáson. A digitális technológiához jól értő fogyasztók egy része számára azonban ugyanolyan természetes lesz majd személyes adataik marketingje és értékesítése, mint a blogírás, a twitterezés vagy egy Wikipédia-szócikk megszerkesztése. Ahhoz, hogy mindez működjön, a fogyasztók eszmélésén kívül azért más is kell. Ma még túlságosan bonyolult és költséges lenne az emberek nek, hogy személyes adataikat átengedjék másoknak, csakúgy, mint a vállalkozásoknak az, hogy egyesével megszerezzék őket. Valószínűbb, hogy olyan új cégek bukkannak majd fel, amelyek sok fogyasztó adatait gyűjtik össze, leegyszerűsítik átengedésüket, és automatizálják a tranz akciókat.29 Ha elég alacsony költséggel dolgoznak, és elég sokan bíznak meg bennük, akkor elképzelhető, hogy kialakul a személyes adatok piaca. Az olyan vállalkozások, mint a nagy-britanniai Mydex, és az olyan cso portok, mint a Sandy Pentland - az MIT személyesadat-analitikai guru ja - társalapításában létrejött ID, már dolgoznak rajta, hogy ez a jövőkép valósággá váljon. Amíg ezek a közvetítő cégek létre nem jönnek, és az adatfelhasználók el nem kezdik őket használni, nagyon korlátozottak a lehetőségeik azoknak, akik szeretnének a saját adataik birtokosai lenni. Addig is, míg a szüksé ges infrastruktúra a helyére kerül, a közvetítő cégek pedig megalakulnak, a magánszemélyek megfontolhatnák, hogy inkább kevesebb, mint több adatot szolgáltassanak magukról, mert így megmaradhatnak a későbbi választási lehetőségeik. A közepes méretű vállalatok számára a big data kevesebb segítséget nyújthat. A nagy cégek méretükből fakadó, a kicsik pedig költségbeli és innovációs előnyökkel rendelkeznek, vélekedik Philip Evans, a Boston Consulting Group szakértője, a technológiai és az üzleti szféra jövőkutatója. A hagyományos szektorokban a közepes méretű cégek azért boldogulnak, mert már ki tudják használni a méretük előnyeit, de még elég kicsik ah hoz, hogy rugalmasak maradjanak. A big data világában viszont nincs olyan minimális méret, melyet egy vállalatnak el kell érnie ahhoz, hogy ki tudja fizetni a termelési infrastruktúrába történő beruházásait. Azok a big data felhasználók, akik meg akarják őrizni rugalmasságukat, ugyanakkor szeretnének sikeresek lenni, rá fognak jönni, hogy többé már nem kell
KÖVETKEZMÉNYEK
165
elérniük egy bizonyos nagyságot. Úgy is boldogulhatnak, ha kicsik marad nak (vagy felvásárolhatja őket egy big data óriás).30 A big data egyfajta présbe fogja az ágazatok középső szegmensét: vagy a nagyvállalatok, vagy a kicsi, de fürge cégek, vagy pedig a megszűnés irányába hajtja a szereplőket.1Sok hagyományos szektor végül big data szektorrá alakul majd át, a pénzügyi szolgáltatásoktól kezdve a gyógyszer gyártókon át a feldolgozóiparig. A big data nem tünteti el valamennyi szektorban a közepes vállalatokat, de minden bizonnyal nyomást gyakorol majd rájuk azokban az ágazatokban, amelyek érzékenyebben reagálnak a big data által kiváltott változásokra. A big data megzavarhatja az államok közt kialakult versenyelőnyök jelen legi rendjét is. Az ipari országok, annak ellenére, hogy feldolgozóiparuk jelentős teret vesztett a fejlődő országokkal szemben, az innováció pedig szabad prédának tűnik, őrzik azt az előnyüket, hogy birtokolják az adato kat, és tudják is használni őket. Ro$sz hír azonban, hogy ez az előny nem fenntartható. Mint ahogy a számítástechnika és az internet területén tör tént, a Nyugatnak a big data terén is csökken majd kezdeti vezető szerepe, ahogy a világ többi részén is átveszik a technológiát. A fejlett országokban működő legbefolyásosabb cégeknek viszont nem árt tudniuk, hogy a big data valószínűleg felerősíti vállalati erényeiket és gyengéiket. Ha tehát egy vállalat képes hasznosítani a big datában rejlő lehetőségeket, jó esélye van rá, hogy ne csak túlszárnyalja versenytársait, de még növelje is előnyét. A verseny már javában zajlik. Ahogyan a Google keresési algoritmusá nak szüksége van a felhasználók digitális lábnyomaira ahhoz, hogy jól mű ködhessen, és ahogy a német autóalkatrész-szállító felismerte az adatok jelentőségét termékei minőségének javításában, minden más cég is csak nyerhet, ha okosan hasznosítja az adatokat. A pazar előnyök ellenére azonban van okunk az aggodalomra. A big data egyre pontosabb előrejelzéseket ad a világról és a benne elfoglalt helyünkről, de arra talán nem készültünk fel, hogy milyen hatást gyako rol majd a magánéletünkre és a szabadságérzetünkre. Szemléletünk és intézményeink még egy olyan világot tükröznek, melyre az információ szegénység, nem pedig az információbőség volt jellemző. A következő fejezetben a big data árnyoldalait mutatjuk meg.
KOCKÁZATOK a berlini fal 1989-es leomlásáig a Stasi, a keletnémet titkosszolgálat emberek milliói után kémkedett. Körülbelül 100 ezer, teljes munkaidőben foglalkoztatott alkalmazottjával a Stasi követett autóval, követett gyalog. Kibontotta a leveleket, bekukucs kált a bankszámlákba, bepoloskázta a lakásokat, és lehallgatta a telefonvonalakat. Szerelmeseket és házaspárokat, szülőket és gyermekeket vett rá, hogy kémkedjenek egymás ellen, visszaélve az emberek közötti leg alapvetőbb bizalommal. A megszületett akták legalább 39 millió kartoték lapja és 100 kilométernyi dokumentuma az átlagemberek életének legin timebb vonatkozásait is rögzítette és részletezte. Kelet-Németország az egyik legátfogóbb rendőrállam volt, amely valaha létezett.1 Napjainkban, több mint húsz évvel a keletnémet állam megszűnése után, több adatot gyűjtenek és tárolnak mindnyájunkról, mint koráb ban bármikor. Állandó megfigyelés alatt vagyunk: amikor hitelkártyával fizetünk, mobiltelefonon beszélünk, vagy a társadalombiztosítási azo nosító számunkkal igazoljuk magunkat. 2007-ben a brit média azon éke lődött, hogy annak a lakásnak a 200 méteres sugarú körzetén belül, ahol George Orwell az 1984-et írta, 30 megfigyelőkamera található.2 Az arra szakosodott cégek - például az Equifax, az Experian és az Acxiom - már jóval az internet megjelenése előtt emberek százmillióinak összegyűjtött és táblázatba foglalt személyes információihoz biztosítottak hozzáférést.3 Az internet megkönnyítette a nyomozást, olcsóbbá és hasznosabbá tette. De nem csak a hárombetűs kormányzati titkosszolgálatok kémkednek utá nunk. Az Amazon a vásárlási, a Google a böngészési szokásainkat követi C
s a k n e m
n e g y v e n
e s z t e n d ő n
k e r e s z t ü l
,
KOCKÁZATOK
167
nyomon, a Twitter tudja, hogy mi jár a fejünkben. A Facebook mindezeken az információkon túl a társadalmi kapcsolatainkról is tudomást szerez. A mobilszolgáltatók pedig nemcsak azzal vannak tisztában, kivel beszél getünk, hanem azzal is, hogy ki van a közelünkben. Mivel a big data értékes ismeretekkel gyarapítja az elemzőket, minden jel arra mutat, hogy egyre több személyes adatunkat gyűjtik össze és hasz nosítják újra. És ahogy az adatok tárolása egyre olcsóbb lesz, valamint egyre hatékonyabb eszközökkel lehet őket elemezni, az adatgyűjtések nagysága és aránya ugrásszerűen nőni fog. Ha az internet kora veszélyeztet te a magánéletünket, lehet, hogy a big data még inkább fokozza ezt a fenye getést? Ez lenne a big data árnyoldala? A válasz: igen. Ráadásul nem csak erről van szó. Itt is az a lényeg, hogy a nagyságrendek megváltoztatása állapotváltozáshoz vezet. Mint ahogy később majd kifejtjük, ez az átalakulás nemcsak a személyiségi jogok vé delmét teszi sokkal nehezebbé, de egy merőben új fenyegetést is magában hordoz: azt, hogy a jövőben hajlamosság alapján rónak ki büntetéseket. A big data előrejelzéseket arra használhatják fel, hogy már azelőtt elítéljék és megbüntessék az embereket, mielőtt bármit elkövettek volna. Mindez ellentmond a méltányosság, az igazságosság és a szabad akarat elvének. A személyiségi jogokkal és a hajlamok alapján történő ítélkezéssel kap csolatos veszélyek mellett létezik egy harmadik is. Megvan a kockázata, hogy áldozatul esünk az adatok diktatúrájának: fetisizáljuk az információt, elemzésünk eredményét, és végül visszaélünk vele. Felelős kezekben a big data a racionális döntéshozatal hasznos eszköze. Botor módon használva azonban az elnyomás eszközévé válhat: felhasználhatják egyszerűen a vásárlók vagy az alkalmazottak frusztrálására, sőt rosszabb esetben akár kárt is okozhatnak a polgároknak. A kockázatok nagyobbak, mint ahogy bevalljuk. A big data személyi ségi jogokkal kapcsolatos és előrejelzésekre vonatkozó kontroll nélküli használata, illetve az, hogy megtéveszthetnek bennünket az adatok je lentéstartalmával kapcsolatban, nem csupán olyan apróságokhoz vezet, mint a célzott online hirdetések elhelyezése, hanem jóval messzebbre. A 20. század véráztatta történelme során az adatok több esetben szörnyű ségek elkövetését segítették. 1943-ban az Egyesült Államok Népszámlá lási Hivatala kiadta a japán-amerikaiak tömbcímeit (a személyiségi jogok látszatának megőrzése miatt azonban az utcát és házszámot nem), hogy
168
BIG D AT A
lehetővé váljon az internálásuk.4 Hollandia híresen precíz állampolgári adatait a megszálló Németország a zsidók összegyűjtésére használta fel.5 A náci koncentrációs táborok foglyainak alkarjára tetovált ötjegyű számok megfeleltek az IBM Hollerith-féle lyukkártyaszámainak; az adatfeldol gozás elősegítette az ipari léptékű gyilkolás megszervezését.6 Óriási rutinja ellenére a Stasi rengeteg dologra nem volt képes. Nem is merhette az összes ember mindenkori mozgásának irányát, nem tudhatta, mikor kivel beszéltek; ehhez még az egyénileg megfigyelt személyek ese tében is rendkívüli erőfeszítésekre volt szükség. Ma ennek az informá ciónak a java részét a mobilszolgáltatók gyűjtik össze. A keletnémet állam nem tudta megjósolni, kik lesznek másként gondolkodók - be kell valla nunk, mi sem -, de a rendőrség már kezd olyan algoritmikai modelleket használni, melyek segítségével eldönthetik, hol és mikor járőrözzenek, ami egész jól jelzi, mit várhatunk a jövőben. Ezek az irányzatok azt mutat ják, hogy a big data nem kevés kockázatot rejt - pontosan annyit, mint az adatállományok általában.
A m agánélet megbénítása Nagy a kísértés, hogy összefüggést lássunk a magánéletre leselkedő veszé lyek és a digitális adatok növekedése közt, és párhuzamot vonjunk Orwell 1984 című, a totális megfigyelésről szóló antiutópiájával. A helyzet azonban ennél összetettebb. Kezdjük azzal, hogy nem minden big data tartalmaz személyes adatokat. Az olajfinomítókban elhelyezett érzékelők adatai, az üzemcsarnokok berendezéseiből származó adatok, a kábelakna-robbaná sok adatai és a repülőtéri időjárási adatok sem személyesek. A BP-nek és a Con Edisonnak nincs szüksége személyes adatokra, hogy hozzájusson az elemzéseiben rejlő értékhez. Az ilyen jellegű információk big data analízi sei gyakorlatilag semmilyen kockázatot nem jelentenek a magánéletünkre nézve. A manapság keletkező adatok jó része azonban személyes információkat is tartalmaz. A vállalatok pedig rengeteg okot találhatnak rá, hogy még többet szerezzenek be belőlük, még tovább őrizgessék őket, és a lehető leg nagyobb részüket újra meg újra hasznosítsák. Egyes adatok nem is tűnnek
KOCKÁZATOK
169
személyes információnak, a big data folyamatok révén azonban könnye dén vissza lehet vezetni, kire vonatkoznak, vagy következtetéseket lehet levonni belőlük az illető magánéletének részleteiről. Az egyesült államokbeli és az európai áramszolgáltatók például egyre gyakrabban használnak okos fogyasztásmérőket, amelyek a nap 24 órájá ban gyűjtik az adatokat, körülbelül 6 másodperces gyakorisággal.7Ezt az adatmennyiséget össze sem lehet hasonlítani a hagyományos mérőórák által rögzített, csupán a teljes fogyasztásra kiterjedő információkkal. Fon tos, hogy az elektromosáram-fogyasztás módja egyfajta - kizárólag az adott eszközre jellemző - „terhelési névjegyet" hoz létre. A vízmelegítő terhelési névjegye tehát különbözik a számítógépétől, ugyanúgy, mint a marihuána növekedését serkentő lámpáétól. így aztán a háztartás energiafogyasztásának megfigyelése magánjellegű információkat szolgáltat a lakók egész napos tevékenységéről, egészségi állapotáról és esetleges ille gális cselekedeteiről. A fontos kérdés ugyanakkor nem az, hogy a big data növeli-e a magán életet fenyegető veszélyeket (egyébként igen), hanem az, hogy megvál toztatja-e a kockázat jellegét. Ha a fenyegetés egyszerűen csak nagyobb, akkor a magánéletet védő törvények és szabályok a big data korszakban is tovább működhetnek, ha fokozzuk az e téren tett eddigi erőfeszítéseinket. Ha azonban a probléma jellege változik meg, akkor új megoldásokra lesz szükségünk. Sajnos a probléma átalakult. A big data korában az információ értéke már nem csak az elsődleges céljához kötődik. Mint már említettük, napjainkban egyre inkább az adatok másodlagos felhasználása válik fontossá. E változás aláássa a magánszemélyek központi szerepét, amelyet az adatvédelmi törvények garantáltak számukra. Manapság az adatgyűjtés előtt közlik velük, hogy milyen információt gyűjtenek, és milyen célból, ezt követően pedig beleegyezésüket kérik, hogy az információgyűjtés megkezdődhessen. Ahogy arról Fred Cate, az Indianai Egyetem adatvédel mi szakértője beszámolt, a „nyilatkozat és hozzájárulás" koncepciója nem az egyedüli módja a személyes adatok jogszerű gyűjtésének és feldolgo zásának, mégis ez vált világszerte elfogadottá.8 (A gyakorlatban pedig ez vezetett a szinte soha el nem olvasott - pláne meg nem értett - végtelen hosszúságú adatvédelmi nyilatkozatok megalkotásához; de ez már egy másik történet.)
170
BIG D AT A
Feltűnő, hogy a big data korában az adatok összegyűjtésekor még fogalmunk sincs az innovatív, másodlagos hasznosításukról. Hogyan te hetnének nyilatkozatot a vállalatok egy olyan célról, amely még nem is létezik? Hogyan tudnák a magánszemélyek jóváhagyásukat adni az isme retlenhez? Jóváhagyás hiányában viszont a személyes információkat tar talmazó big data elemzőitől meg lehetne követelni, hogy keressenek fel újra minden egyes személyt, és minden egyes újabb hasznosításhoz kérjék a beleegyezésüket. El tudjuk képzelni a Google-t, amint megpróbál kap csolatba lépni több százmillió felhasználóval, hogy beleegyezésüket kérje régi kereséseik felhasználására az influenza terjedésének előrejelzéséhez? Nincs az a cég, amely vállalná ennek a költségeit, még akkor sem, ha techni kailag megvalósítható lenne. Az az alternatíva sem jó megoldás, hogy már az adatgyűjtéskor kérjék a felhasználók beleegyezését adataik bármely lehetséges jövőbeli felhaszná lásához. Egy ilyen, mindenre kiterjedő engedély épp a lényegétől fosztaná meg az előzetes tájékoztatáson alapuló hozzájárulás fogalmát. A big data korában a nyilatkozat és hozzájárulás kipróbált és megbízható módszere gyakran vagy túlzottan korlátozza az adatok látens értékének feltárását, vagy túl semmitmondó ahhoz, hogy védje a magánszemélyek magánélet hez fűződő jogát. Más próbálkozások sem voltak túl sikeresek. Ha egy adatkészlet minden ki adatait tartalmazza, akkor annak is nyoma maradhat, ha valaki úgy dönt, hogy ki akar maradni. Vegyük a Google Street View példáját! Autói számos országban gyűjtötték be az utak és a házak képeit. Németország ban a Google-nak a közvélemény és a média általános tiltakozásával kellett szembenéznie. Az emberek attól féltek, hogy otthonaik és kertjeik képe megmutatja a bűnözőknek, hová érdemes betörniük. A helyi szabályozás nyomásának engedve a Google beleegyezett, hogy akik kérik, kimaradhas sanak az adatgyűjtésből, és házaik csak elmosódottan jelenjenek meg a képen. Mindez azonban jól látható: az elhomályosított házak kivehetők, ami a betörők számára azt jelentheti, hogy különösen jó célpontok. Sok esetben a magánélet védelmének technikai megközelítése - az ada tok anonimmá tétele - sem hatékony. A névtelenség ez esetben azt jelenti, hogy egy adatkészletből törlik az összes személyi azonosítót, például a nevet, a címet, a hitelkártyaszámot, a születési időt és a társadalombizto-
KOCKÁZATOK
171
sítási azonosító számot. Az adatok ezt követően már elemezhetők és meg oszthatók, anélkül hogy bárki magánéletét veszélyeztetnék. A small data világában mindez jól működik. Az információk mennyiségének és sokfélex ségének növekedésével azonban a big data lehetővé teszi az ismételt azo nosíthatóságot. Gondoljunk csak a látszólag azonosíthatatlan internetes keresésekre és filmekről mondott véleményekre! 2006 augusztusában az AOL irdatlan mennyiségű régi keresési kifeje zést hozott nyilvánosságra, azzal a (mellesleg jóakaratú) szándékkal, hogy a kutatók elemezhessék őket, érdekességek után kutatva. Az adat készlet 657 ezer felhasználó 2006. március 1. és május 31. közötti, 20 millió kereséséből állt, gondos munkával anonimmá tették. A személyes adatokat - például a felhasználók nevét és IP-címét - kitörölték, és egyedi nume rikus azonosítóval helyettesítették. Az elgondolás az volt, hogy a kutatók így összekapcsolhatják ugyanannak a személynek a kereséseit, anélkül hogy be tudnák azonosítani az illetőt. A New York Timesnak ennek ellenére - olyan keresések alapján, mint „60 éves egyedülálló férfi", „tea a jó egészségért" és „tájépítész a georgiai Lilburnben" - napokon belül sikerült kiderítenie, hogy a 4417749-es azonosítóval rendelkező felhasználó nem más, mint Thelma Arnold, egy 62 esztendős özvegyasszony a Georgia állambeli Lilburnből. „Te jó ég, itt a teljes magánéletem! - kiáltott fel, mikor a lap újságírója bekopogott az ajtaján. - Fogalmam sem volt róla, hogy miközben a gépnél ülök, valaki folyamatosan ott áll a hátam mögött, és lesi, mit csinálok."9Az esetet kísérő közfelháborodás miatt az AOL műszaki igazgatóját és két másik alkalma zottját elbocsátották. Alig két hónappal később, 2006 októberében a Netflix filmkölcsönző szolgáltató valami hasonló dolgot tett a „Netflix-díj" meghirdetésével. A vállalat közel félmillió felhasználója 100 millió kölcsönzési adatát tette közzé, és egymillió dolláros pénzjutalmat ajánlott annak a csapatnak, amely képes legalább 10%-kai javítani filmajánló rendszerének teljesít ményén. A személyi azonosítókat ezúttal is gondosan eltávolították. És ugyanaz történt, mint az előző esetben: megint sikerült azonosítani egy felhasználót. Az illető egy leszbikus hajlamát titkoló anya volt az Egyesült Államok konzervatív középnyugati részéről, aki aztán Jane Doe álnéven be is perelte a Netflixet.
172
BIG D AT A
Az austini Texasi Egyetem kutatói összevetették a Netflix adatait más nyilvános adatokkal. Hamar észrevették, hogy az egyik anonim felhasz náló értékelései megegyeztek az Internet Movie Database (IMDb) filmes adatbázis honlapjának egyik névvel szereplő munkatársa értékeléseivel. A kutatás azt is bebizonyította, hogy mindössze 6 alig ismert film (a top 500-ból) értékelésének segítségével az esetek 84%-ában be lehet azono sítani egy Netflix-felhasználót. Ha pedig az értékelés dátumát is ismernék, akkor az adatkészlet közel félmillió felhasználója közül 99%-os pontosság gal lehetne meghatározni a felhasználó kilétét.10 Az AOL esetében a felhasználók azonosságát a kereséseik tartalma fedte fel, a Netflixében pedig az adataik összevetése más forrásokkal. A vállala tok egyik esetben sem mérték fel, milyen mértékben segíti elő a big data az anonimmá tett személyek beazonosítását. Ez két dolog miatt sikerülhet: több adatot szerzünk be, és több adatot kombinálunk egymással. Paul Ohm, a boulderi Coloradói Egyetem jogászprofesszora, az a n o n im személyek beazonosításával okozott károk szakértője szerint nincs egy szerű megoldás a problémára. Ha elegendő adat létezik, akkor senkit sem lehet tökéletesen anonimmá tenni, bármennyire törekszünk is rá.11 Még rosszabb hír, hogy a kutatók nemrégiben feltárták: nemcsak a hagyomá nyos adatokból könnyű bizonyos személyek nyomára bukkanni, hanem a közösségi gráf - azaz az emberek kapcsolatrendszere - alapján is.12 A big data korszakban a magánélet védelmének három régi alapvető eszköze - az egyedi nyilatkozat és hozzájárulás, a kívülmaradás és az ano nimmá tétel - már nem nagyon működik. Egyre több felhasználó érzi azt, hogy megsértik a magánéletét. Mi lesz majd akkor, ha a big data alkal mazása még általánosabban elterjed? A negyedszázaddal ezelőtti kelet-németországi helyzettel összehason lítva a megfigyelés könnyebb, olcsóbb és hatékonyabb lett. Mindennap használt eszközeink, a weboldalaktól kezdve az okostelefon-alkalmazásokig, már gond nélkül meg tudják kaparintani személyes adatainkat. A legtöbb mai autóban megtalálható adatrögzítők például, amelyek a lég zsák felfúvódása előtt pár másodperccel megörökítik a jármű működését, bírósági viták esetén „tanúskodnak" a karambol körülményeiről.13 Amikor a vállalatok a profitjuk növelése érdekében adatokat gyűjtenek, természetesen nem kell attól tartanunk, hogy megfigyelésük ugyanolyan következményekkel járhat, mintha a Stasi hallgatna le minket. Nem csuk
KOCKÁZATOK
173
nak börtönbe, ha az Amazon rájön, hogy imádjuk Mao elnök „vörös köny vecskéjét" olvasgatni. A Google sem küld minket száműzetésbe azért, mert rákerestünk a „Bing"-re. Bármennyire hatalmas is egy-egy vállalat, nem rendelkezik az állam kényszerítő hatalmával. Bár a különféle cégek nem hurcolnak el bennünket az éjszaka közepén, ettől függetlenül életünk minden részletéről személyes információk töme gét halmozzák fel, osztják meg, és használják olyan célokra, amelyeket szinte elképzelni sem tudunk. Nem a magánszektor az egyetlen, amely az erejét fitogtatja a big datával: a kormányok ugyanezt teszik. A Washington Post 2010-ben végzett vizsgá lata szerint az Egyesült Államok Nemzetbiztonsági Ügynöksége (U.S. National Security Agency, NSA) naponta 1,7 milliárd emailt, telefonhívást és egyéb kommunikációt fog be, illetve hallgat le és tárol.14William Binney, az NSA korábbi alkalmazottjának becslése szerint a kormány 20 billió tranzakciót gyűjtött be az amerikai és más államok polgárai kö zötti kommunikációkból - ki kinek telefonál, ki kinek emailezik, ki kinek küld pénzt stb.15 E rengeteg adat értelmezésére az Egyesült Államok gigantikus adatköz pontokat épít, mint amilyen az 1,2 milliárd dollárból kialakított NSA-létesítmény a Utah állambeli Fort Williamsben. És nemcsak a titkosszolgálatok veszik ki részüket a terrorizmus elleni harcból; a kormányzat valamennyi része több információt követel a korábbiaknál. Amikor az adatgyűjtés már olyan információkra is kiterjed, mint a pénzügyi tranzakciók, az egészségügyi adatok és a Facebook-állapotfrissítések, ez az adathalom elképzelhe tetlenül nagyra nő. A kormány képtelen mindezt feldolgozni - de akkor minek gyűjti? A válasz a megfigyelések változásaival van összefüggésben. Ha a múlt ban a nyomozók a lehető legtöbbet akartak megtudni valakiről, krokodil csipeszeket helyeztek a telefonvonalakra. Az volt a fontos, hogy alaposan megismerjék az illetőt. Ma más a megközelítés. A Google és a Facebook sugallatára úgy gondoljuk, hogy az embereket leginkább közösségi-tár sadalmi kapcsolataik, online interakcióik és a tartalmakhoz fűződő vi szonyuk összessége jellemzi. Ahhoz, hogy az elemzők teljes körűen át vizsgáljanak valakit, a vele kapcsolatos adatok lehető legszélesebb körét kell megnézniük - nemcsak azt, hogy kit ismer, hanem azt is, hogy az
174
BIG DATA
ismerősei kiket ismernek, és így tovább. A múltban ezt technikailag nagyon nehéz volt kivitelezni, ma azonban könnyű.16És mivel a kormány sohasem tudhatja, kit akar majd a jövőben tüzetesebben megvizsgálni, nem azért gyűjti és tárolja az információkat, illetve biztosít hozzáférést hozzájuk, hogy mindenkit állandóan nyomon kövessen, hanem azért, hogy ha valaki gyanússá válik, azonnal megvizsgálhassák, ne kelljen az információgyűjtést a nulláról kezdeni. Nem az Egyesült Államoké az egyetlen kormány, amely információhegyeket halmoz fel az emberekről, és talán nem is az ő gyakorlata a legkirívóbb. Mindazonáltal a big datával kapcsolatban felvetődik egy új probléma is, amely legalább annyira aggasztó lehet, mint az, hogy üzleti és kormányzati körök személyes információkat gyűjthetnek rólunk: még pedig az, hogy az előrejelzéseket a megítélésünkre használhatják fel.
Valószínűség és büntetés John Anderton egy washingtoni különleges rendőri egység vezetője. Egyik reggel beront egy elővárosi házba, csak pár pillanattal az előtt, hogy Howard Marks őrjöngve beledöfne egy ollót a feleségébe, akit egy másik férfival talált az ágyban. Anderton számára ez ugyanolyan nap, mint a többi: súlyos bűncselekményeket igyekszik megelőzni. „A Columbia Kerü let Bűnmegelőzési Osztaga nevében letartóztatom Sarah Marks jövőbeli meggyilkolása miatt, amelyre a mai nap került volna sor!" - kiáltja. Egy másik rendőr közben lefogja Marksot, aki kétségbeesetten kiabál: „Én nem is csináltam semmit!"17 A Különvélemény (Minority Report) című film nyitójelenete egy olyan társadalmat mutat be, ahol az előrejelzések annyira csalhatatlanok, hogy a rendőrség már az előtt letartóztatja a delikvenseket, mielőtt a bűncselek ményt elkövették volna. Az embereket nem azért börtönzik be, mert va lamit tettek, hanem azért, amit előreláthatóan tennének, még ha végül nem is követik el a bűncselekményt. A filmben ez a jövőbe látó, megelőző rendfenntartási gyakorlat három látnoki képességgel rendelkező lény vízióin alapul, nem pedig adatelemzéseken. A Különvélemény nyugtalanító jövőképe ugyanakkor megegyezik azzal, amivel az akadálytalanul végzett
KOCKÁZATOK
175
big data elemzések fenyegetnek: a személy büntethetősége azon múlik, milyennek jelzik jövőbeli viselkedését. E törekvés csíráit már ma is felfedezhetjük. A feltételes szabadlábra he lyezésről döntő bizottságok az Egyesült Államok tagállamainak több mint 50%-ában adatelemzéseken alapuló előrejelzéseket is figyelembe vesznek, mikor arról döntenek, kiengedjenek-e valakit a börtönből, vagy tartsák még fogva. Az Egyesült Államok egyre több helyén - a Los Angeles-i rendőrségi körzetektől kezdve olyan városi körzetekig, mint a Virginia állambeli Richmond - alkalmazzák a „prediktív rendfenntartást": big data elemzések segítségével választják ki, hogy mely csoportokat és személye ket kell kiemelt ellenőrzés alá vonni, egyszerűen azon az alapon, hogy egy algoritmus szerint iiagyobb valószínűséggel követnek majd el bűncselekményeket.18 A Tennessee állambeli Memphis városában egy Blue CRUSH (Crime Reduction Utilizing Statistical History, a bűnesetek számának csökken tése múltbeli statisztikák segítségével) nevű program a rendőrök számára meglehetősen pontosan kijelöli, hogy mire kell figyelniük a helyszín (né hány háztömb) és az időszak (néhány óra a hét meghatározott napján) tekintetében. A rendszer állítólag segíti őket abban, hogy jobban kihasz nálják szűkös erőforrásaikat. Egy felmérés szerint a program 2006-os in dulása óta a tulajdon elleni súlyos bűncselekmények és az erőszakos bűncselekmények a negyedével csökkentek (bár természetesen egy szót nem szól ok-okozati kapcsolatról; semmi sem jelzi, hogy a csökkenés a Blue CRUSH-nak lett volna köszönhető). A virginiai Richmondban a rendőrség összefüggésbe hozza a bűnelkö vetéssel kapcsolatos adatokat néhány más információval, például azzal, hogy a város nagyvállalatainál mikor van fizetésnap, vagy mikor tartanak koncerteket, sporteseményeket. E gyakorlat megerősítette, néhány pon ton pedig finomította a rendőrök feltevéseit a bűnözési tendenciákról. A richmondi rendőrség például régóta tudta, hogy a fegyverkiállításokat követően megugrik az erőszakos bűnesetek száma; a big data elemzés igazolta ezt, egy apró kiigazítással: az ugrás nem közvetlenül az esemény után, hanem két héttel később következik be. Az említett rendszerek előrejelzésekkel próbálják megelőzni a bűncselek ményeket, végső soron a potenciális elkövetők szintjéig. Ez a big data új felhasználási célját jelzi: a bűncselekmények elkövetésének megelőzését.
176
BIG DATA
Az Egyesült Államok Belbiztonsági Minisztériumának (U.S. Depart ment of Homeland Security, DHS) égisze alatt futó FÁST (Future Attribute Screening Technology, jövőbeli tulajdonságok kiszűrési technológiája) ku tatási projekt úgy próbálja azonosítani a potenciális terroristákat, hogy nyomon követi egyes személyek életfunkcióit, testbeszédét és egyéb élet tani jellegzetességeit. Az elképzelés az, hogy az emberek viselkedésének megfigyelése kimutathatja ártó szándékukat.19 A DHS szerint a teszték során a rendszer 70%-os pontossággal működött. (Nem világos, hogy ez mit jelent; a kísérletek alanyai vajon azt az instrukciót kapták, hogy csinálja nak úgy, mintha terroristák lennének, hogy kiderüljön, vajon kiszúrják-e „gonosz szándékaikat"?) Bár ezek a rendszerek még elég kezdetlegesnek tűnnek, a lényeg az, hogy a rendfenntartó erők nagyon komolyan veszik a jelentőségüket. Csábító gondolatnak tűnik, hogy akadályozzuk meg a bűncselekmények bekövetkeztét. Hát nem sokkal jobb megelőzni egy törvénysértést, mint utó lag megbüntetni az elkövetőket? Hiszen a bűntettek megelőzése nemcsak az esetleges áldozatok számára kedvező, de a társadalom egészének is... Ez az út azonban veszélyes.20 Ha a big data segítségével meg tudnánk jósolni, ki követhet el bűncselekményt a jövőben, talán nem elégednénk meg azzal, hogy megakadályozzuk a bűntettet; valószínűleg meg is akar nánk büntetni a potenciális elkövetőt. Mindez így logikus, hiszen ha csak közbelépünk, akkor az illető később újra próbálkozhat. Ezzel szemben, ha a big data alkalmazása révén felelőssé tesszük a (jövőbeli) cselekedeteiért, elrettenthetjük őt is és másokat is. Az előrejelzésen alapuló büntetés előrelépésnek tűnik a hagyomá nyos gyakorlathoz képest. Az egészségtelen, veszélyes vagy kockázatos viselkedés megelőzése a modern társadalom alapja. Megnehezítettük a dohányzást, hogy megelőzzük a tüdőrákot; megköveteljük a biztonsági övék használatát, hogy megakadályozzuk a halálos autóbaleseteket; nem engedjük, hogy az utasok fegyverrel szálljanak fel a repülőgépekre, hogy elkerüljük a repülőgép-eltérítéseket. Az ilyen intézkedések korlátozzák ugyan a szabadságunkat, de sokak szerint mindez méltányos ár azért, hogy elejét vegyük a súlyosabb gondoknak. Számos összefüggésben alkalmazzák már az adatelemzést probléma megelőzés címén. Használják arra, hogy a hozzánk hasonlókkal egy kalap alá vegyenek bennünket, és aztán gyakran ez alapján jellemeznek minket.
KOCKÁZATOK
177
Biztosításmatematikai táblázatok szerint az 50 év fölötti férfiak hajlamosak a prosztatarákra, így az e csoportba tartozók többet fizethetnek az egészségbiztosításért, még akkor is, ha soha nem lesz prosztatarákjuk. A jól tanuló középiskolások csoportja kisebb valószínűséggel szenved autóbalesetet, így hát egyes, kevésbé jól tanuló társaiknak magasabb biztosítási díjat kell fizetniük/1Meghatározott tulajdonságokkal rendelkező személyeket a repülőtéri biztonsági kapuknál alaposabb ellenőrzéseknek vetnek alá. Napjaink small data világának „profilalkotása" mögött a következő elképzelés húzódik meg: találjunk az adatokban valamilyen közös jellem zőt, határozzuk meg, hogy ez az emberek mely csoportjára vonatkozik, majd vizsgáljuk meg ezeket az embereket még tüzetesebben! Ez az általáno sításon alapuló szabály a csoport minden tagjára érvényes. A profilalkotás természetesen súlyos szó, a módszernek pedig komoly hátulütői vannak. Ha visszaélnek vele, az nemcsak diszkriminációhoz vezet bizonyos em bercsoportokkal szemben, hanem a társítás következményeként egyúttal a bűnösségüket is feltételezi.22 A big data emberekre vonatkozó előrejelzései másmilyenek. Míg a vi selkedés mai előrejelzései (például a biztosítási díjak vagy a hitelbírálati minősítések esetében) rendszerint féltucatnyi olyan tényezőre épülnek, melyek a szóban forgó téma egy elméleti modelljén alapulnak (vagyis korábbi egészségi problémákon vagy múltbeli hiteltörlesztéseken), ad dig a big data nem kauzális elemzései egyszerűen csak azonosítják a leg megfelelőbb előjeleket az információk tengeréből. A legfontosabb, hogy a big data használatától azt reméljük, csoportok helyett inkább egyéneket sikerül azonosítanunk; ezzel megszabadulunk a profilalkotás ama hiányosságától, hogy minden megjövendölt gyanúsí tottat a társítás következményeként egyúttal bűnösnek is feltételezünk. A big data világában egy arab nevű személyt, aki készpénzért vásárolt egyirányú, első osztályra szóló repülőjegyet, többé nem vetnek alá másod lagos ellenőrzésnek a repülőtéren, ha többi egyedi adata valószínűtlenné teszi, hogy terrorista lenne. A big datával megszabadulhatunk a csoport jegyek kényszerzubbonyától, és az egyénekre vonatkozó sokkal apróléko sabb előrejelzésekkel válthatjuk fel. A big data azt ígéri, hogy ugyanazt tesszük, mint eddig - profilalkotást végzünk-, de jobban, kevésbé diszkriminatív módon, és személyre szabottabban végezzük. Ez elfogadhatónak is tűnik abban az esetben, ha csupán
178
BIG D AT A
az a célunk, hogy megelőzzük a nemkívánatos dolgok bekövetkezését. Mindez azonban nagyon veszélyessé válik, ha a big data előrejelzéseket arra használjuk, hogy eldöntsük, bűnös-e valaki, és meg kell-e büntetni egy olyan tettéért, melyet még el sem követett. A hajlamon alapuló büntetésnek már az elképzelése is visszataszító. Az, hogy valakit megvádoljunk valószínűsíthető jövőbeli tettéért, ellent mond az igazságszolgáltatás alapjának: annak, hogy az embernek végre kell hajtania valamit ahhoz, hogy felelősséggel tartozzon érte. Végül is csúnya dolgokra gondolni nem büntetendő, de az már igen, ha végre is hajtjuk őket. Társadalmunk egyik alapelve, hogy a személyes felelősséget az egyén választáson alapuló cselekedetéhez köti. Ha valakit fegyverrel kényszerítenek, hogy nyissa ki a vállalat széfjét, az illetőnek nincs más választása, tehát nem vonható miatta felelősségre. Ha a big data előrejelzések pontosak lennének, és az algoritmusok két séget kizáró precizitással írnák le a jövőnket, többé nem lennénk képesek dönteni a cselekedeteinkről. Pontosan úgy viselkednénk, ahogy megjósol ják. Ha a tökéletes előrejelzések lehetősége valóra válna, az megtagadná tőlünk a szabad akaratot; azt a képességünket, hogy szabadon élhessük az életünket. Emellett, ironikus módon, a választási lehetőség hiánya a felelősség alól is felmentene bennünket. Tökéletes előrejelzéseket természetesen lehetetlen készíteni. A big data elemzés inkább azt mondhatja majd meg, hogy egy konkrét személy bi zonyos jövőbeli magatartásának milyen nagy a valószínűsége. Lássunk egy kutatást, amelyet Richard Berk, a Pennsylvania Egyetem statisztikaés kriminológiaprofesszora vezetett! Berk azt állítja, módszerével előre le het jelezni, hogy egy feltételesen szabadlábra helyezett személy részese lesz-e gyilkosságnak (akár tettesként, akár áldozatként). Elemzéséhez sok esetspecifikus változót használ, például a bebörtönzés okát és az első bűncselekmény elkövetésének idejét, ezek mellett demográfiai adatokat is be visz, egyebek közt a nemet és az életkort. Berk azt állítja, hogy a feltételesen szabadon engedettek körében legalább 75% -os valószínűséggel képes előre jelezni a gyilkosságot.23Ez nem rossz. Ugyanakkor azt is jelenti, hogy ha a feltételes szabadlábra helyezésről döntő bizottságok Berk elemzésére támasz kodnának, meglehetősen gyakran tévednének: minden negyedik esetben. Amennyiben ilyen előrejelzésekre hagyatkozunk, azzal alapvetően nem az probléma, hogy kockázatot jelent a társadalom számára. A lényegi gond
KOCKÁZATOK
179
az, hogy az előtt büntetünk embereket, mielőtt még bármi rosszat tettek volna. És ha a cselekedetük előtt közbeavatkozunk (például megtagad juk tőlük a feltételes szabadlábra helyezést, mert az előrejelzések szerint valószínűleg gyilkosságot követnek el), soha nem tudhatjuk meg, vajon tényleg végrehajtanák-e a megjósolt bűncselekményt. Nem engedjük meg, hogy a sors beteljesedjen, mégis felelősnek tartjuk az egyént azért, amit az előrejelzés szerint elkövetett volna. Az ilyen előrejelzéseket soha nem lehet megcáfolni. Ez ellentmond az ártatlanság vélelmének, annak az alapelvnek, ame lyen az egész jogrendszerünk, valamint az igazságérzetünk alapul. És ha felelőssé teszünk embereket a megjósolt tetteikért, amelyeket talán soha nem követnének el, voltaképpen tagadjuk, hogy az ember képes a morális választásra. A lényeg itt nem a rendfenntartással függ össze. A veszély túlmutat az igazságszolgáltatás körén; a társadalom valamennyi területére, az em ber megítélésének minden olyan esetére kiterjed, amikor a big data előre jelzéseket annak eldöntésére használják, hogy az embereket lehet-e hibáz tatni jövőbeli tetteikért, vagy sem. Bármivel kapcsolatban felvetődhet, egy munkahelyi elbocsátástól kezdve egy válókereset benyújtásáig, vagy ad dig, hogy egy orvos megtagadja-e az ellátást egy betegtől. Lehet, hogy egy ilyen rendszeren alapuló társadalom biztonságosabb vagy hatékonyabb lenne, ugyanakkor megsemmisülne az egyik lényeges dolog, ami emberré tesz bennünket: az, hogy megválaszthatjuk tettein ket, amelyekért felelősséggel tartozunk. A big data az emberi választás kollektivizálásának eszközévé válna, ami a társadalmunkban érvényesülő szabad akarat feladását jelentené. A big data természetesen számtalan előnnyel jár. Az elembertelenítés eszközévé egy hiányosság teheti, amely nem magának a big datának, ha nem azoknak a módozatoknak a hiányossága, ahogyan a big data előre jelzéseit használjuk. Az a bökkenő, hogy amikor megjósolt, de végül el nem követett tettekért bűnösnek bélyegeznek embereket, korrelációra épülő big data előrejelzéseket használnak az egyéni felelősségről szóló oksági döntések meghozatalához. A big data hasznunkra lehet, hogy megérthessük a jelenlegi és a jövőbeli kockázatokat, és tetteinket ennek megfelelően igazítsuk ki. Előrejelzései segítséget nyújtanak a betegeknek és a biztosítóknak, a hitelezőknek és
18 0
BIG DATA
a fogyasztóknak. A big data azonban semmit nem árul el a kauzalitásról. Ezzel szemben a „bűnössé" nyilvánítás feltétele, hogy az emberek, akik re alkalmazzák, az adott tett elkövetése mellett döntsenek. Elhatározá saiknak a tetteikkel kapcsolatos ok-okozati döntéseknek kellene lenniük. Pontosan azért, mert a big data korrelációkon alapul, alkalmatlan rá, hogy segítsen az oksági kapcsolatok megítélésében, és így bármifajta egyéni bűnösség megállapításában. Az a gond, hogy az emberek hajlamosak a világot a kauzalitás optikáján keresztül szemlélni. A big datát emiatt állandóan az a veszély fenyegeti, hogy helytelenül ok-okozati kapcsolatok feltárására próbálják használni, és olyan elképzeléseket kötnek hozzá, mint például, hogy sokkal hatéko nyabban tudnának dönteni valakinek a bűnösségéről big data előrejelzé sekkel felvértezve. Roppant csúszós és meredek ez a lejtő, az alján pedig az a társadalom van, melyet a Különvélemény oly érzékletesen ábrázolt: egy olyan világ, ahol az egyéni döntéseket és a szabad akaratot felszámolták, az egyének morális iránytűjét az előrejelzések algoritmusai váltották fel, és az emberek ki vannak szolgáltatva a kollektív felhatalmazás korlátlan támadásának. Ha így alkalmazzák, a big data a valószínűségek börtönébe zárhat min ket - esetleg a szó szoros értelmében börtönbe juttathat.
Az adatok diktatúrája A big data aláássa a magánéletet, és veszélyezteti a szabadságot. Mindezek mellett egy nagyon régi problémát is tovább mélyít: azt, amikor a csalhatat lannak hitt, de valójában nagyon is bizonytalan számokra támaszkodunk. A félresikerült adatelemzések következményeit semmi sem példázza job ban, mint Róbert McNamara története. McNamarát akkor nevezték ki az Amerikai Egyesült Államok védelmi miniszterének, amikor az 1960-as évek elején Vietnamban kiéleződött a feszültség. McNamara a számok embere volt, ragaszkodott hozzá, hogy mindenről kapjon adatokat, amiről csak lehetett. Meggyőződése volt, hogy a döntéshozók csakis a statisztika szigorának alkalmazásával képe sek megérteni az összetett helyzeteket, és csupán így tudnak helyes dönté
KOCKÁZATOK
181
seket hozni. Úgy gondolta, a világ rendezetlen információk tömegéből áll, melyeket ha megfelelően ábrázolunk, jelölünk, határolunk el és számszerűsítünk, az emberi kéz képes megzabolázni, az emberi akarat pedig a hatalmába keríteni.24 McNamara az igazságot kereste, az pedig az ada tokban rejtőzött. A neki küldött számok között szerepelt az ellenségnek okozott veszteség, a body count (az áldozatok száma) is. McNamara a Harvard Business School diákjaként szeretett bele a szá mokba - 24 éves korában egyébként iskolája legfiatalabb tanársegédjévé vált. Kérlelhetetlen precizitását a II. világháború idején a Pentagon egyik elit csapata, a „statisztikai ellenőrzés" tagjaként hasznosította. E néhány ember a világ egyik leghatalmasabb bürokráciájában meghonosította az adatvezérelt döntéshozatalt. A hadsereg korábban vakon működött; nem ismerték például a repülőgép-alkatrészek típusait, mennyiségét és he lyét. Az adatok azonban a segítségükre siettek. Pusztán azzal, hogy haté konyabbá tették a fegyverzet beszerzését, 1943-ban 3,6 milliárd dollárt spóroltak.25 A modern háború az erőforrások hatékony beosztásáról szól, ez a csapat pedig elképesztő sikereket ért el a munkájával. A háború végeztével a csoport úgy döntött, hogy együtt marad, és fel ajánlja tudását Amerika nagyvállalati szektorának. A Ford Motor Company szekere akkoriban nagyon rosszul ment; a kétségbeesett Henry Ford II úgy döntött, átadja nekik a gyeplőt. Ahogy semmit nem tudtak a hadseregről, amikor hozzásegítették a háború megnyeréséhez, ugyanúgy az autógyártásról sem volt fogalmuk. A „csodagyerekeknek" mégis sike rült fellendíteniük a vállalatot. McNamara gyorsan emelkedett a ranglétrán, nem létezett olyan hely zet, amelyben ne tudott volna előhúzni egy adatot a tarsolyából. Az el gyötört gyárigazgatók produkálták is szépen sorban a megkövetelt szám adatokat - akár helyesek voltak, akár nem. Amikor arra kaptak utasítást, hogy az egyik modellnél a teljes készletet fel kell használniuk egy új típus gyártásának megkezdése előtt, a feldühödött részlegvezetők egyszerűen belezúdították a fölösleges alkatrészeket egy közeli folyóba. A központban dolgozó fejesek helyeslőén bólogattak, amikor a művezetők visszaigazol ták: lenullázták a készletet. A gyárban azonban az a vicc járta, hogy a szaktársak akár a vízen is tudnának járni, ha akarnának - az 1950-es és 1951-es modellek rozsdásodó darabjainak tetején.
182
BIG DATA
McNamara a 20. század közepének hiperracionális menedzsertípusát testesítette meg, aki az érzelmekkel szemben a számokra támaszkodott, és kvantitatív készségeit bármely iparágban képes volt kamatoztatni. 1960-ban megválasztották a Ford elnökének, de e pozíciót csak néhány hétig töltötte be, mert Kennedy elnök kinevezte védelmi miniszternek.26 Ahogy a vietnami helyzet egyre súlyosabbá vált, és az Egyesült Álla mok egyre több csapatot küldött, nyilvánvaló lett, hogy ez a háború nem a területért zajlik, hanem az akaratok harca. Amerika stratégiája az volt, hogy addig lőjék a Vietkongot, amíg tárgyalóasztalhoz nem kényszerítik. Az előrehaladást ennélfogva a megölt ellenséges katonák számában mér ték. A body countot naponta közölték az újságok. A háború támogatóinak ez a siker, ellenzőinek pedig a háború erkölcstelenségének bizonyítéka volt. A body count olyan adatpont lett, amely meghatározott egy korszakot. 1977-ben, két évvel az után, hogy az utolsó helikopter is felemelkedett az Egyesült Államok saigoni nagykövetségének tetejéről, Douglas Kinnard nyugalmazott katonai tábornok publikálta korszakalkotó felmérését a tábornokok nézeteiről. A The War Managers27 (A háború menedzserei) című könyv feltárta a számszerűsítés ingoványát. Az amerikai tábornokok alig 2%-a tekintette a body countot a sikeresség megalapozott fokmérőjének. Körülbelül kétharmaduk állította, hogy a számokat gyakran felduzzasztották. „Merő kitaláció volt; abszolút semmit sem ért" - jelentette ki az egyik tábornok. „Gyakran arcátlan hazugság volt" - vélekedett egy másik. „Sok egységnél alaposan felnagyították ezt a számot, elsősorban azért, mert egyesek, mint például McNamara, hihetetlen érdeklődést tanúsítot tak iránta" - közölte egy harmadik. Akárcsak a Ford gyár munkatársai, akik a folyóba zúdították az alkat részeket, az alacsonyabb beosztású tisztek is időnként impozáns számokat adtak meg feletteseiknek, vagy azért, hogy betartsák a parancsaikat, vagy azért, hogy ezzel is elősegítsék saját karrierjüket - azt mondták tehát a fejeseknek, amit azok hallani akartak. McNamara és környezete aztán számokra támaszkodott, fetisizálva őket. Tökéletesen fésült hajával és hibátlanul megkötött nyakkendőjével McNamara úgy érezte, csak akkor tudja megérteni, mi történik a Földön, ha belemerül a táblázataiba, azokba a rendezett sorokba és oszlopokba, kalkulációkba és grafikonokba, ame lyek beható ismerete, úgy tűnt, képes közelebb vinni őt Istenhez - statisz tikailag is kimutatható módon.
KOCKÁZATOK
183
A vietnami háború idején az Egyesült Államok hadseregében történt (helytelen) adathasználat és az adatokkal való visszaélések aggasztó lec két nyújtottak az információk korlátairól a small data korszakában: olyan tanulságot jelentettek, amelyet manapság, amikor a világ a big data korszak irányába száguld, mindenkinek szem előtt kell tartania. A mögöttes adatok minősége ugyanis gyenge lehet. Megeshet, hogy az adatok részrehajlók. Elképzelhető, hogy rosszul elemezték vagy félrevezetőén használták őket. És ami még lesújtóbb: lehet, hogy az adatoknak nem sikerült megragad niuk azt, amit számszerűsíteniük kellett volna. Fogékonyabbak vagyunk az „adatok diktatúrájára", mint gondolnánk: sokszor hagyjuk, hogy az adatok irányítsanak bennünket, amivel néha ugyanannyi kárt okoznak, mint amennyi hasznot hajtanak. Az a veszély fenyeget, hogy akkor is ragaszkodunk egyes elemzéseink végeredmé nyéhez, amikor már alapos okunk van gyanítani, hogy valami nem stim mel. Vagy rögeszmésen és öncélúan gyűjtjük a tényeket és a számokat, csak azért, hogy meglegyenek. Vagy akkor is tulajdonítunk valami igazságot az adatoknak, amikor nem lenne érdemes. Ahogy az élet egyre nagyobb hányadát adatosítják, a politikacsinálók és az üzletemberek első lépésként általában még több adatot szereznék be. „Istenben bízunk* - a többit megmutatják az adatok"28- visszhangzik a modern menedzserek mantrája a Szilícium-völgy irodáiban, a gyárak üzemcsarnokaiban és a kormányzati hivatalok folyosóin mindenütt. Bár milyen józanul hangzik is, azért jobb, ha vigyázunk az adatokkal, mert igen könnyen becsaphatnak bennünket. Hanyatlana az oktatás? Erőltessük a teljesítménymérésben az egységes felméréseket, és büntessük azokat a tanárokat és iskolákat, akik és amelyek ezek alapján nem ütik meg a mértéket! Hogy aztán a tesztek valós képet adnak-e a tanulók képességeiről, a tanítás minőségéről vagy a kreatív és rugalmas modern munkaerő iránti igényről? Ezek olyan kérdések, ame lyekre az adatok nem felelnek. Meg akarjuk akadályozni a terrorizmust? Hozzunk létre különböző szintű megfigyelési és repüléstilalmi listákat, és így próbáljuk fenntartani
* Az Egyesült Államok jelenlegi nemzeti mottója. (A Ford.)
184
BIG D AT A
a rendet a légtérben! Hogy aztán az ilyen adatkészletek garantálják-e azt a védelmet, amelyet ígérnek, kétséges. Egy híres incidens alkalmával a néhai Ted Kennedy massachusettsi szenátor pórul járt a repüléstilalmi lista miatt: megállították és kihallgatták, egyszerűen azért, mert ugyanaz volt a neve, mint az adatbázisban szereplő egyik személynek.29 Azoknak, akik a munkájuk során adatokkal foglalkoznak, van egy kifeje zésük a hasonló problémákra: garbage in, garbage out, magyarán, ha szemét megy be, akkor szemét is jön ki, azaz hibás bemenő adat esetén a kimenő adatsor is hibás lesz. Bizonyos esetekben az alapinformációk minőségével van a probléma, bár az is gyakori, hogy az elkészítétt elemzést használják rossz célra. A big datával gyakrabban fordulnak elő ilyen problémák, vagy pedig a következményeik lesznek súlyosabbak. Ahogy sok példában bemutattuk már, a Google mindent adatok alapján működtet. E stratégiának nyilvánvalóan döntő része volt a cég sikereiben, időről időre azonban felforduláshoz vezet. Larry Page és Sergey Brin, a Google társalapítói régóta ragaszkodtak ahhoz, hogy megismerjék minden állásra jelentkező egyetemi felvételijének és tanulmányi átlagának eredmé nyét. Úgy vélték, az első szám az illető potenciálját, a második pedig a sike rességét tükrözi. Ezekért az információkért zaklatták a felvételi folyamat ban részt vevő, megállapodott, negyvenes menedzsereket, akik nemigen tudták ezt mire vélni. A vállalat még az után is sokáig megkövetelte e számokat, hogy a saját belső tanulmányai rámutattak: nincs korreláció a tanulmányi eredmények és a munkahelyi teljesítmény között. A Google jobban is ellenállhatna az adatok hamis varázsának. E mér cék kevés esélyt hagynak arra, hogy valaki változtasson az életén. Nem veszik figyelembe, hogy az akadémikus tudás nem minden. És talán nem teljesen tükrözik a jelöltek képzettségét a humán tudományok terén, ahol a szaktudás kevésbé számszerűsíthető, mint a természettudományok vagy a műszaki tudományok területén. A Google ragaszkodása az ilyen adatok HR-es felhasználásához még különösebb, ha figyelembe vesszük, hogy a vállalat alapítói Montessori-iskolákból kerültek ki, ahol a felkészültség mindig is fontosabb volt az érdemjegyeknél. Emellett a cég a múltbéli mű szaki óriásvállalatok hibáit ismétli, amelyek többre tartották az emberek önéletrajzát a valós képességeiknél. Vajon a PhD-képzésről lemorzsolódott Larrynek és Sergeynek lett volna esélye rá, hogy menedzser legyen a legen dás Bell Labsnél? A Google mércéje szerint a céghez sem Bili Gatest, sem
KOCKÁZATOK
185
Mark Zuckerberget, sem Steve Jobst nem vették volna fel, mert egyikük sem szerzett felsőfokú végzettséget.30 A vállalat időnként már túlzottan is támaszkodik az adatokra. Marissá Mayer, amikor még a Google egyik felső vezetője volt, egyszer kiadta munkatársainak, hogy teszteljék a kék szín 41 különböző árnyalatát. Arra volt kíváncsi, melyeket használják szívesebben az emberek, mert el akarta dönteni, hogy milyen színű legyen a weboldalon egy eszköztár.31A Google adatok iránti tiszteletének végletes megnyilvánulása volt ez, ami még láza dásra is pkot adott. 2009-ben a Google vezető formatervezője, Douglas Bowman hirte len haragjában felmondott a cégnél, mert már nem bírta elviselni, hogy mindig mindent számszerűsítenie kellett. „Nemrég volt egy vitám arról, vajon egy szegélynek 3,4 vagy 5 pixel szélességűnek kellene-e lennie, és arra kértek, bizonyítsam be, miért gondolom azt, amit gondolok. Hát én képtelen vagyok ilyen körülmények között dolgozni - írta a lemondását bejelentő blogbejegyzésében. - Amikor egy vállalat tele van mérnökök kel, a problémamegoldást mérnöki jellegű kérdésnek tekintik. Minden döntést egyszerű logikai problémává redukálnak. Egészen addig, míg végül az adatok jelentik a mankót minden döntésnél, megbénítva a válla lat működését."32 A zsenialitás nem az adatokon múlik. Lehet, hogy Steve Jobs az évek során a jelentések alapján fejlesztette folyamatosan a Mac laptopokat, de a megérzéseire, nem pedig adatokra támaszkodva dobta piacra az iPodot, az iPhone-t és az iPadet. Hatodik érzékére hagyatkozott. „Nem a fogyasztó feladata, hogy tudja, mit akar"33 - hangzottak híressé vált szavai, amikor egy újságíróval közölte, hogy az Apple nem végzett piackutatást, mielőtt kijött volna az iPaddel. Seeing Like a State34 (Az állam szemszögéből) című könyvében James Scott, a Yale Egyetem antropológusa dokumentálta azokat a módsze reket, amelyekkel a kormányok a számszerűsítés és az adatok fetisizálása révén végül megnyomorítják az emberek életét, ahelyett hogy jobbá ten nék. Térképek alapján határozzák meg, hogyan szervezzenek át közössé geket, ahelyett hogy a helyszínen szereznének ismereteket az emberekről. Terméseredményeket tartalmazó hosszú táblázatok böngészése után dön tenek a mezőgazdaság kollektivizálásáról, miközben halvány fogalmuk sincs a gazdálkodásról. Valamennyi, az emberek között az idők folyamán
186
BI G D A T A
kialakult tökéletlen, szerves és kölcsönös kapcsolatot a saját szükségle teikhez idomítanak, időnként pusztán a számszerűsíthetőség kedvéért. Scott szerint az adatok használata gyakran csak azt a célt szolgálja, hogy még nagyobb felhatalmazást adjon a hatalomnak. Ez kifejezetten az adatok diktatúrája. Hasonló túlkapás késztette az Egyesült Államokat a vietnami háborúba való beavatkozásra, részben a body count alapján, ahelyett hogy a döntéseket jóval alkalmasabb mutatók figyelembevételével hozták volna meg. „Sok igazság van abban, hogy nem lehet minden elképzelhető emberi szituációt egy grafikon vonalaiba, egy táblázat százalékpontjaiba vagy egy mérlegkimutatás számaiba sűríteni ismerte be McNamara egy 1967-ben elhangzott beszédében, amikor az országban már egyre nőtt a tiltakozás. - A valóság egésze azonban meg fejthető. És ha nem számszerűsítenénk mindazt, ami számszerűsíthető, az olyan lenne, mintha a teljes körű magyarázatnál kevesebbel is beérnénk."35 Bárcsak a megfelelő adatokat használták volna, a megfelelő módon, min denféle kozmetikázás nélkül! Róbert Strange McNamara az 1970-es években a Világbank irányításá val folytatta tevékenységét, majd az 1980-as években békepárti megnyil vánulásaival tűnt ki. A nukleáris fegyverek szókimondó kritikusává és a környezetvédelem szószólójává vált. In Retrospect36 (Visszatekintve) címmel megjelent visszaemlékezéseiben bírálta a háborúval kapcsola tos gondolkodásmódot és saját, védelmi miniszterként hozott döntéseit. „Tévedtünk, szörnyen nagyot tévedtünk" - írta. Ezzel a háború átfogó stratégiájára utalt. Az adatok kérdésével, konkrétan pedig a body counttal kapcsolatban viszont nem bánt meg semmit. Azt elismerte, hogy sok statisztika „félrevezető vagy hibás" volt. „De amit meg tudunk számolni, azt meg is kell számolnunk. A halálos áldozatok számontartása is ezek közé tartozik..." - írta. McNamara 2009-ben, 93 éves korában hunyt el. Nagy intellektus volt, ám nagy bölcsnek nem nevezhetnénk. A big data csábítása miatt mi is könnyen McNamara hibájába eshetünk: ha hagyjuk elhatalmasodni magunkon az adatmániát, és megszállottjai leszünk a hatalomnak és ígéreteinek, megfeledkezhetünk az adatok korlátairól. Ahhoz, hogy megtaláljuk a body count big data megfelelőjét, elég visszagondolnunk a Google Flu Trendsre. Képzeljük el azt a nem egészen valószínűtlen szituációt, hogy halálos influenzavírus tombol országszerte.
KOCKÁZATOK
187
Az egészségügyi szakemberek nagyon hálásak lennének, ha valaki valós idejű előrejelzést tudna adni a legveszélyeztetettebb területekről a keresé sek segítségével, mert akkor megtudhatnák, hol kell segíteniük. Most pedig képzeljük el, hogy a válsághelyzet közepette a politikai veze tők azt mondják, nem elég, ha tudják, hogy rosszabbra fordulhat a helyzet, és megpróbálják feltartóztatni a járványt. Egészségügyi zárlatot akarnak elrendelni - de nem az érintett régiók minden lakójára; az túl átfogó és szükségtelen intézkedés lenne. A big data megengedi, hogy konkrétabbak legyenek. Úgyhogy csak azokat vonják vesztegzár alá, akiknek a keresé sei a legmagasabb korrelációt mutatták a fertőzéssel. Az adatok elárulják, kiket kell megtalálni. A szövetségi ügynökök pedig, IP-címekkel és mobil GPS-információkkal felvértezve, karanténközpontokba terelik ezeket az embereket. Bármennyire ésszerűnek tűnhet is egyeseknek ez a forgatókönyv, egész egyszerűen rossz. A korreláció nem utal ok-okozati kapcsolatra. Ezek az emberek vagy elkapták az influenzát, vagy nem. Meg kellene őket vizsgál ni. Máskülönben egy előrejelzés foglyai lennének, de ami még fontosabb, az adatok egy olyan szemléletének esnének áldozatul, amely nem mutatja meg tisztán, mit jelentének a valóságban ezek az információk. A Google Flu Trends tanulmánynak az a lényege, hogy bizonyos keresési kifejezések korrelálnak a járvány terjedésével. Ez azonban nem feltétlenül jelenti azt, hogy maguk a keresést végzők betegek; az is állhat a háttérben, hogy valaki tüsszentett az irodában, ezért egészséges kollégái utánanéztek az interneten, miként előzhetnék meg, hogy ők is elkapják a betegséget.
A big data árnyoldala Mint láttuk, a big data lehetővé teszi az emberek életének alaposabb meg figyelését, miközben a magánélet védelmét szolgáló jogi eszközök közül többet is elavulttá tesz. Emellett megfosztja hatásosságától az anonimitás megőrzését szolgáló alapvető technikai módszert. Ugyanilyen nyugta lanító, hogy a big data egyénekre vonatkozó előrejelzéseit arra is fel lehet használni, hogy a hajlamaikért, ne pedig a tetteikért büntessék őket. Ez ellentmond a szabad akarat elvének, és aláássa az emberi méltóságot.
188
BIG DATA
Valós veszélye van annak is, hogy a big data előnyei egyeseket arra csá bítanak, hogy ott is alkalmazzák, ahol nem teljesen megfelelő, az elemzések eredményei pedig túlságosan magabiztossá tehetik őket. Ahogy a big data előrejelzések fejlődnek, használatuk még vonzóbbá válik: adatszenvedélyt alakít ki, hiszen az adatokkal annyi mindent lehet kezdeni! Ez a csapás érte McNamarát is, történetének pedig megszívlelendő a tanulsága. Védekeznünk kell az ellen, hogy túlságosan megbízzunk az adatokban, nehogy mi is elkövessük Ikarosz hibáját, akit annyira elbűvölt a repülés, hogy nem figyelt oda eléggé, és a tengerbe zuhant. A következő fejezetben megnézzük, miként tarthatjuk az adatokat ellenőrzésünk alatt, nehogy azok szerezzenek ellenőrzést felettünk.
9
KONTROLL Az i n f o r m á c i ó e l ő á l l í t á s i m ó d j á b a n és az interaktivitás terén történt vál tozások mind az életünket irányító szabályokat, mind a társadalom által védendő értékeket átalakítják. Vegyük például az adatok áradatát, amit a nyomdagép feltalálása indított el! Mielőtt Johannes Gutenberg 1450 körül felfedezte a mozgatható nyomó elemes könyvnyomtatást, nyugaton az eszmék nagyrészt személyes kap csolatokkal terjedtek. A könyvek többsége a kolostorok könyvtáraiban volt elzárva, a szerzetesek szigorú őrizete alatt, akik a katolikus egyház dominanciáját védelmezték. Az egyház világán kívül a könyvek igen nagy ritkaságnak számítottak: csupán néhány egyetemnek volt pár tucat, eset leg néhány száz kötete. A Cambridge-i Egyetemnek például a 15. század elején alig 122 könyve volt.1 Gutenberg nyomdagépe néhány évtized alatt egész Európában elter jedt, lehetővé téve a könyvek és brosúrák tömeges nyomtatását. Amikor Luther Márton lefordította a Bibliát hétköznapi német nyelvre, az emberek szemében hirtelen értelmet nyert az írás-olvasás tudománya: mivel ma guk olvashatták a Szentírást, a papok nélkül is eljuthatott hozzájuk Isten igéje. A Biblia igazi sikerkönyv lett. És ha már az emberek megtanultak írni-olvasni, mást is a kezükbe vettek. Néhányan még az írásba is belevág tak, így kevesebb mint egy emberöltő alatt az információáramlás vékony erecskéből áradattá változott. E drámai változás táptalajul szolgált a könyvnyomtatás által elindított információs robbanás szabályozásának. Ahogy a világi állam konszo lidálta hatalmát, létrehozta a cenzúra és az engedélyezés intézményeit,
190
BIG DATA
hogy kordában tartsa és felügyelje a nyomtatott szövegeket. Megalkotta a szerzői jog intézményét is, amivel jogi és gazdasági ösztönzést nyújtott a szerzőknek az alkotáshoz. Az értelmiség később már olyan szabályozást követelt, amely a kormányzati elnyomással szemben védelmet biztosít a szónak; a 19. századra a szólásszabadságot egyre több országban védte alkotmányos garancia. E jogok azonban kötelezettségekkel jártak együtt. Mivel egyes kíméletlen újságok beletapostak az emberek magánéletébe, és rossz hírüket keltették, törvények születtek a magánszféra oltalmazására, az áldozatok pedig rágalmazási pert indíthattak. A szabályozás említett változásai az értékrend mélyebb, alapvetőbb átalakulását is tükrözték. Gutenbergnek köszönhetően először az írott szó hatalmát kezdtük érzékelni, végül pedig a társadalomban széles körben terjedő információ jelentőségét. Az évszázadok múlásával az in formációáramlás egyre csak növekedett, cenzúra helyett pedig immár a törvényeknek kell védelmet nyújtaniuk a szélsőséges megnyilvánulások és az információval való visszaélések ellen. Ahogy a világ a big data irányába halad, a társadalom hasonlóan eget rengető változáson megy majd keresztül. A big data jelenleg is számos vonatkozásban formálja életünket és gondolkodásunkat, arra kényszerítve minket, hogy vizsgáljuk felül, milyen alapelvek mentén ösztönözzük to vábbi növekedését, és csökkentsük potenciális veszélyeit. Egy nagy különb ség azért van: a nyomtatás forradalma idején és az azt követő századokban élő elődeinkkel szemben nekünk nincs több száz évünk az alkalmazko dásra. Talán csak pár esztendő jut rá. A meglévő szabályok puszta megváltoztatása nem lesz elég a big data korszak szabályozására, sem pedig arra, hogy mérsékeljük a big data árny oldalából eredő veszélyeket. A helyzet parametrikus változás helyett paradigmatikus változásért kiált. A személyiségi jogok védelme megköveteli, hogy a big data felhasználók nagyobb felelősséggel tartozzanak tetteikért. Ugyanakkor a társadalomnak is újra kell definiálnia az igazság fogalmát, hogy garantálhassa az ember cselekvési szabadságát (és ezáltal az egyén felelősséggel tartozzon tetteiért). Végül pedig új intézmények és szakembe rek megjelenésére is szükség lesz ahhoz, hogy értelmezni tudjuk a big data által feltárt összefüggések mögött rejlő összetett algoritmusokat, és támogatást nyújthassunk azoknak, akik érdeksérelmet szenvednének a big data következtében.
KONTROLL
191
Adatvédelem és felelősség Évtizedeken át az adatvédelmi törvények alapelve világszerte az volt, hogy az egyének dönthették el, hozzájárulnak-e személyi adataik feldolgozá sához, s ha igen, hogyan és kinek engedik át adataikat. Az internet korában ez a dicséretes elképzelés gyakran az előírásos „nyilatkozat és hozzájáru lás" formáját öltötte. A személyiségi jogok védelmének e mechanizmusa azonban a big data korában nem megfelelő, mivel az adatok értékének nagy részét - amiről az adatgyűjtés idején talán még senkinek sem volt sejtel me - már a másodlagos felhasználásuk hozhatja felszínre. A big data korszakban mi egészen más jogi hátteret képzelünk el az ada tok védelméhez. Ez az adatgyűjtéssel egy időben kért egyéni hozzájáru lás helyett inkább arra épülne, hogy az adatfelhasználók tartozzanak felelősséggel tetteikért.2A vállalatok az egyes adat-újrahasznosítások előtt formális értékelést végeznének, hogy megtudják, milyen hatással járna az érintettekre a^ újrafeldolgozás. Ez az értékelés nem lenne mindig na gyon részletes; a jövőben ugyanis az adatvédelmi törvények olyan széles felhasználási kategóriákat fognak megállapítani, amelyek között védelem nélküli, illetve csak korlátozott védelemmel ellátott szabvány kategóriák is lesznek. A kockázatosabb projekteknél a hatóságok szabályoznák, ho gyan kell az adatfelhasználóknak értékelniük a tervezett felhasználás ve szélyeit, és megállapítanák, miként lehet a leghatékonyabban megelőzni vagy csökkenteni a potenciális ártalmakat. Mindez ösztönözné az adatok kreatív újrahasznosítását, ugyanakkor kielégítően gondoskodna arról, hogy a magánszemélyek ne szenvedjenek sérelmet. A formális big data kiértékelés helyes elvégzése és a megállapításainak megfelelő végrehajtás kézzelfogható előnyökkel járna az adatfelhasználók számára. Szabadon újrahasznosíthatnák a személyes adatokat, és nem kel lene megint felkeresniük az érintetteket, hogy a kifejezett beleegyezésüket kérjék. Másrészről azonban az adatok felhasználói jogi felelősséggel is tartoznának a hanyag értékelések és az óvintézkedések elmulasztása miatt, amiért a hatóságok bírságot is kiszabhatnának, sőt talán még bün tetőeljárást is indíthatnának. Az adatfelhasználói felelősség csak kellő szigor esetén működne. Nézzük meg mindezt a gyakorlatban! Vegyük az 5. fejezetben bemuta tott példát az emberi hátsók adatosításáról. Képzeljünk el egy vállalatot,
192
BIG DATA
mely olyan gépjármű-lopásgátló rendszert kínál, amely a vezető ülés pozícióját használja egyedi azonosítóként. Később aztán újra akarja ele mezni az információkat, hogy előrejelzést adjon a vezetők „figyelmet igénylő állapotáról", vagyis arról, ha például álmosak, spiccesek vagy dühö sek, hogy a rendszer a balesetek megelőzése érdekében figyelmeztethesse a közelben tartózkodó többi sofőrt. A mai adatvédelmi szabályozás mellett a cég azt hiheti, hogy ehhez egy újabb kör nyilatkozatra és hozzájárulásra van szüksége, mert korábban nem kapott engedélyt rá, hogy az informá ciót ily módon használja fel. Az adatfelhasználói felelősség bevezetésével azonban a vállalat értékelhetné az újrafelhasználás veszélyeit, és ha mini málisnak találná, neki is láthatna terve megvalósításának - ezzel pedig javíthatna a közúti közlekedés biztonságán. Több okból is hasznos, ha a felelősség terhét az emberek helyett az adatfelhasználók viselik. Ők mindenki másnál jobban tudják - a fogyasztóknál és a szabályozó hatóságnál mindenképpen -, hogy milyen módon akarják felhasználni az adatokat. Ha maguk végzik az értékelést (vagy szakértőket alkalmaznak a munkára), elkerülhetik, hogy kívülállók előtt fel kelljen fedniük üzleti stratégiájukat. És ami talán a legfontosabb: mivel az adatfel használóknak származik a legtöbb előnyük a másodlagos hasznosításból, úgy méltányos, ha felelősséggel tartoznak tetteikért, emellett az elemzés terhét is ők viselik. Ilyen alternatív adatvédelmi háttérrel az adatfelhasználókat többé nem köteleznék a jogszabályok, hogy töröljék a személyes információkat, amint azok betöltötték elsődleges céljukat, ahogy a legtöbb jelenlegi adatvédelmi szabályozás megköveteli. Ez fontos változás lenne, hiszen - mint láttuk napjaink Mauryjai csak a látens értékek kiaknázásával képesek a legtöbb értéket kisajtolni az adatokból, saját maguk és a társadalom számára. E változás révén az adatfelhasználók hosszabb ideig megtarthatnák a sze mélyes adatokat, bár azért nem örökre. A társadalomnak gondosan mér legelnie kell az újrahasznosításból származó előnyöket az adatok túlzásba vitt közzétételének kockázatával szemben. A megfelelő egyensúly eléréséhez a szabályozó hatóságok különféle időkereteket állapíthatnának meg az újrahasznosításra, attól függően, mi lyen kockázatok rejlenek az adatokban, illetve mit diktálnak a társadalom elvárásai. Néhány nemzet nyilván óvatosabb lenne másoknál, ahogy egyes adatfajtákat is kényesebbnek tekintünk a többinél. Ezzel a megközelítéssel
KONTROLL
193
száműzhetnénk az „örök emlékezet" rémét, vagyis azt a veszélyt, hogy soha nem tudunk megszabadulni a múltunktól, mert digitális adatainkat bármikor előkotorhatják. Máskülönben személyes adataink Damoklész kardjaként lebegnének fölöttünk, évekig azzal fenyegetve bennünket, hogy egy intim dolgunk vagy megbánt vásárlásunk egyszer majd kelle metlen helyzetbe hozhat minket. Az időkorlát emellett az adatfelhasz nálókat arra ösztönözné, hogy addig hasznosítsák az adatokat, míg van rá lehetőségük. Úgy gondoljuk, hogy e megközelítés révén a big data korszak ban kiegyensúlyozottabbá válhatna a helyzet: a cégek felhatalmazást kap nának, hogy tovább használják a személyes adatokat, cserébe pedig fele lősséget kéne vállalniuk a felhasználásukért, és bizonyos idő eltelte után kötelezőén törölniük kellene őket.3 A hozzájáruláson alapuló adatvédelemtől a felelősségen alapuló adat védelem felé tartó szabályozáson túl a jövőben technikai innovációkra is szükség lesz az adatvédelem támogatásához. Az egyik kialakulóban lévő megközelítés a „differenciált adatvédelem"4 koncepciója: az adatok szán dékos elhomályosítása úgy, hogy egy nagy adatkészlet lehívása ne tárjon fel pontos eredményeket, csak hozzávetőlegeseket. Ez megnehezítené és megdrágítaná, hogy az egyes adatpontokat hozzá lehessen rendelni egyes személyekhez. Úgy tűnhet, mintha az információk elhomályosításával értékes felfede zéseket is lehetetlenné tennénk. Ám ennek nem kell így lennie - vagy legalábbis vállalható kompromisszumot köthetünk. Technológiapolitikai szakértők például megjegyzik, hogy a Facebook egyfajta differenciált adatvédelemre épít, amikor lehetséges hirdetőinek információkat ad a felhasználóiról: a jelentésben szereplő számok csupán hozzávetőlegesek, hogy ne nyújthassanak segítséget a beazonosításhoz. Az ashtanga jóga iránt érdeklődő, Atlantában élő ázsiai nőkről készült jelentés „körülbelül 400" főt émlít, nem pedig a pontos számot, ami statisztikailag lehetetlenné teszi az információ leszűkítését egy konkrét személyre.5 Ha a felügyeleti rendszert az egyéni hozzájárulástól az adatfelhasználó felelősségének irányába tereljük, az olyan alapvető változás, mely a haté kony big data szabályozáshoz kell. De nem csak erre van szükség.
19 4
BIG DATA
Emberek kontra előrejelzések Az emberek felelősséggel tartoznak tetteikért a bíróságok előtt. Amikor a bírok a méltányos tárgyalást követően meghozzák pártatlan döntésüket, igazságot szolgáltatnak. A big data korszakban azonban az igazságszol gáltatás jelentését újra kell értelmeznünk ahhoz, hogy megőrizhessük az emberiség eszményét: a szabad akaratot, melynek segítségével az emberek megválasztják tetteiket. Arról a nagyon egyszerű elgondolásról van szó, hogy az emberek a tetteikért tudnak felelősséget vállalni - amit meg is kell tenniük -, nem pedig a hajlamaikért. A big data korszaka előtt ez az alapvető szabadságjog magától értetődő nek számított, olyannyira, hogy tulajdonképpen alig kellett magyaráznunk. Végtére is ez alapján működik a jogrendszerünk: az emberek a tetteikért felelősek. A big datával viszont egyre pontosabban tudjuk előre jelezni a cselekedeteket. Mindez arra késztet minket, hogy ne az alapján ítéljünk meg embereket, amit tettek, hanem az alapján, amit a jövőben tehetnek. A big data korszakban tágabb értelemben kell majd gondolkodnunk az igazságszolgáltatásról, és épp annyira meg kell követelnünk tőle, hogy az emberi tetteket vegye figyelembe, mint ahogyan jelenleg a tisztességes eljáráshoz való jogot védelmezzük. Enélkül csorbát szenvedne az igazság szolgáltatás eszménye. Az emberi tettek szem előtt tartása garantálja, hogy az államhatalom a valós cselekedeteink, ne pedig a big data elemzések alapján ítélje meg viselkedésünket. így csak a múltbeli tetteinkért vonhatnak bennünket felelősségre, azért viszont nem, hogy a jövőbeli tetteinkkel kapcsolatban mit jeleznek a statisztikák. Ugyanakkor azt is meg kell akadályozni, hogy az állam teljes egészében a big datára támaszkodjon a korábbi cselekedetek megítélésében. Lássunk például egy olyan esetet, melyben kilenc vállala tot áraik jogellenes rögzítésével gyanúsítanak! Teljességgel elfogadható, ha a lehetséges összejátszás felderítésére big data elemzéseket használ nak, hogy ezek alapján a hatóságok hagyományos eszközökkel nyomoz ni kezdhessenek, és összegyűjthessék a cégek ellen szóló bizonyítékokat. E vállalatokat azonban nem lehet bűnösnek nyilvánítani csak azért, mert a big data szerint lehet, hogy bűncselekményt követtek el.6 Hasonló elvet kellene követni az államhatalmon kívüli területeken is, amikor vállalatok hoznak rólunk fontos döntéseket - például hogy alkal
KONTROLL
195
maznak-e, elbocsátanak-e, nyújtanak-e nekünk jelzáloghiteit, visszautasít ják-e a hitelkártya-igénylésünket. Azoknak a cégeknek, amelyek ezeket a döntéseiket főképpen big data előrejelzésekre alapozzák, azt javasoljuk, hogy építsenek be a folyamatba bizonyos garanciákat. Az első fontos do log a nyíltság: hozzáférhetővé kell tenni az előrejelzések alapjául szolgáló adatokat és algoritmusokat, amelyek hatást gyakorolhatnak az egyénre. A második a hitelesítés: bizonyos kényes területeken olyan algoritmussal kell rendelkezni, amelyet egy külső szakértő megalapozottnak és hiteles nek talál. A harmadik a megcáfolhatóság: konkrétan meg kell határozni, hogyan cáfolhatják meg az emberek a róluk szóló előrejelzést (ez meg felel annak a tudományos területeken követett hagyományos módszernek, amikor olyan tényezőket tárnak fel, amelyek alááshatják egy tanulmány megállapításait). Az a legfontosabb az egészben, hogy az emberi tettekre vonatkozó garancia védelmet jelent az adatok diktatúrájának veszélye ellen, amikor az adatokat nagyobb jelentőséggel ruházzuk fel, mint amilyet megérde melnek. Ugyanilyen lényeges az is, hogy megvédjük az egyén felelősségét. Nagy lesz a társadalmi kísértés, hogy az egyén elszámoltathatóságát a koc kázatkezeléssel váltsuk fel, és az emberekről szóló döntéseket a potenciális fejlemények valószínűségének értékelésére alapozzuk. Ha rengeteg objektívnek tűnő adat áll rendelkezésre, vonzó lehetőség, hogy a döntésekből kihagyjuk az érzelmi és az egyéni elemeket, és a bírák és más értékelők szubjektív értékelései helyett algoritmusokra támaszkodjunk, a döntések indoklásához pedig a személyes felelősség fogalmai helyett az „objektívebb" kockázat és kockázatelkerülés kifejezéseket használjuk. A big data például arra csábíthat, hogy előre jelezzük, kiktől várható, hogy bűncselekményt követnek el, és ezeket az embereket sajátos bánás módban részesítsük, újra és újra alapos vizsgálatnak vetve alá őket, koc kázatcsökkentés címén. Az így kategorizált emberek joggal érezhetik: anélkül kapnak büntetést, hogy felelőssé tették volna őket valamely konk rét cselekedetükért. Képzeljünk el egy tinédzsert, aki egy algoritmus sze rint a következő három év során nagy valószínűséggel bűncselekményt fog elkövetni. A hatóságok ezért kijelölnek mellé egy szociális munkást, aki havonta meglátogatja, rajta tartja a szemét, és megpróbál segíteni neki abban, hogy távol tarthassa magát a zűrös ügyektől.
196
BI G D AT A
Ha maga a tinédzser, illetve a rokonai, a barátai, a tanárai vagy a munka adói megbélyegzésként tekintenek e látogatásokra - amire jó esély van -, a megelőzés érdekében tett beavatkozás felér egy büntetéssel, valami olyas miért, amit az illető el sem követett. A helyzet akkor sem sokkal jobb, ha ezekben a látogatásokban nem büntetést látnak, hanem a kockázat mini malizálására irányuló törekvést, vagyis azt, hogy csökkenteni akarják a jövőbeli problémák valószínűségét (ez esetben a közbiztonságot aláásó bűncselekmény kockázatát). Minél inkább eltávolodunk attól a gyakorlat tól, hogy az embereket a tetteik alapján számoltatjuk el, és minél inkább az adatvezérelt beavatkozásokra támaszkodunk a társadalmi kockázatok csökkentése érdekében, annál inkább leértékelődik az egyéni felelősség eszménye. Ha az embereket nem a tetteik alapján vonják felelősségre, megfosztják őket attól az alapvető szabadságuktól, hogy megválaszthas sák viselkedésüket. Ha az állam sokszor dönt előrejelzések és kockázatcsökkentési szándék alapján, egyéni választásunk - és ezáltal cselekvési szabadságunk - töb bé már nem számít. Bűnösség nélkül nincs ártatlanság. Ha engedünk az ilyen megközelítéseknek, az nemhogy nem segíti a társadalmat, de gyen gíti is. A hatékony big data szabályozás alappillérének garanciát kell jelen tenie arra, hogy az embereket továbbra is a személyes felelősségük és a konkrét viselkedésük szerint ítélik meg, nem pedig „objektív" adatgyűjtés alapján döntik el, hogy gonosztevők-e. Csak így mutatkozhat meg, hogy emberszámba veszik őket, szabadon választhatják meg a cselekedeteiket, és joguk van hozzá, hogy a tetteik alapján ítéljék meg őket.
A fekete doboz feltörése A számítógépes rendszerek manapság olyan szabályok alapján döntenek, amelyeket kifejezetten azért programoztak beléjük, hogy azokat követve működjenek. Amikor tehát egy döntés félresikerül - ami időnként elő fordul -, utána lehet járni, miért határozott így a számítógép. Megvizsgál hatjuk például azt a kérdést: „Miért emelte meg a robotpilóta a repülőgép orrát 5 fokkal, amikor egy külső szenzor a páratartalom hirtelen növeke
KONTROLL
197
dését érzékelte?" A számítógépes kódot ki lehet nyitni, meg lehet vizsgál ni, a szakemberek utánajárhatnak a dolognak, és megfejthetik, mi volt az alapja a számítógép - bármennyire összetett - döntésének. A big data elemzések esetében viszont ez a nyomon követhetőség sokkal nehezebb. Egy algoritmus előrejelzéseinek háttere gyakran túl komplikált ahhoz, hogy az emberek többsége megértse. Amikor a számítógépeket még kifejezetten arra programozták, hogy egy utasításhalmazt kövessenek, ahogy az az IBM korai orosz-angol for dítóprogramja esetében is történt 1954-ben, az ember könnyen megérthet te, hogy miért helyettesítette a szoftver az egyik szót a másikkal. A Google Translate azonban több milliárd oldalnyi fordítás alapján dönti el, hogy az angol light szó lumière vagy léger legyen-e franciául (annak függvényében, hogy a szó a világosságra vagy a súlyra vonatkozik-e). Az ember képte len visszavezetni, hogy a program szóválasztásának mik voltak a pontos okai, hiszen ez hatalmas adatmennyiségen és kiterjedt statisztikai kalku lációkon alapul. A big data működésének nagyságrendje gyakran meghaladja a felfogó képességünket. Az a korreláció például, amelyet a Google fedezett fel néhány keresési kifejezés és az influenza között, 450 millió matematikai modell tesztelésén alapult. Ezzel szemben Cynthia Rudin 106 lehetséges előjelét gondolta ki annak, hogy a kábelaknák tüzet foghatnak-e, és el tudta magyarázni a Con Edison vezetőinek, hogy a programja miért úgy rang sorolta az ellenőrzési helyszíneket, ahogyan tette. Az „elmagyarázhatóság" - miként a mesterséges intelligenciával foglalkozó szakemberek nevezik nagyon fontos nekünk, földi halandóknak, mert nemcsak a mit, hanem a miértet is szeretjük tudni. De mi lett volna akkor, ha a 106 előjel helyett a rendszer rengeteg, mondjuk, 601 előjelet generál automatikusan, melyek többségének ugyan nagyon kicsi a súlya, összességükben viszont javítottak volna a modell pontosságán? Bármely előrejelzés háttere megdöbbentően bonyolult lehet. Ez esetben hogyan tudta volna Rudin meggyőzni a vezető ket arról, hogy át kell csoportosítaniuk korlátozott erőforrásaikat? E szituációkból kitűnik, milyen kockázatokat rejt, hogy a big data előre jelzések, valamint a mögöttes algoritmusok és adatkészletek egyfajta fe kete dobozzá válnak, ami se számadási kötelezettséget, se nyomon követ hetőséget, se bizalmat nem garantál. Hogy mindez elkerülhető legyen, a big data megköveteli majd a folyamatos ellenőrzést és az átláthatóságot,
198
BIG DATA
ehhez viszont újfajta ismeretekre és intézményekre lesz szükség. Ezek az új szereplők olyan területeken nyújtanak majd támogatást, ahol a társa dalomnak alaposan meg kell vizsgálnia a big data előrejelzéseket, azoknak az embereknek pedig, akik úgy érzik, méltánytalanság érte őket, lehetővé teszik a jogorvoslatot. Sokszor voltunk már tanúi hasonló jellegű személyek és szervezetek megjelenésének, amikor egy adott terület komplexitásának és specializációjának drámai növekedése hirtelen megkövetelte az új technikák irányítására alkalmas szakembereket. Egyes szakmák, mint a jogászi, orvosi, számviteli és mérnöki hivatás, több mint egy évszázaddal ezelőtt pontosan ugyanezen az átalakuláson mentek keresztül. A közelmúltban például számítógépes biztonsági és adatvédelmi szakemberek bukkantak fel, akik tanúsítják, hogy a vállalatok eleget tesznek az olyan szervezetek által meghatározott legjobb gyakorlatoknak, mint a Nemzetközi Szabványügyi Szervezet (International Organization fór Standards, ISO), mely maga is azért alakult meg, hogy a szükséges új irányelvek kérdésével foglal kozzon. A big datának is új szakemberekre lesz szüksége, hogy betölthesse sze repét. Talán „algoritmistáknak" hívják majd őket. Lehetnek független személyek és szervezetek, akik vagy amelyek kívülről ellenőrzik a cégeket, de ugyanezt a feladatot belső munkatársak és részlegek is elláthatják - ép pen úgy, ahogy a vállalatoknak ma is vannak könyvelő alkalmazottaik és pénzügyeiket felülvizsgáló külső könyvvizsgálóik.
Az algoritmisták felemelkedése
Ezek az új szakemberek az informatika, a matematika és a statisztika terüle tének szakértői lennének; tevékenységük kiterjedne a big data elemzések és előrejelzések felülvizsgálatára. Az algoritmisták pártatlansági és titoktartási fogadalmat tennének, ugyanúgy, mint ma a könyvvizsgálók és más hivatások képviselői. Értékelnék az adatforrások, valamint az elemzési és előrejelzési eszközök választását, beleértve az algoritmusokat és a model leket, majd pedig az eredmények értelmezését. Vita esetén hozzáférhetné nek az adott döntéshez vezető algoritmusokhoz, a statisztikai módszerek hez és az adatkészletekhez.
KONTROLL
199
Ha az Egyesült Államok Belbiztonsági Minisztériumánál 2004-ben dol gozott volna egy algoritmista, megelőzhette volna, hogy olyan repüléstilal mi listát állítsanak össze, amelyen Kennedy szenátor is szerepel. A közel múltban is történtek olyasféle esetek, amelyeknél nagy hasznát vehették volna az algoritmistáknak: mégpedig Japánban, Franciaországban, Német országban és Olaszországban, ahol sok volt a panasz a Google „automa tikus kiegészítés" (autocomplete) funkciójára. Az ugyanis néhány begépelt névhez az általános keresési kifejezések olyan listáját társította, amely rossz hírét keltette a panaszosoknak. A lista alapvetően a korábbi keresések gyako riságán alapul: a kifejezéseket a matematikai valószínűségük szerint rang sorolja. Mégis, ki ne lenne mérges, ha kiderülne, hogy amikor egy poten ciális üzleti partnere vagy új barátja/barátnője rákeres az interneten, a neve mellett olyan szavak jelennek meg, mint az „elítélt" vagy a „prostituált"? Elképzelésünk szerint az algoritmisták az efféle problémákra olyan piacorientált megközelítéssel válaszolnának, amellyel elejét lehetne venni a hatósági szabályozás közbelépésének. Hasonló szükségletet elégítenének ki, mint a könyvelők és a könyvvizsgálók a 20. század elején, amikor nagy szükség volt rá, hogy kezeljék a pénzügyi információk újfajta áradatát. Az emberek igen nehezen viselték a számok rohamát, ezért szükség volt egy agilis, önszabályozó módon szerveződő szakembergárdára. A piac erre egy pénzügyi ellenőrzésre szakosodott, versenyképes cégekből álló új ágazat megjelenésével reagált. E szolgáltatás ajánlásával az újfajta szakma képviselői elősegítették, hogy nőjön a társadalom bizalma a gazdaságban. A big datának is hasznára válna, ha az algoritmisták hasonló bizalomnöve kedést tudnának elérni.
Külsős algoritmisták
A külsős algoritmistákat pártatlan auditorokként képzeljük el, akik ak kor ellenőriznék a big data előrejelzések pontosságát vagy érvényességét, amikor az állam megköveteli: például bírósági végzések esetében, vagy ha a szabályozás megkívánja. Ügyfélként big data cégeket is elvállalhatnának, olyan cégek számára végezve ellenőrzéseket, amelyek szaké^tőrfámogatást igényelnek. Emellett az olyan big data alkalmazások megbízhatóságát is igazolhatnák, mint a csalás elleni technikák vagy a tőzsdei kereskedelmi
200
- BIG D AT A
rendszerek. Végezetül a külsős algoritmisták arra is fel lennének készülve, hogy konzultáljanak a kormányhivatalokkal, hogyan lehetne a big datát a legjobban hasznosítani a közszférában. Úgy képzeljük, hogy ez az új szakma - az orvosi és jogászi hivatások hoz hasonlóan - viselkedési kódex alapján, önszabályozással működhetne. Az algoritmisták felelősségre vonhatók lennének, pártatlanságukat, titok tartásukat, kompetenciájukat és professzionalizmusukat kemény szabályok garantálnák; ha nem tartanák magukat a normákhoz, beperelhetnék őket. Szakértő tanúként közreműködhetnének bírósági tárgyalásokon, vagy „törvényszéki algoritmistaként" tevékenykedhetnének, azaz a bíróság által kinevezett szakértőkként, akik különösen bonyolult esetekben tech nikai segítséget nyújtanak a bíróknak. Mindezeken felül azok az emberek, akik úgy érzik, hogy a big data előre jelzések kárt okoztak nekik - egy beteg, akitől megtagadták az ellátást, egy börtönlakó, akinek elutasították a feltételes szabadonbocsátási kérelmét, egy hitelkérelmező, aki nem kapott jelzálogkölcsönt -, az algoritmisták segítségét kérhetnék, ugyanúgy, ahogy ma jogászokat kérnek fel; hogy képviseljék őket ilyen ügyekben.
Belsős algoritmisták
A belsős algoritmisták egy szervezeten belül felügyelnék a cég big data tevékenységét. Nemcsak a vállalat érdekeit tartanák szem előtt, hanem azokét is, akikre a big data elemzéseik hatással vannak. Ellenőriznék a big data műveleteket, és elsődlegesen hozzájuk fordulhatnának mindazok, akik úgy érzik, hogy a szervezet big data előrejelzései hátrányt jelentettek számukra. Emellett felülvizsgálnák a big data elemzések feddhetetlenségét és pontosságát, és csak utána adnának zöld utat nekik. E két szerep közül az első teljesítéséhez az algoritmistáknak bizonyos fokú szabadsággal és pártatlansággal kellene rendelkezniük a szervezeten belül, amelynek alkalmazottjaiként dolgoznak. Az az elképzelés, hogy egy alkalmazott pártatlanul viszonyulhat a cégé hez, enyhén szólva fából vaskarikának tűnik, pedig a valóságban nem is olyan ritka. A nagy pénzintézeteknél működő ellenőrzési részlegek jó példát jelentenek erre, csakúgy, mint számos cég igazgatótanácsa, amely
KONTROLL
201
a részvényeseknek, nem pedig a cégvezetésnek tartozik felelősséggel. Sok médiacég pedig, köztük a New York Times és a Washington Fost, ombudsmant alkalmaz, akinek legfontosabb feladata, hogy óvja a közbizalmat. Az ombudsmanok foglalkoznak az olvasók panaszaival, és a nyilvánosság előtt is gyakran kritizálják munkaadóikat, ha úgy látják, hogy hibáztak. A belsős algoritmisták hivatásához azoknak a szakembereknek a tevé kenysége áll a legközelebb, akik megbízatásuk szerint arról gondoskod nak, hogy a személyes adatokkal ne éljenek vissza a vállalati környezetben. Németországban például egy bizonyos vállalatnagyság fölött (általános szabály szerint ázoknál a cégeknél, ahol legalább tíz alkalmazott foglalko zik személyes adatok feldolgozásával) előírják, hogy adatvédelmi képvise lőt jelöljenek ki. Az 1970-es évek óta e házon belüli szakemberek magas szintű szakmai morált alakítottak ki, és nagy összetartásról tettek tanúbizonyságot. Rendszeresen találkoznak, hogy megosszák egymással a legjobb gyakorlati példákat, és továbbképezzék magukat, emellett saját szakmai médiájuk van, és konferenciákat is tartanak. Ugyanakkor elköte lezettek mind a munkaadójuk, mind pedig a pártatlan felügyelet követel ményei iránt: adatvédelmi ombudsmanként működnek, miközben igye keznek az információkhoz és a személyiségi jogokhoz fűződő értékeket cégeik működésének alapjává tenni.7 Úgy véljük, hogy a vállalaton belül működő algoritmisták is ugyanezt teszik majd.
Az adatbárók megregulázása Az információs társadalom számára az adatok olyanok, mint az iparra épülő gazdaság számára az üzemanyag: ez az erőforrás ösztönzi azokat az innovációkat, amelyek a fejlődés motorját jelentik. Bőséges és pezsgő adat kínálat, valamint a szolgáltatások egészséges piaca nélkül a kreativitásban és a termelékenységben lévő potenciált nem lehetne teljesen kiaknázni. E fejezetben a big data szabályozásának három stratégiai irányát is mertettük, az adatvédelem, a hajlamosság és az algoritmusok ellenőrzése alapján. Meggyőződésünk, hogy a szabályozás révén legyőzhetjük a big data árnyoldalait. Ám a születőben lévő big data ágazat fejlődésében van még egy terület, amely nagy kihívást jelent: a big data versenypiacának
202
BIG DATA
védelme. Meg kell akadályoznunk a 21. századi adatbárók felemelkedését. Ok azoknak a 19. századi gátlástalan pénzembereknek a modern meg felelői, akik egykor Amerika vasútjait, acélgyártását és távíróhálózatát uralták. E nagyiparosok felügyeletére az Egyesült Államokban rendkívül rugal mas trösztellenes törvényeket vezettek be. Ezeket az 1800-as években eredetileg a vasutakra hozták létre, később pedig azokra a cégekre is ki terjesztették, amelyek egyfajta kapuőri szerepben képesek ellenőrzésük alatt tartani az üzleti élet szempontjából létfontosságú információáramlást. Az 1910-es években ilyen volt a National Cash Register,* az 1960-ás évek ben az IMB, az 1970-es években a Xerox, az 1980-as években az AT&T, az 1990-es években a Microsoft, napjainkban pedig a Google. E cégek úttörő technológiái központi elemeivé váltak a gazdaság „információs infrastruk túrájának", és dominanciájukat a törvény erejével kellett megakadályozni. A pezsgő big data piac feltételeinek biztosításához hasonló intézkedé sekre van szükség, mint amelyek annak idején megteremtették a versenyt, és létrehozták az ágazatok felügyeletét. Lehetővé kell tennünk az adat tranzakciókat, erősítve például a licencelést és az együttműködést.8Ez fel veti a kérdést, hogy a társadalomnak vajon nem lenne-e előnyös egy gon dosan kidolgozott, kiegyensúlyozott, adatokra vonatkozó „kizárási jog" (hasonlóan a szellemi tulajdonjogokhoz, bármennyire provokatívan hang zik is). Elismerem, mindez talán túlzott elvárás lenne a politikai döntés hozókkal szemben - és nem kevés kockázattal járna nekünk, többieknek is. Nyilván lehetetlen előre megmondani, hogyan fejlődik majd egy tech nológia; még a big data sem képes megjósolni saját evolúcióját. A szabá lyozó hatóságnak egyensúlyt kell teremtenie az óvatos és a merész lépések között - a trösztellenes törvénykezés története azt jelzi, hogy mindez nem elérhetetlen. A trösztellenes szabályozás megfékezte a hatalommal való visszaélést. Feltűnően szépen sikerült alapelveit egyik szektorról a másikra, egyik ága zatról a másikra átültetni. Ez pontosan az a fajta erős szabályozás, mely - anélkül, hogy előnyben részesítené az egyik technológiát a másikkal szemben - igen hasznos, mert óvja a versenyt; de ennél sokkal messzebbre
* Pénztárgépek gyártásával foglalkozó amerikai nagyvállalat. (A Törd.)
j
KONTROLL
203
nem merészkedik. A trösztellenes törvénykezés segítheti a big datát ab ban, hogy gőzerővel haladjon előre. Emellett a kormányoknak - mivel a világ legnagyobb adatbirtokosai köízé tartoznak - nyilvánosságra kellene hozniuk adatbázisaikat. Biztató, hogy már mindkét területen történt némi előrelépés. A trösztellenes szabályozás tanulsága az, hogy ha egyszer meghatároz ták az átfogó alapelveket, a hatóságok keresztülvihetik a megvalósításukat, hogy garantálják a megfelelő szintű védelmet és támogatást. Ehhez hason lóan az általunk javasolt hármas stratégia - a személyiségi jogok védel mében az egyéni hozzájárulás helyett az adatfelhasználó felelősségének hangsúlyozása; az emberi tettek elsőbbsége az előrejelzésekkel szemben; az általunk algoritmistáknak nevezett big data auditorok új kasztjának létrehozása - a big data korszakban az információk hatékony és méltányos szabályozásának alapja lehet. A nukleáris technológiától a biotechnológiáig számos területen fejlesztünk ki új eszközöket, amelyekről aztán felfedezzük, hogy árthatnak nekünk, és elkezdünk gondolkodni az ellenük védelmet nyújtó biztonsági mecha nizmusokon. Ebben a vonatkozásban a big data problematikája a társada lom olyan más területeinek kihívásaival mutat rokonságot, amelyek ugyan nem tudnak tökéletes megoldásokat nyújtani, viszont kérdéseket vetnek fel világunk jelenlegi rendjével kapcsolatban. Minden generációnak újra meg újra foglalkoznia kell e témákkal. Az a feladatunk, hogy pontosan felmérjük a big data veszélyeit, támogassuk fejlődését, és emellett persze kihasználjuk minden előnyét. Ahogy régen a nyomdagép, napjainkban a big data hoz változásokat a társadalmi önszabályozás módjában. Arra kényszerít bennünket, hogy új kihívásokkal nézzünk szembe, amelyek új megoldásokat igényelnek. Ha gondoskodni ákarunk arról, hogy az emberek ne legyenek védtelenek a technológiai fejlődés közepette, meg kell akadályoznunk, hogy a big data fejlődése túljusson azon a ponton, amely után az ember már nem képes uralni a technológiát.
EZUTÁN a manhattani kerületi ügyészségen dolgozott, és az emberöléstől a Wall Street-i bűncselekményekig a leg különfélébb esetekben képviselte a vádat. Később váltott, és egy elegáns, társasági ügyekkel foglalkozó ügyvédi irodánál helyezkedett el. Egy íróasztal mögött eltöltött unalmas év után úgy döntött, ezt a munkát is otthagyja. Valami tartalmasabb foglalkozást keresett, ezért arra gondolt, talán segíthetne az iraki újjáépítésben. A cég egyik segítőkész üzlettársa megejtett néhány telefont a megfelelő helyekre. Flowers pedig hamarosan azon kapta magát, hogy már úton is van a Bagdad központjában lévő zöld zónába, az amerikai csapatok részére fenntartott biztonsági területre, a Szaddám Húszéin bírósági tárgyalására készülő jogi csapat tagjaként. Munkájának legnagyobb része nem is jogi, hanem logisztikai természetű volt. Azonosítania kellett azokat a területeket, ahol gyaníthatóan tömeg sírok rejtőztek, hogy kutatókat küldhessenek oda, akik feltárják őket. Tanúkat kellett a zöld zónába átszállítania, mégpedig úgy, hogy útközben elkerüljék a számtalan pokolgépes támadást, amelyek akkoriban hozzá tartoztak a komor mindennapokhoz. Rájött, hogy a hadsereg ezeket a fel adatokat információs problémaként kezeli. Az adatok pedig életmentők voltak. A hírszerzési elemzők a kapott jelentéseket egyesítették a múltbeli bombatámadások helyszínére, idejére és az áldozatok számára vonatkozó részletes adatokkal, hogy előrejelezhessék az aznap legbiztonságosabbnak tartott útvonalat. Amikor néhány évvel később hazatért New Yorkba, Flowers rádöb bent, hogy e módszerek jóval hatékonyabbak a bűnözés elleni harcban, M
ik e
F
l o w e r s
a
200 0 -e s
é v e k
e le jé n
EZUTÁN
205
mint amilyenek ügyészként valaha is a rendelkezésére álltak. Valóságos lelki társra akadt a város polgármesterében, Michael Bloombergben, aki a vagyonát is adatok - a bankók számára szolgáltatott pénzügyi informá ciók - révén szerezte. Flowerst egy különleges munkacsoport tagjává ne vezték ki, mely azt a feladatot kapta, hogy próbálja meg a számok segít ségével leleplezni a 2009-es másodlagos jelzálogpiaci botrány cselszövóit. Az egység olyannyira sikeres volt, hogy egy évvel később Bloomberg polgármester bővítette a tevékenységi körét. Flowers lett a város első „analitikai igazgatója". Küldetése az volt, hogy állítson össze egy csapatot a lehető legjobb adattudósokból, és hasznosítsák a város kihasználatlan információs kincsestárát, hogy a lehető legtöbb területen növelhessék a hatékonyságot.1 Flowers széles körben kivetette hálóját, hogy megtalálja a megfelelő embereket. „Nem érdekeltek a rendkívül tapasztalt statisztikusok - me séli. - Attól tartottam ugyanis, hogy vonakodnának problémamegoldásra használni ezt az újszerű megközelítést." Korábban, amikor ilyen jelent kezőket hallgatott meg a pénzügyi visszaéléssel kapcsolatos projekthez, titokzatos okokból egyik a másik után fejezte ki kétségeit a matematikai módszerekkel kapcsolatban. „Engem egyáltalán nem foglalkoztatott, milyen modellt használok majd. Erőteljes meglátásokat akartam, amelye ket majd tettek követhetnek; csakis ez járt a fejemben" - mondja. Végül összeválogatta ötfős csapatát, vagy ahogy ő nevezte: a „srácokat". Egy két éve végzett közgazdászok voltak, egyikük kivételével, s bár nem sok tapasztalatuk volt a nagyvárosi életről, mindnyájukban ott rejtőzött a krea tivitás szikrája. Az egyik első kihívás, amellyel a csapatnak meg kellett birkóznia, az „illegális átalakítások" problémája volt; ez azt jelenti, hogy egy lakást sok kisebb egységre darabolnak fel, és így akár tízszer annyi embert lehet elhelyezni benne, mint amennyire tervezték. E lakások igen tűzveszélye sek, amellett a bűnözés, a drogozás, a betegségek és a kártevők okozta fer tőzések melegágyai. Elektromos hosszabbító kábelek kígyóznak keresztül a falakon; a lakók villanyrezsókat raknak az ágytakarókra, fittyet hányva az életveszélyre. Ekkora zsúfoltságban rendszeresek a tűzesetek, és sokan meg is halnak emiatt. 2005-ben két tűzoltó is odaveszett, amikor egy ilyen lakásból próbálták menteni az ott élőket. New Yorkban évente nagyjából 25 ezer esetben tesznek panaszt illegális átalakítások miatt, de a város
206
BIG D AT A
nak csak 200 ellenőre van az ügyek kivizsgálására. Képtelenségnek tűnt, hogy megfelelő módszert találjanak, hogyan lehetne megkülönböztetni az egyszerű szabálysértéseket azoktól, amelyek esetében bármikor lángba bo rulhat a lakás. Flowers és csapata viszont úgy találta, ezt a problémát sok adat segítségével meg lehetne oldani. Először is, fogtak egy listát, amely a város összes ingatlanát tartalmaz ta - mind a 900 ezret. Ezt 19 különböző hivatal adatkészletével vegyítették, amelyek például olyan információkat szolgáltattak, hogy az ingatlantulaj donosnak van-e ingatlanadó-hátraléka, volt-e ellene jelzálog-érvényesíté si eljárás, előfordult-e, hogy szabálytalan közművételezés vagy tartozás miatt felfüggesztették nála a közműszolgáltatásokat. Információkat táp láltak be az épület jellegéről, arról, hogy mikor épült, hányszor mentek ki oda a mentők, mekkora a környéken a bűnözési ráta, voltak-e panaszok a rágcsálók miatt, és így tovább. Aztán ezeket az információkat összevetet ték az elmúlt öt év tűzeseteinek súlyosság szerint rangsorolt adataival, és korrelációkat kerestek, hogy létrehozhassanak egy olyan rendszert, amely megmutatja, mely panaszokat kell a legsürgősebben kivizsgálni. Kezdetben az adatok nagy része nem volt használható formában. Akik a városi nyilvántartásokat vezették, nem használtak egységes, szabványo sított módszert a helymeghatározásra; minden hivatal és osztály szemlá tomást a saját útját járta. Az építési osztály minden építménynek egyedi épületszámot ad. A lakásfenntartási hivatal is más számozási rendszerrel dolgozik. Az adóügyi osztály a kerület, a háztömb és a telek alapján ad azonosítót minden ingatlannak. A rendőrség a Descartes-féle koordinátá kat használja. A tűzoltóság a tűzoltóállomásokkal összekötött segélyhívó telefonoktól való távolságon alapuló rendszerre támaszkodik, bár ezek a segélyhívók már rég nem működnek. Flowers csapata egy olyan rendszer kidolgozásával lett úrrá a káoszon, amely az épületeket az előttük található kis terület Descartes-féle koordinátáival, majd pedig a többi hivatal adat bázisaiban szereplő helymeghatározási adatok berajzolásával azonosította. Módszerük természeténél fogva pontatlan volt, de ezért bőven kárpótolta őket a tény, hogy ilyen óriási adatbázissal dolgozhattak. A csapat tagjai nem elégedtek meg az íróasztal mögötti számzsonglőrködéssel. A felügyelőkkel együtt a terepre is kijártak, hogy a helyszínen győződjenek meg róla, hogyan működnek a számok a gyakorlatban. Ren geteget jegyzeteltek, és alaposan kifaggatták az öreg rókákat. Amikor egy
EZUTÁN
207
szer az egyik deres hajú vezető maga elé dörmögte, hogy a meglátogatni kívánt épülettel úgysem lesz semmi gond, a geekek tudni akarták, miért olyan biztos benne. Noha az idős férfi nem mondta ki nyíltan, a srácok rájöttek, hogy jóslatát az épület külsején látható friss falazásnyomra ala pozta, amely azt a benyomást keltette benne, hogy a tulajdonos törődik az ingatlannal. Miután visszatértek íróasztalaikhoz, azon kezdtek gondolkozni, ho gyan lehetne a „friss falazást" jelzésként betáplálni a modelljükbe. Végül a téglákat (egyelőre) nem adatosították. Viszont, mivel mindenféle külső falazási munkához szükség volt a város engedélyére, az erről szóló infor mációkat már fel tudták dolgozni, és így sikerült is javítaniuk a rendszer előrejelzési teljesítményén, mert ezek azt jelezték, hogy a szóban forgó gyanús ingatlanok valószínűleg mégsem jelentenek veszélyt. Az elemzések időnként rámutattak, hogy néhány hagyományos munkamódszer nem igazán célravezető, ahogy a Pénzcsináló játékosmegfigye lőinek is be kellett látniuk megérzéseken alapuló döntéseik gyengéit. A város telefonos panaszvonalára befutó hívások számára például úgy tekintettek, hogy az jelzi, mely épületekre kell a legnagyobb figyelmet fordítani. Több hívás - súlyosabb helyzet. Kiderült azonban, hogy ez igen félrevezető lehet. Az elegáns Upper East Side városrészben egyetlen pat kány felbukkanása miatt egy órán belül akár 30 telefonhívás is befuthatott, míg Bronxban rágcsálók hada kellett ahhoz, hogy a helyi lakók közül vala ki tárcsázza a 311-et. Az illegális átalakítások miatt befutó hívások többsé gében pedig inkább a zaj, mint a veszélyes állapotok miatt panaszkodtak. 2011 júniusában Flowers és a srácok élesítették a rendszerüket. Hetente feldolgoztak minden panaszt, amely illegális átalakítással állt kapcsolat ban. Kigyűjtötték közülük azokat, amelyek tűzveszélyességi szempont ból a legkockázatosabb 5%-ba tartoztak, és ezeket az ügyeket azonnali intézkedésre továbbították a felügyelőknek. A rendszer eredményessége mindenkit megdöbbentett. A big data elemzést megelőzően a felügyelők az általuk legsürgetőbb nek tartott eseteket nyomban kivizsgálták, de csak 13%-ukban találtak olyan súlyos problémákat, amelyek miatt kiürítést kellett elrendelni. Az új rendszer bevezetése után viszont már a megvizsgált épületek több mint 70%-ában volt szükség intézkedésre. A legnagyobb figyelmet igénylő épü letek kijelölésében a big data ötszörösére növelte a felügyelők munkájának
208
BIG D AT A
hatékonyságát, ami nagy elégedettséggel töltötte el őket: a csip-csup ügyek többé nem vonták el figyelmüket a legfontosabb esetekről. A felügyelők újsütetű hatékonyságának hatásai pedig továbbgyűrűztek. Az illegálisan átalakított lakásokban kitört tüzekben 15-ször nagyobb esélye volt annak, hogy egy tűzoltó megsérül vagy életét veszti, mint a többi tűzesetnél, ezért ők is el voltak ragadtatva az eredménytől. Flowers és a srácok kristály gömböt tartó varázslóknak tűntek, akik a jövőbe látnak, és képesek meg jósolni, hol fenyeget a legnagyobb veszély. Azokkal az adatokkal dolgoz tak, amelyek évek óta megvoltak, begyűjtésük óta jórészt mégis parlagon hevertek, újszerű hasznosításuk révén viszont sikerült kinyerni a bennük rejlő értéket. Az óriási információmennyiség használata lehetővé tette olyan összefüggések feltárását, amelyeket kisebb adatmennyiség esetén nem lehetett észlelni - pontosan ez a big data lényege. A New York-i elemzőcsapat alkimistáinak tapasztalatai sok mindenre rávilágítanak, amit könyvünkben tárgyaltunk. Nem elégedtek meg a rész adatokkal, hanem rettenetesen nagy adatmennyiséget használtak; a város épületeinek listája a teljes sokaságot tartalmazta. Az információk, például az épületek elhelyezkedése és a mentők adatai, elég kuszák voltak, ám ez nem rettentette el őket. A mennyiségből származó előnyök kárpótolták őket a kevésbé pontos információkból származó hátrányokért. Azért tud tak kiemelkedő eredményeket elérni, mert a város működése során sok féle információt adatosítottak (bármennyire következetlenül tették is), és a csapatnak lehetősége nyílt a feldolgozásukra. A szakértői megérzések másodlagossá váltak az adatvezérelt megközelí téssel szemben. Flowers és a srácok ugyanakkor, a legtapasztaltabb felügye lőkkel együttműködve, folyamatosan tesztelték, az idősebbek tudásából merítve tökéletesítették rendszerüket. A program sikerének elsődleges oka mégis az volt, hogy a kauzális kapcsolatok vizsgálata helyett inkább a kor relációkra koncentráltak. „Nem érdekelnek az ok-okozati összefüggések, kivéve, ha cselekvésre szólítanak - magyarázza Flowers. - A kauzalitás nem nekem való, és hogy őszinte legyek, mindig is rázós témának tartottam, ha valaki erről kez dett beszélni. Nem hiszem, hogy bármiféle oksági kapcsolat állna fenn aközött, hogy valaki jelzálog-érvényesítési eljárást kezdeményez egy in gatlan ellen, és aközött, hogy azon a helyen van-e múltból eredő kockázata egy esetleges épülettűznek. Szerintem elég korlátolt dolog lenne ilyesmit
EZUTÁN
209
kijelenteni, és nyilván senki nem is mondana ilyet. Nem, nem, gondolnák sokan, a mögöttes tényezők tehetnek róla. De én egyáltalán nem akarok ebbe belemenni. Meg kell néznünk, van-e jelentősége egy bizonyos adat pontnak, amelyhez hozzáférünk. Ha van, akkor foglalkozunk vele. Ha nincs, akkor nem. Tudja, nekünk valódi problémákat kell megoldanunk. Hogy őszinte legyek, per pillanat kisebb gondunk is nagyobb annál, hogy olyasmin agyaljunk, mi miatt történik valami."
Amikor az adatok beszélnek A big datának gyakorlati szinten nagy jelentősége van, amikor a tech nológiát arra használjuk, hogy megoldást találjunk a mindennapi életünk gondjaira. Ez azonban csak a kezdet. A big data készen áll rá, hogy átala kítsa az életünket, a munkánkat és a gondolkodásunkat. Változás előtt állunk, amely bizonyos értelemben nagyobb, mint a korábbi korszakalko tó innovációk által útnak indított változások, amelyek drámaian meg növelték az információk mennyiségét és léptékét. Megmozdult a föld a lábunk alatt. Régóta biztosnak hitt dolgok egyik pillanatról a másikra megkérdőjeleződnek. A big data megköveteli tőlünk, hogy újra megvitas suk a döntéshozatal, a sors és az igazság természetét. Azt a világképet, amelyet az okok és okozatok rendszerére alapoztunk, most a korrelációk dominanciája teszi próbára. A tudás egykor a múlt megértését jelentette; ma egyre inkább a jövőbe látás képességét jelenti. Mai kérdéseink jóval fontosabbak, mint amelyek akkor vetődtek fel, amikor arra készültünk, hogy kiaknázzuk az elektronikus kereskedelmet, együtt éljünk az internettel, belépjünk a számítógépes korszakba vagy használjuk az abakuszt. Az a gondolat, hogy talán túlértékeltük az okok kutatását - hiszen sok esetben jobb lenne, ha a miértek helyett a mivel fog lalkoznánk -, arra utal, hogy társadalmunk és létünk alapvető kérdéseiről van szó. A big data kihívásaira sem nagyon vannak kész megoldásaink. E kérdések és kihívások is részei az időtlen idők óta zajló vitának az ember univerzumban elfoglalt helyéről, és az értelem kereséséről szólnak ebben a kaotikus és érthetetlen világban.
210
BIG DATA
A big data alapjában véve azt jelzi, eljött az idő, amikor az „információs társadalom" beteljesíti a nevében hordozott ígéretet: az adatok kerülnek a középpontba. A begyűjtött digitális adatok újszerű hasznosítása új célo kat szolgálhat, és az értékek új formáit tárhatja fel. Ez viszont újfajta gon dolkodásmódot igényel, és kihívás elé állítja intézményeinket, sőt még az identitásunkat is megkérdőjelezheti. Egy biztos: az adatmennyiség továbbra is nőni fog, ahogy a feldolgozását lehetővé tevő kapacitásunk is. Bár a legtöbben technológiai kérdésként, a hardverre és a szoftverre összpontosítva tekintenek a big datára, mi úgy véljük, inkább arra érdemes hangsúlyt fektetni, hogy mi történik akkor, amikor az adatok beszélni kezdenek. Több információt tudunk begyűjteni és elemezni, mint valaha. Az ada tok szűkössége többé nem határozhatja meg a világ értelmezésére irányuló erőfeszítéseinket. Sokkal több adatot foghatunk munkára, bizonyos ese tekben szinte az összesei. Ez azonban arra kényszerít minket, hogy a ha gyományostól eltérő módszereket alkalmazzunk, és határozottan megvál toztatja a hasznos információkról alkotott elképzeléseinket. Ahelyett hogy állandóan az adatok hitelességével, pontosságával és ren dezettségével foglalkoznánk, megengedhetünk magunknak némi lazasá got. Az egyértelműen helytelen vagy hamis adatokat persze nem kell el fogadnunk, de a jóval átfogóbb adatkészletek érdekében megbékélhetünk az adatok bizonyos mértékű kuszaságával. Ami azt illeti, néhány esetben az adatok sokasága és rendezetlensége még előnyös is lehet, hiszen amikor csak egy meghatározott részüket próbáltuk használni, nem sikerült teljes körűen megragadnunk a bennük rejlő ismereteket. Mivel a korrelációkat sokkal gyorsabban és olcsóbban meg lehet találni, mint az ok-okozati kapcsolatokat, gyakran célszerű előnyben részesíteni őket. Bizonyos esetekben a jövőben is szükség lesz oksági viszonyokat feltáró tanulmányokra és akkurátusán kiválogatott adatokkal végzett, ellenőrzött kísérletekre, például egy fontos repülőgép-alkatrész esetében. A mindennapi szükségletek jelentős részéhez azonban a miértek helyett a mi ismerete éppen elég jó nekünk. A big data korrelációk pedig útmuta tással szolgálhatnak azon ígéretes területek felé, ahol helye van a kauzális kapcsolatok feltárásának. Ezek a gyors korrelációk lehetővé teszik, hogy spóroljunk a repülő jegyeken, előrejelezhessük az influenzajárvány terjedését, és megtudjuk,
EZUTÁN
211
mely kábelaknákat és túlzsúfolt épületeket kell átvizsgálnunk korlátozott erőforrásokkal rendelkező világunkban. Lehetővé tehetik az egészségbiztosítóknak, hogy orvosi vizsgálat nélkül szerződjenek ügyfeleikkel, és csökkentsék a költségeket, amelyek abból erednek, hogy a betegeket figyel meztetni kell gyógyszereik bevételére. A big data korrelációk segítségével történő előrejelzések szolgáltatják az alapot a fordításokhoz és a vezető nélküli autók fejlesztéséhez. A Walmart megtudhatja, hogy a hurrikánok előtt milyen ízű Pop-Tartsból halmozzon fel készleteket az áruházai be járata mellett (a válasz: epresből).2Természetesen az ok-okozati kapcsolat jó dolog, ha ki tudjuk mutatni. A gond csak az, hogy gyakran igen nehezen megy, és amikor azt hisszük, megtaláltuk, kiderülhet, hogy csupán áltat tuk magunkat. Az új eszközök - a gyorsabb processzorok, a több memória, az okosabb szoftverek és algoritmusok - csak részben adnak magyarázatot, miként vagyunk képesek minderre. Az eszközök fontosak ugyan, de még fonto sabb az a tény, hogy a korábbinál több adattal rendelkezünk, mivel a vilá got egyre több szempontból adatosítják. Igaz, az embernek az a törekvése, hogy számszerűsítse a világot, jóval megelőzte a számítógépes forradal mat. Digitális eszközeink azonban még inkább megkönnyítik ezt a folya matot. Nemcsak arról van szó, hogy a mobiltelefonok nyomon követik, kit hívunk és hová megyünk; az általuk begyűjtött adatokkal azt is ki lehet mutatni, hogy megbetegszünk-e. Nemsokára eljöhet az az idő, amikor a big data azt is meg tudja majd mondani/ beleszeretünk-e valakibe. Az a képességünk, hogy új, több, jobb és gyorsabb dolgokat tegyünk, hatalmas értékeket szabadíthat fel, új győzteseket és új veszteseket teremt ve. Az adatok értékének jelentős része a másodlagos hasznosításukból származik majd, azaz az opciós értékükből, nem pedig az elsődleges használatukból, ahogy általában gondoljuk. Ennek eredményeképpen az adatok legtöbb fajtája esetében ésszerűnek tűnik, ha valaki annyi adatot gyűjt be, amennyit csak bír, és annyi ideig őrzi meg, ameddig csak képesek értéket létrehozni, akár másoknak is lehetőséget teremtve az elemzésükre, ha ők alkalmasabbak a bennük rejlő értékek kinyerésére (feltéve, hogy az adatok birtokosa részesedhet az elemzés hasznából). Azok a vállalatok, amelyek az információáramlás közepébe tudják po zícionálni magukat, és képesek az adatgyűjtésre, jól prosperálnak majd. A big data hatékony kiaknázása technikai tudást és nagy képzelőerőt
212
BIG D AT A
igényel: big data gondolkodásmódot. Az érték döntő része azonban leg inkább azokhoz kerülhet, akik az adatokat birtokolják. Időnként pedig nemcsak a jól látható információk érhetnek kincset, hanem a digitális láb nyomok is, melyeket az okosan gondolkodó vállalatok meglévő szolgál tatásaik továbbfejlesztésére vagy egy teljesen új szolgáltatás elindítására használhatnak fel. A big data ugyanakkor hatalmas veszélyeket is hordoz. Veszítenek hatékonyságukból azok az alapvető technikai és jogi mechanizmusok, amelyek segítségével napjainkban a személyiségi jogokat igyekszünk védelmezni. A múltban egyértelmű volt, melyek a személyazonosításra alkalmas adatok - név, társadalombiztosítási szám, adószám stb. -, így viszonylag könnyű volt védeni őket. Ma már a legártalmatlanabb adatok is elárulhatják kilétünket, ha egy adatgyűjtő eleget halmoz fel belőlük. Az anonimmé tétel és a rejtőzködés többé nem működik. Sőt, ha egy ma gánszemély a megfigyelés célkeresztjébe kerül, immár jóval mélyebben hatolnak be a magánéletébe, mint bármikor korábban, hiszen a hatóságok nemcsak az illetőről akarnak a lehető legtöbbet megtudni, hanem a teljes kapcsolatrendszerérői is. A személyiségi jogokkal kapcsolatos kihíváson túlmenően a big data használata egy másik nyugtalanító problémát is felvet: megvan a veszélye annak, hogy az embereket nemcsak a tényleges tetteik alapján ítélhet jük meg, hanem az adatok jelezte hajlamaik szerint is. Ahogy a big data előrejelzések egyre pontosabbá válnak, a társadalom arra használhatja őket, hogy az embereket előre jelzett viselkedésük alapján büntesse olyan tettek miatt, amelyeket el sem követtek. Magától értetődik, hogy az ilyen jóslatokat lehetetlen cáfolni; tehát azok, akiket vádolnak, sohasem tudják tisztázni magukat. Ha ezen az alapon rónak ki büntetést, az ellent mond a szabad akaratnak, és tagadja annak lehetőségét, hogy valaki más utat választhat, bármilyen kicsi is rá az esély. Mivel a társadalom egyéni felelősséggel ruház fel mindenkit (és a büntetést is ennek megfelelően szabja ki), az emberi akaratot sérthetetlennek kell tekinteni. A jövőre to vábbra is úgy kell tekintenünk, mint olyasvalamire, amit az elképzeléseink szerint magunk alakíthatunk. Máskülönben a big data elferdíti az emberi természet lényegét: a racionális gondolkodást és a szabad akaratot. Nem létezik pofonegyszerű módja annak, hogy maradéktalanul fel készüljünk a big data világára; új alapelveket kell lefektetni hozzá, me
EZUTÁN
213
lyekre aztán a szabályozás épülhet. Ebben egy sor fontos gyakorlati vál tozás segítheti a társadalmat, amely egyre inkább tisztában lesz a big data jellemzőivel és hiányosságaival. A személyiségi jogok védelme megköve teli, hogy a felelősség az egyénekről az adatfelhasználókra szálljon át, és a felelős adathasználatra helyezzük a hangsúlyt. Az előrejelzések világában létfontosságú, hogy az emberi akaratot szentnek és sérthetetlennek tart suk, és ne csak azt az álláspontot védelmezzük, hogy az emberek képesek morális döntéseket hozni, hanem az egyéni tettekért vállalt egyéni fele lősség jelentőségét is. A társadalom pedig azzal védekezhet, hogy létre hozza az „algoritmisták" új szakmai csoportját a big data analitikájának értékelésére, nehogy a big data segítségével kiszámíthatóbbá váló világ végül fekete dobozzá váljon, a megismerhetetlenség egyik formáját a má sikkal helyettesítve. A big data segít majd a sürgető globális kérdések megértésében és megoldá sában is. A klímaváltozás elleni küzdelem megköveteli a környezetszennye zési adatok elemzését, hogy megértsük, mire kell összpontosítanunk erőin ket, és megtaláljuk a problémák csökkentésének lehetőségeit. A világszerte elhelyezett érzékelők - köztük azok, amelyeket okostelefonokba építettek be - olyan adattömeget biztosítanak számunkra, amely lehetővé teszi a globális felmelegedés sokkal részletesebb modellezését. Az egészségügy fejlődése és költségeinek csökkentése - különösen a világ szegényei szá mára - pedig jelentős részben olyan feladatok automatizálása révén válik lehetségessé, melyekhez jelenleg az ember ítélőképességére van szükség, de a jövőben a számítógép is elvégezheti: például a rákos sejtek kimutatá sát a szövettani vizsgálatok során, vagy a fertőzések észlelését még a tüne tek kialakulása előtt. A big datát használták már a gazdasági fejlődés előmozdítására és konf liktusok megelőzésére. A mobiltelefon-használók mozgásának elemzésével olyan részeket tárt fel az afrikai nyomornegyedekben, ahol élénk gazda sági tevékenység folyik. Felfedett olyan területeket, ahol küszöbönálló etnikai összecsapások fenyegettek, és jelezte, miként bontakozhatnak ki menekültválságok.3Használata rohamosan terjed majd, és a technológiát az élet egyre több területén alkalmazzák. A big data segít nekünk, hogy mindent jobban csináljunk, és lehetővé teszi, hogy egészen új dolgokat tegyünk. Ne tekintsük azonban varázs
21 4
BIG DATA
pálcának! Nem teremti meg a világbékét, nem szünteti meg a szegénységet, és egy új Picassót sem köszönhet majd neki az emberiség. A big data gye reket sem tud csinálni - koraszülött babák életét azonban képes megmen teni. Idővel szinte az élet minden területén igény lesz rá, és meglehetősen furcsálljuk majd, ha valahol nem alkalmazzák - valahogy úgy, ahogy ma elvárjuk az orvostól, hogy röntgenre küldjön, ha az egyszerű vizsgálat nem elegendő a probléma pontos feltárásához. Ha a big data mindennapos dologgá válik, könnyen előfordulhat, hogy hatást gyakorol a jövővel kapcsolatos gondolkodásunkra. Az emberiség időérzékelése úgy 500 évvel ezelőtt alaposan megváltozott, ami része volt a világiasabb, tudománypártoló, felvilágosodott Európa felé tartó átala kulásnak. Azelőtt az időre ciklikus folyamatként gondoltak, akárcsak az életre. Minden nap (és év) nagyon hasonlított az előzőre, sőt még az élet vége is hasonlított az élet kezdetére, hiszen a felnőttek újra gyermeteggé váltak öregségükre. Később a lineáris időszemlélet kezdett elterjedni: im már napok egymásutánjának tekintették az időt, melynek múlása során a világ alakítható, az élet eseményei pedig befolyásolhatók. Korábban a múlt, a jelen és a jövő egybeolvadt; most viszont az emberiségnek már volt múltja, amelyre visszanézhetett, jövője, amelybe előretekinthetett, miköz ben lehetősége nyílt a jelen alakítására.4 Míg a jelen alakítható lett, a jövő egy tökéletesen megjósolható valamiből egy nyitott, érintetlen valamivé változott - hatalmas, üres festővászonná, melyet az egyének a saját értékeiknek és erőfeszítéseiknek megfelelően tudtak megfesteni. A modern idők egyik meghatározó jellemzője, hogy úgy érezzük, irányíthatjuk a sorsunkat; ez különböztet meg minket őseink től, akik számára a determinizmus valamilyen formája zsinórmértékül szolgált. A big data előrejelzések viszont kevésbé nyitottnak mutatják a jövőt. Nem egy üres festővásznat látunk, hanem egy olyat, amelyre már igen halványan és bizonytalanul, de felvázolták a jövő körvonalait, melye ket csak azok láthatnak élesen, akik megfelelő technológiával rendelkez nek hozzá. Úgy tűnik, mintha emiatt kevésbé lennénk képesek rá, hogy magunk alakítsuk a sorsunkat. A lehetségesség áldozat lett a valószínűség oltárán. A big data ugyanakkor azt is jelentheti, hogy örökre a foglyai maradunk korábbi tetteinknek, és azokat felhasználhatják ellenünk olyan rendsze rek, amelyek bátorkodnak megjósolni viselkedésünket. A múltunk elől
EZUTÁN
215
nincs menekvés. „A múlt csupán prológ"5 - írta Shakespeare. Jól-rosszul, de a big data ugyanezt jeleníti meg algoritmusok formájában. Vajon az előrejelzések világa lehűti-e lelkesedésünket, hogy köszöntsük az új kor hajnalát, elfojtja-e bennünk az emberi vágyat, hogy nyomot hagyjunk ma gunk után a világban? Nagy valószínűséggel épp az ellenkezője fog bekövetkezni. Ha tudjuk, hogy bizonyos dolgok miként zajlanak majd a jövőben, lehetővé válik, hogy lépéseket tegyünk a problémák megelőzése vagy az eredmények javítása érdekében. Már jóval a záróvizsga előtt észrevehetjük, ha egyes diákok teljesítménye hanyatlani kezd. A rákot már olyan kezdeti stádiumá ban észlelhetjük és kezelhetjük, hogy a betegségnek nem lesz esélye a teljes kifejlődésre. Megtudhatjuk, mekkora a valószínűsége egyes tinédzserek nem kívánt terhességének, vagy annak, hogy a bűnözés útjára lépnek, és közbeavatkozhatunk, hogy változtassunk a dolgok megjósolt kimenete lén, amennyire csak lehet. Megakadályozhatjuk, hogy a túlzsúfolt New York-i bérlakásokban halálos áldozatokkal járó tűzesetek történjenek, mert tudjuk, mely épületeket kell azonnal ellenőrizni. Semmi sincs eleve elrendelve, hiszen mindig válaszolhatunk és reagál hatunk az információkra. A big data előrejelzései nincsenek kőbe vésve, ezek csupán várható kimenetelek - ami azt jelenti, hogy ha változtatni akarunk az eredményeken, megtehetjük. Meghatározhatjuk, hogyan a legcélszerűbb fogadnunk a jövőt, és miként uralhatjuk. És ahhoz, hogy mindezt elérjük, nem kell megértenünk a világegyetem működését, vagy bebizonyítanunk az istenek létezését - a big data épp elég jó lesz.
Még több big data Ha a big data átalakítja az életünket - optimalizálja, tökéletesíti és haté konyabbá teszi - , vajon milyen szerepe marad az intuíciónak, a hitnek, a bizonytalanságnak és az eredetiségnek? Amennyiben a big data bármire is megtanít minket, az csak annyi, hogy gyakran épp elég - mélyebb ismeretek nélkül is - jobban cselekedni, javítani a dolgokon. Ha folyamatosan így teszünk, az igen hathatós lehet. Még ha nem is vagyunk tisztában azzal, miért hatékonyak az erőfeszítéseink, jobb
216
BIG DATA
eredményeket érhetünk el, mint e dolgok nélkül. Flowers és a srácok talán nem mindentudó bölcsek, de életeket mentenek. A big data nem az algoritmusok és a robotok zord világa. Nekünk, embereknek, lényeges szerepünk van benne, a gyarlóságainkkal, a tév eszméinkkel és a hibáinkkal együtt, hiszen e tulajdonságaink kéz a kézben járnak a kreativitással, az ösztönökkel és a zsenialitással. Ugyanaz a kusza mentális folyamat, amely időnként lealacsonyít vagy önfejűvé tesz minket, máskor sikerre vezet, sőt néha kifejezetten nagy dolgokra bukkanhatunk. Ez arra utal: ahogy lassacskán megtanulunk kusza adatokkal dolgozni, elfogadva, hogy ez magasabb célokat szolgál, a pontatlansághoz sem kell negatívan viszonyulnunk, éppen emberi volta miatt. Végső soron a kusza ság lényeges vonása mind a világnak, mind az emberi elmének, tehát csak nyerhetünk, ha elfogadjuk, és a magunk javára fordítjuk. Vajon egy olyan világban, ahol az adatok alakítják a döntéseket, mi lyen szerep jut majd az embernek, az emberi megérzéseknek, és annak, hogy időnként a tényekkel szembefordulva cselekedjünk? Ha mindenki az adatokhoz folyamodik, és kiaknázza a big datában rejlő lehetőségeket, a differenciálódás alapjává a kiszámíthatatlanság válhat: az ösztönösség, a kockázatvállalás, a véletlenszerűség és a hibázás emberi elemei. Ez esetben különösen fontos lesz, hogy helyet teremtsünk az embernek, vagyis teret adjunk az intuíciónak, a józan észnek és a találékonyságnak, hogy ne szorítsák ki az adatok és a számítógépek mechanikus válaszai. Az emberi lényekben épp az a legcsodálatosabb, amit az algoritmusok és a szilíciumchipek képtelenek feltárni, méghozzá azért, mert nem lehet adatok révén megragadni. Ez nem olyasmi, ami „van", hanem olyasmi, ami „nincs": mint az üres terek, a járdák repedései, a ki nem mondott és a még nem is létező gondolatok. Ennek fontos következményei vannak a társadalmi haladás fogalmára nézve. A big data lehetővé teszi, hogy gyorsabban kísérletezhessünk, és új irányokat tárhassunk fel. Ezek az előnyök több innovációt eredmé nyezhetnek. Arról a bizonyos szikráról azonban, mely a felfedezésekhez szükséges, az adatok nem beszélnek. Nincs az az adatmennyiség, ami ezt igazolni tudná, hiszen még nem is létezik. Ha Henry Ford big data algo ritmusok segítségével lekérdezte volna, mit akarnak a vásárlói, akkor ők - híres mondását átfogalmazva - „gyorsabb lovat" mondtak volna. A big data világában az ember legjellemzőbb vonásait kell támogatnunk - a krea
EZUTÁN
tivitást, az intuíciót és az intellektuális ambíciót mindig az emberi leleményesség.
2 17
mert a haladás forrása
A big data egyszerre eszköz és erőforrás. Inkább arra hivatott, hogy infor máljon, mint arra, hogy magyarázatot adjon; utat mutat a megértés felé, ám félreértéshez is vezethet, ha nem bánnak vele elég ügyesen. Bármennyi re káprázatosnak tartjuk is a big data teljesítményét, nem szabad hagy nunk, hogy e csillogás elvakítson bennünket, és ne vegyük észre a tökélet lenségeit. A világ információinak teljes körét - az abszolút teljes sokaságot - a mai technológiáinkkal lehetetlen összegyűjteni, tárolni és feldolgozni. (A svájci CERN részecskefizikai laboratóriumban például a kísérletek során keletkező információk kevesebb mint 0,1%-át gyűjtik be, a többi, látszólag haszontalan információt hagyják elveszni.)6Ez azonban nem új keletű igazság. A társadalmat mindig is hátráltatták a valóság méréséhez és megismeréséhez használt eszközök korlátai, az iránytűtől és a szextánstól kezdve a teleszkópon és a radaron át egészen a GPS-ig. Eszközeink teljesítménye a jövőben kétszer, tízszer, ezerszer nagyobb lesz, mai tudá sunk pedig igencsak eltörpül majd az akkori ismereteink mellett. Napjaink big data világát hamarosan épp olyan őskövületnek tekintjük majd, mint amilyennek manapság az Apollo-11 vezérlő számítógépének 4 kilobájtos írható memóriáját látjuk.7 A világon létező összes információnak mindig is csak nagyon pici töre dékét leszünk képesek begyűjteni és feldolgozni. A valóságnak ez csupán a halvány lenyomata lehet, akárcsak Platón híres hasonlatában a barlang falán megjelenő árnyképek. Mivel tökéletes információkkal soha nem ren delkezhetünk, előrejelzéseink természetüknél fogva sosem tévedhetetle nek. Ez nem azt jelenti, hogy rosszak, csak azt, hogy mindig is hiányosak lesznek. A big data által kínált ismereteket mindez nem cáfolja, ám a big datát a maga helyére teszi. Annak mutatja, ami valójában: olyan eszköznek, amely nem kínál végső válaszokat, elég jó válaszokat viszont annál inkább, és segítséget nyújt, míg jobb módszereket, s ezáltal jobb válaszokat nem találunk. Ugyanakkor azt is sugallja, hogy ezt az eszközt jókora alázattal és emberséggel kell használnunk.
KÖSZÖNETNYILVÁNÍTÁS
Mindkettőnknek abban a szerencsében volt részünk, hogy együtt dol gozhattunk az információs hálózatok és az informatikai innovációk területének egyik első szakmai óriásával, Lewis M. Branscombbal, akitől rengeteget tanultunk. Intellektusa, ékesszólása, energiája, professzionaliz musa, szellemessége és végtelen kíváncsisága nagyon ösztönzően hatott ránk. Hasonlóan rokonszenves és bölcs partnerétől, Connie Mullintől pedig bocsánatot szeretnénk kérni, amiért nem szívleltük meg tanácsát, és könyvünknek nem a „Szuperdata" címet adtuk. Momin Malik kivételes intellektusának és szorgalmának köszönhetően nagyszerű kutatási asszisztensnek bizonyult. Abban a megtiszteltetésben lehet részünk, hogy a képviseletünket a Garamond ügynökségtől Lisa Adams és Dávid Miller látja el, akik minden tekintetben fantasztikusan teljesítettek. Szerkesztőnk, Eamon Dolan fenomenálisnak bizonyult - a szerkesztők azon ritka fajtájához tartozik, akik szinte csalhatatlan érzékkel szerkesztik a szövegeket, és teszik próbára gondolkodásunkat, a végered mény pedig valahogy mindig jobb lesz, mint amilyenre számítottunk. Sze retnénk köszönetét mondani mindazoknak, akik a Houghton Mifflin Harcourt kiadónál a segítségünkre voltak. Külön köszönet illeti Beth Burleigh Fullert és Ben Hymant; csakúgy, mint Camille Smith-t, hozzáértő nyomdai előkészítő tevékenységéért. Hálásak vagyunk James Franshamnek, a The Economist munkatársának tényellenőrző munkájáért, valamint a kéziratra vonatkozó okos meglátásaiért. Különösen hálásak vagyunk azoknak az embereknek, akik a gyakorlat ban is alkalmazzák a big datát, és időt szakítottak rá, hogy elmagyarázzák
220
BIG D AT A
nekünk a tevékenységüket: Oren Etzioninak, Cynthia Rudinnak, Carolyn McGregornak és Mike Flowersnek. Viktor személyes köszönetnyilvánítása: Köszönöm Philip Evansnek az elmúlt több mint egy évtizedben folytatott beszélgetéseinket. Evans olyan ember, aki mindig két lépéssel előbbre gon dolkodik, és az elképzeléseit mindig körültekintően és szabatosan fogal mazza meg. Szintén hálás vagyok egykori kollégámnak, Dávid Lazernek, a big data egyik első és egyik legnagyobb szaktekintélyének, akinek oly sokszor kér tem tanácsát a munkám során. Köszönet a big datát középpontba állító, 2011-es Oxford Digital Data Dialogue résztvevőinek, különösen pedig Fred Cate társelnöknek az igen értékes tanácskozásért. Munkahelyem, az Oxford Internet Institute ideális környezetet jelentett a könyv megírásához, mivel számos kollégám foglalkozik big data kutatá sokkal. Hálával tartozom a Keble College támogatásáért, ahol kutató egye temi tanárként tevékenykedem. E támogatás nélkül nem tudtam volna hozzáférni a könyv több fontos elsődleges forrásához. Amikor valaki könyvírásra adja a fejét, mindig a családja hozza a leg nagyobb áldozatot. Nemcsak arról a sok-sok óráról van szó, amit az irodai számítógépem előtt töltöttem, hanem azokról az időszakokról is, mikor fizikailag ugyan jelen voltam, de gondolatban messze jártam... Mindezért kérem a feleségem, Birgit, és a kis Viktor bocsánatát. ígérem, a jövőben jobban fogok figyelni rájuk. Kenneth személyes köszönetnyilvánítása: Számos nagyszerű adattudósnak tartozom hálával az évek során nyújtott segítségükért, különösen Jeff Hammerbachernek, Amr Awadallahnak, DJ Patilnek, Michael Driscollnak, Michael Freednek, valamint a Google sok munkatársának, többek között Hal Variannak, Jeremy Ginsbergnek, Peter Norvignak és Udi Manbernek; és rövidségük ellenére rendkívül értékesek voltak az Eric Schmidttel és Larry Page-dzsel folytatott beszélge téseim is. Tim O'Reilly, az internet korának tudósa nagymértékben gazdagítot ta gondolkodásomat, csakúgy, mint Marc Benioff a Salesforce.com-tól.
KÖSZÖNETNYILVÁNÍTÁS
221
Matthew Hindman meglátásai szokás szerint mérhetetlenül hasznosak voltak. James Guszcza a Deloitte-nál rendkívül segítőkésznek bizonyult, éppúgy, mint régi barátom, Geoff Hyatt, akinek több, adatokra épülő vál lalkozása is van. Külön köszönet illeti Pete Warden filozófust, a big data gyakorlati alkalmazóját. Sok barátom osztotta meg velünk az ötleteit, és látott el bennünket tanácsokkal, többek között John Turner, Angelika Wolf, Niko Waesche, Katia Verresen, Dávid Wishart, Anna Petherick, Blaine Harden és Jessica Kowal. Mások egy-egy téma kifejtésére inspiráltak bennünket, például Blaise Aguera y Arcas, Eric Horvitz, Dávid Auerbach, Gil Elbaz, Tyler Bell, Andrew Wyckoff és sokan mások az OECD-től, Stephen Brobst és csapata a Teradatától, Anthony Goldbloom és Jeremy Howard a Kaggle-től, Edd Dumbill, Roger Magoulas és az egész csapat az O'Reilly Mediától, vala mint Edward Lazowska. James Cortada hozzájárulása egészen kiemelkedő volt. Köszönet illeti Ping Lit az Accel Partnerstől és Roger Ehrenberget az IA Venturestől. A The Economist munkatársai rengeteg ötletet és támogatást adtak. Sze retnék külön köszönetét mondani szerkesztőimnek, Tóm Standage-nek, Dániel Franklinnek és John Micklethwaitnek, valamint Barbara Becknek, aki a „Data, Data Everywhere" című különjelentés szerkesztését végezte, melynek anyaga e könyv kiindulópontját jelentette. Tokiói munkatársaim, Henry Tricks és Dominic Zeigler példaképeink voltak az újdonságok fel kutatásában és nagyszerű megfogalmazásában. Olivér Morfon bölcsessége mindig a legjobbkor volt segítségünkre. Az Ausztriában tartott Salzburg Global Seminar az idilli nyugalom és a szellemi kihívások tökéletes összhangját nyújtotta; ilyen környezetben az írás és a gondolkodás szinte magától megy. Az Aspen Institute kerek asztala 2011 júliusában! sok ötletet adott, amiért köszönet illeti a résztvevő ket és a szervezőt, Charlie Firestone-t. Emellett hálás köszönet Teri Elniskinek a nekem nyújtott rengeteg segítségért. Frances Cairncross, az oxfordi Exeter College rektora nemcsak zavarta lan körülményeket biztosított a munkámhoz, de folyamatosan bátorított is. Aligha lehet mindazon technológiai és társadalmi kérdéseket számba venni, amelyeket másfél évtizeddel ezelőtt megjelent, The Death ofDistance (A távolság halála) című munkája vetett fel; e kötet fiatal újságíróként rám is nagy hatást gyakorolt. Felemelő érzés volt, hogy reggelente úgy sétál
222
BIG DATA
hattam át az Exeter College udvarán, mintha a tőle kapott stafétabotot tartanám a kezemben, annak ellenére, hogy nagyon is tisztában voltam vele, mennyivel gyengébb futó vagyok nála. A legnagyobb köszönet a családomat illeti, akiknek el kellett engem - és gyakran a hiányomat - viselniük. Szüleimnek, nővéremnek és a töb bieknek is hálával tartozom, de leginkább a feleségemnek, Heathernek, valamint gyermekeinknek, Charlotte-nak és Kaznak. Támogatásuk, báto rításuk és ötleteik nélkül ez a könyv nem jöhetett volna létre. Mindketten sok olyan embernek tartozunk hálával, akikkel már jóval az előtt eszmecserét folytathattunk a big data témakörében, mielőtt ez a kife jezés átment volna a köztudatba. Ezzel kapcsolatban külön köszönet illeti mindazokat, akik az évek során részvételükkel megtisztelték a Rueschlikon Conference on Information Policy rendezvényét, melynek Viktor a társszervezője, Kenneth pedig a jegyzőkönyvvezetője volt. Szeretnénk külön köszönetét mondani Joseph Alhadeffnek, Bemard Benhamou-nak, John Seely Brownnak, Herbert Burkertnek (aki bemutatott minket Com modore Maurynak), Peter Cullennek, Ed Feltennek, Urs Gassernak, Jói Itónak, Jeff Jónásnak, Nicklas Lundbladnek, Douglas Merrillnek, Rick Murraynek, Cory Ondrejkának és Paul Schwartznak. Viktor Mayer-Schönberger - Kenneth Cukier O xford / London, 2012. augusztus
FELHASZNÁLT IRODALOM
Alter, A lexandra: „Your E-Book Is R eading You". Wall Street Journal, 2012. június 29., h ttp ://o n lin e.w sj.eo m /article/S B 10001424052702304870304577490950051438304. htm l. Anderson, Benedict: Elképzelt közösségek: Gondolatok a nacionalizmus eredetéről és elter jedéséről (Imagined Communities). Ford .: Sonkoly Gábor. Budapest, L 'H arm attan , Atelier, 2006. A nderson, C hris: „The End of Theory". Wired, 16/7., 2 0 0 8 , h ttp ://w w w .w ired .com / science/discoveries/m agazine/16-07/pb_theory. Asur, Sitaram - Bernardo A. H uberm an: „Predicting the Future w ith Social Media". Proceedings of the 2 0 1 0 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 4 9 2 -4 9 9 . Az online változatot lásd h ttp ://w w w .h p l. hp.com /research/scl/papers/socialm edia/socialm edia.pdf. Ayres, Ian: Super C runchers: Why Thinking-By-Numbers Is the New Way to Be Smart. N ew York, Bantam Books, 2007. Babbie, Earl: Practice of Social Research. Belm ont, W adsw orth Cengage, 2010. B ackstrom , Lars - C ynthia Dwork - Jon Kleinberg: „W herefore A rt Thou R3579X?: A nonym ized Social Netw orks, Flidden Patterns, and Structural Steganography". Communications of the ACM, 2011. decem ber, 1 3 3 -4 1 . Bakos, Yannis - Erik Brynjolfsson: „Bundling Inform ation G oods: Pricing, Profits, and Efficiency". Management Science 4 5 ,1 9 9 9 . decem ber, 16 1 3 -3 0 . Bankó, Michele - Eric Brill: „Scaling to Very Very L arge C orpora for N atural L an guage Disambiguation". M icrosoft R esearch, 2001, h ttp://acl.ldc.upenn.edu/P/P01/ P01-1005.pdf.
224
BIG DATA
Barbaro, M ichael - Tom Zeller Jr: „A Face Is Exposed for AOL Searcher No. 4417749". New York Times, 2006. augusztus 9., http://w w w .nytim es.com /2006/08/09/technology/ 09aol.htm l. Barnes, Brooks: „A Year of Disappointm ent at the Movie Box Office". New York Times, 2011. decem ber 25,/ http ://w w w .nytim es.com /2011/12/26/b usiness/m ed ia/a-yearof-disappointm ent-for-hollyw ood.htm l. Beaty, Janice: Seeker of Seaways: A Life of Matthew Fontaine Maury, Pioneer Oceanogra pher. N ew York, Pantheon Books, 1966. Berger, Adam L. et al.: „The Candide System for M achine Translation". Proceedings of the 1994ARPA Workshop on Human Language Technology, 1994, http://aclweb.org/anthologyn ew /H /H 94/H 94-1100.p d f. Berk, R ichard: „The Role of Race in F o recasts of Violent C rim e". Race and Social Problems 1 ,2 0 0 9 ,2 3 1 -4 2 . Black, Edw in: IBM and the Holocaust: The Strategic Alliance between Nazi Germany and America's Most Powerful Corporation. Lake Arbor, Crow n, 2003. boyd, danah - Kate Crawford: „Six Provocations for Big Data". A kutatási anyagot az Oxford Internet Institute „A Decade in Internet Time: Symposium on the D yna mics of the Internet and Society" cím ű, 2011. szeptem ber 21-én tarto tt szim póziu m án m utatták be. Lásd h ttp ://ssrn .co m /ab stract= 1926431. Brow n, Brad - M ichael Chui - Jam es M anyika: „Are You Ready for the Era of 'Big D ata'?". McKinsey Quarterly, 2011. október 10. Brynjolfsson, Erik - A ndrew M cAfee - M ichael Sorell - Feng Z hu: „Scale W ithout ' M ass: Business Process Replication and Industry D ynam ics". HBS m unkaanyag, 2006. szeptem ber, h ttp ://w w w .hb s.ed u /research /pd f/07-016.p df. Lásd még h ttp :// hbsw k.hbs.edu/item /5532.htm l. Brynjolfsson, Erik - Lórin H itt - H eekyung Kim: „Strength in Num bers: How Does Data-Driven Decisionm aking Affect Firm Perform ance?". ICIS 2 Oil Proceedings, 13, h ttp://aisel.aisnet.org/icis2011/proceedings/econom icvalueIS/13. Lásd még h ttp :// papers.ssrn.com /sol3/papers.cfm ?abstract_id=1819486. Byrne, John: The Whiz Kids. New York, Doubleday, 1993. Cate, Fred H : „The Failure of Fair Inform ation Practice Principles" In Consumer Pro tection in the Age of the „Information Economy". Jane K. W inn (ed.) Burlington, Ashgate, 2006. C hin, A. - A. Klinefelter: „Differential Privacy as a Response to the Reidentification Threat: The Facebook Advertiser Case Study". 90 North Carolina Law Review 1417,
2012 .
FELHASZNÁLT IRODALOM
225
Crosby, Alfred: The Measure of Reality: Quantification and Western Society, 1250-1600. N ew York, Cambridge University Press, 1997. Cukier, Kenneth: „Data, D ata Everyw here". The Economist, 2010. február 27., 1-14. Cukier, Kenneth: „Tracking Social Media: The Mood of the Market". Econom ist.com , 2012. június 28., h ttp ://w w w .eco n o m ist.co m /b lo g s/g rap h icd etail/2012/06/track ing-social-m edia. D avenport, Thom as H. - Paul B arth - Randy Bean: „How 'Big Data' Is Different". Sloan Review, 2012. július 3 0 ., h ttp ://slo a n re v ie w .m it.e d u /th e -m a g a z in e /2 0 1 2fall/54104/how -big-data-is-different/. Di Q uinzio, M elanie - A nne M cC arth y: „Rabies Risk A m ong Travellers". CM AJ 178/5., 200 8 ,5 6 7 . D rogin, M arc: A nathem a!: Medieval Scribes and the History of Book Curses. M ontclair, Allanheld and Schram , 1983. D ugas, A. F. et al.: „Google Flu Trends: C orrelation w ith Em ergency D epartm ent Influenza Rates and Crow ding M etrics". CID Advanced Access, 2012. január 8. D uggan, M ark - Steven D. Levitt: „W inning Isn't Everything: C orruption in Sumo W restlin g". American Economic Review 9 2 , 2 0 0 2 , 1 5 9 4 -1 6 0 5 ., h ttp ://p rice th e o ry . u chicago.edu /levitt/P apers/D u ggan L evitt2002.p d f. D uhigg, C harles: A szokás hatalma - Miért tesszük azt, amit teszünk, és hogyan változtas sunk rajta1 (The Power of Habit: Why We Do What We Do in Life and Business). Ford.: Rézm űves László. Budapest, C asparus, 2012. D uhigg, Charles: „How Companies L earn Your Secrets". New York Times, 2012. feb ru ár 16., h ttp ://w w w .nytim es.com /2012/02/19/m agazine/shoppinghabits.htm l. Dwork, Cynthia: „A Firm Foundation for Private Data Analysis". Communications of the ACM, 2011. január, 8 6 -9 5 ., h ttp ://dl.acm .org/citation.cfm ?id = 1866739.1866758. E conom ist, The: „Rolls-Royce: Britain's L onely H igh-Flier". The Economist, 2009. jan u ár 8., http ://w w w .econom ist.com /nod e/12887368. E conom ist, The: „Building w ith Big D ata: The D ata Revolution Is C h an gin g the L an d scap e of Business". The Economist, 2011. május 2 6 ., h ttp ://w w w .eco n o m ist. com /node/18741392/. Econom ist, The: „Official Statistics: Don't Lie to Me, Argentina". The Economist, 2012. február 25., h ttp ://w w w .econom ist.com /nod e/21548242. Econom ist, The: „Counting Every M oment". The Economist, 2012. m árcius 3., h ttp :// w w w .econ om ist.com /n ode/21548493. Econom ist, The: „Vehicle D ata R ecorders: W atching Your Driving". The Economist, 2012. június 23., h ttp ://w w w .econom ist.com /nod e/21557309.
226
BIG D AT A
Edw ards, D ouglas: I'm Feeling Lucky: The Confessions of Google Employee Number 59. Boston, H oughton M ifflin H arcou rt, 2011. E hrenberg, Rachel: „Predicting the N ext Deadly M anhole Explosion". Wired, 2010. július 7., h ttp ://w w w .w ired.com /w iredscience/2010/07/m anholeexplosions. Eisenstein, Elizabeth L .: The Printing Revolution in Early Modern Europe. N ew York, Cam bridge University Press, 1993. Etzioni, O ren - C. A. Knoblock - R. Tuchinda - A. Yates: „To Buy or N ot to Buy: M in ing Airfare Data to M inim ize Ticket Purchase Price". SIGKDD 2 0 0 3 ,2 0 0 3 . augusz tus 2 4 -2 7 ., h ttp ://knight.cis.tem ple.edU /~yates//papers/ham let -kdd03.pdf. Frei, Patrizia et al.: „Use of Mobile Phones and Risk of Brain Tum ours: U pdate of D anish C oh ort Study". British Medical Journal 2011, 3 4 3 , h ttp ://w w w .b m j.co m / con ten t/343/bm j.d 6387. Furnas, A lexander: „Homeland Security's 'P re-C rim e' Screening W ill N ever Work". The Atlantic Online, 2 0 1 2 . április 17., h ttp ://w w w .th e a tla n tic.co m /te ch n o lo g y / a rc h iv e /2 0 1 2 /0 4 /h o m e la n d -s e c u rity s -p re -c rim e -s c re e n in g w ill-n e v e r-w o rk / 255971/. G arton Ash, Tim othy: The File: A personal history. London, Atlantic Books, 2008. Geron, Tomio: „Twitter's Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop on Some Days". Forbes, 2012. június 6., h ttp://w w w .forbes.com /sites/tom iogeron/ 2012/06/06/tw itters-dick-costolo-m obile-ad-revenue-beats-desktop-on-som edays/. Ginsburg, Jerem y et al.: „D etecting Influenza Epidem ics Using Search Engine Q ue ry Data". Nature 4 5 7 ,2 0 0 9 ,1 0 1 2 -1 4 ., h ttp ://w w w .nature.com /n atu re/jou rn al/v457/ n7232/fu ll/n atu re07634.h tm l. Golder, Scott A. - M ichael W. M acy: „D iurnal an d Seasonal M ood Vary w ith Work, Sleep, and D aylength Across Diverse Cultures". Science 3 3 3 ,2 0 1 1 . szeptem ber 30., 1878 -8 1. Golle, Philippe: „Revisiting the Uniqueness of Simple Demographics in the US Popu lation". Association for Computing Machinery Workshop on Privacy in Electronic Society 5 , 2006, 7 7 -8 0 . Goo, Sara K ehaulani: „Sen. K en n ed y Flagged by N o -F ly List". Washington Post, 2 0 0 4 . au gusztus 20., h ttp ://w w w .w ash in gton p ost.com /w p -d yn /articles/A 170732004A u gl9.h tm l. H aeberlen, A. et al.: „Differential P rivacy Under Fire" In S E C 'U : Proceedings of the 20th USENIX conference on Security, 33., h ttp ://w w w .cis.u p en n .ed u /~ ah ae/p ap ers/ fu zz-sec2011.p d f. H alberstam , David: The Reckoning. N ew York, W illiam M orrow, 1986.
FELHASZNÁLT IRODALOM
227
H aldane, J. B. S.: „On Being the Right Size". Harper's Magazine, 1926. m árcius, h ttp :// h arp ers.org/archive/1926/03/on-being-the-right-size/. H alevy, Álon - Peter N orvig - Fernando Pereira: „The Unreasonable Effectiveness of Data". IEEE Intelligent Systems, 2009. m árcius/április, 8 -1 2 . H arcou rt, B ern ard E .: Against Prediction: Profiling, Policing, and Punishing in Android Actuarial Age. Chicago, University of C hicago Press, 2006. Hardy, Quentin: „Bizarre Insights from Big Data". N YTim es.com , 2012. m árcius 28., http ://bits.b logs.nytim es.com /2012/03/28/bizarre-insights-from -big-data/. Hays, Constance L.: „What W al-M art Knows About Customers' Habits". New York Times, 2 0 0 4 . novem ber 14., h ttp ://w w w .n y tim e s.co m /2 0 0 4 /ll/1 4 /b u sin e ss/y o u rm o n e y / 14wal.html. H earn, Chester G.: Tracks in the Sea: Matthew Fontaine Maury and the Mapping of the Oceans. Cam den, International M arine / M cGraw-Hill, 2002. H elland, Pat: „If You H ave Too M uch D ata then 'G ood Enough' Is Good Enough". Communications of the ACM , 2011. június. H ilbert, M artin - Priscilla L ópez: „The W orld's Technological C apacity to Store, C om m unicate, and Compute Inform ation". Science 1 ,2 0 1 1 . április, 6 0 -6 5 . Hilbert, M artin - Priscilla López: „How to M easure the World's Technological Capa city to C om m unicate, Store and C om pute Inform ation?". International Journal of Communication 20 1 2 ,1 0 4 2 -5 5 ., ijoc.org/ojs/index.php/ijoc/article/viewFile/1562/742. Holson, Laura M.: „Putting a Bolder Face on Google". New York Times, 2009. m árcius 1., http://w w w .nytim es.com /2009/03/01/b usiness/01m arissa.h tm l. H opkins, Brian - Boris Evelson: „Expand Y our Digital H orizon w ith Big Data". For rester, 2011. szeptem ber 30. Hotz, Robert Lee: „The Really Smart Phone". Wall Street Journal, 2011. április 22., h ttp :// o n lin e.w sj.co m /article /S B 1 00 0 1 4 2 4 0 5 2 7 4 8 7 0 4 5 4 7 6 0 4 5 7 6 2 6 3 26 1 67 98 4 88 14 .h tm l. Hutchins, John: „The First Public Demonstration of M achine Translation: The Georgetow n-IBM System, 7th Jan u ary 1954". 2005. november, http://w w w .hutchinsw eb. m e.uk/G U -IBM -2005.pdf. In gleh art, R. - H . D. K lingem ann: Genes, Culture and Happiness. C am bridge, MIT Press, 2000. Isaacson , W alter: Steve Jobs (Steve Jobs). Ford .: G aram völgyi A n d rea - Igaz K ata lin - Som ogyi Ágnes - Stern Gábor - Szalai Virág - Takács Zoltán. Budapest, HVG Könyvek, 2011. K ahnem an, Daniel: Gyors és lassú gondolkodás (Thinking, Fastand Slow). Ford.: Bányász Réka. Budapest, HVG Könyvek, 2013.
228
BIG D AT A
Kaplan, Robert S. - David P. N orton: Stratégiai térképek - Hogyan alakulnak át az immateriális javak pénzügyi eredménnyé? (Strategy Maps: Converting Intangible Assets into Tangible Outcomes). F o rd .: Bácsi Katalin - Gast K ároly - H ortoványi Lilla. Budapest, Panem , 2005. K arnitschnig, M atthew - Mylene M angalindan: „AOL Fires Technology Chief After W eb-Search Data Scandal". Wall Street Journal, 2006. augusztus 21. Keefe, Patrick Radden: „Can N etw ork Theory T hw art Terrorists?". New York Times, 2006. m árcius 12., http://w w w .nytim es.com /2006/03/12/m agazine/312w w ln_essay. html. Kinnard, Douglas: The War Managers. Hanover, University Press of New England, 1977. K irw an, Peter: „This C ar Drives Itself". Wired UK, 2012. január, http ://w w w .w ired . co.u k/m agazine/archive/2012/01/features/this-car-drives-itself. Kliff, Sarah: „A D atabase That Could Revolutionize H ealth C are". Washington Post, 2012. május 21. Kruskal, W illiam - Frederick M osteller: „Representative Sam pling, IV: The H istory of th e C oncep t in Statistics, 1 8 9 5 -1 9 3 9 ". International Statistical Review 48, 1980, 169-95. Laney, Doug: „To Facebook You're W orth $80.95". Wall Street Journal, 2012. május 3., h ttp ://blogs.w sj.com /cio/2012/05/03/to-faceb ook -you re-w orth -80-95/. Latour, B ru no: The Pasteurization of France. C am bridge, H a rv a rd U niversity Press, 1993. Levitt, Steven D. - Stephen J. Dubner: Lökonómia - Egy kóbor közgazdász a dolgok mögé néz (Freakonomics: A Rogue Economist Explores the Hidden Side of Everything). Ford.: Papolczy Péter. Budapest, E urópa, 2007. Levy, Steven: In the Plex. N ew York, Simon & Schuster, 2011. Lew is, C harles Lee: Matthew Fontaine Maury: The Pathfinder of the Seas. Annapolis, U.S. N aval Institute, 1927. Lohr, Steve: „Can Apple Find M ore Hits W ithout Its Tastem aker?". New York Times, 2011. jan u ár 18., h ttp ://w w w .n y tim es.co m /2011/01/19/tech n o lo g y /co m p an ies/19 innovate.htm l. Low rey, A n n ie: „Econom ists' P ro g ram s A re B eatin g U.S. at Tracking Inflation". Washington Post, 2010. decem ber 25., h ttp ://w w w .w ash in g to n p o st.co m /w p -d y n / con ten t/article/2010/12/25/A R 2010122502600.h tm l. M acrakis, K ristie: Seduced by Secrets: Inside the Stasi's Spy-Tech World. Cam bridge, Cam bridge University Press, 2008.
FELHASZNÁLT IRODALOM
229
Manyika, James et al.: „Big Data: The N ext Frontier for Innovation, Competition, and Productivity". McKinsey Global Institute, 2011. május, http ://w w w .m ck in sey.com / insights/m gi/research /tech n ology_an d _in novation /b ig_d ata_th e_n ext_frontier_ for_innovation. M arcus, Jam es: Amazonia: Five Years at the Epicenter of the Dot.Com Juggernaut. N ew York, The N ew Press, 2004. M argolis, Joel M.: „W hen Sm art Grids Grow Sm art Enough to Solve Crimes". N eustar, 2010. m árciu s 18., h ttp ://e n e rg y .g o v /site s/p ro d /file s/g cp ro d /d o cu m e n ts/ N eustar_Com m ents_D ataExhibitA .pdf. M aury, M atthew Fon tain e: The Physical Geography of the Sea. N ew York, H arp er, 1855. M ayer-Schönberger, Viktor: „Beyond Privacy, Beyond Rights: Towards a 'System s' T heory of Inform ation G overnance". 98 California Law Review 18 53,2010. M ayer-Schönberger, Viktor: Delete: The Virtue of Forgetting in the Digital Age. P rin ce ton, Princeton University Press, 2011. M cG regor, C arolyn - C hristin a C atley - A n d rew Jam es - Jam es Padbury: „N ext Generation N eonatal H ealth Inform atics w ith Artem is" In European Federation for Medical Informatics: User Centred Networked Health Care. A. M oen et al. (eds.) A m ster dam , IOS Press, 2011. M cN am ara, Robert S. - Brian VanDeM ark: In Retrospect: The Tragedy and Lessons of Vietnam. N ew York, Times Books, 1995. M ehta, Abhishek: „Big D ata: P ow ering th e N ext Industrial Revolution". Tableau Softw are W hite Paper, 2011. M ichel, Jean-B aptiste et al.: „Q uantitative Analysis of C ulture U sing M illions of D igitized Books". Science 331, 2011. jan u ár 14., 1 7 6 -8 2 ., h ttp ://w w w .sciencem ag. org/content/331/6014/176.abstract. Miller, Claire Cain: „U.S. Clears Google Acquisition of Travel Softw are". New York Times, 2011. április 8., h ttp ://w w w .nytim es.com /2011/04/09/tech n ology/09google. h tm l?_r= 0. Mills, Howard: „Analytics: Turning Data into Dollars". Forward Focus, 2011. december, http://w w w .deloitte.com /assets/D com -U nitedStates/Local% 20A ssets/D ocum ents/ FSI/U S_FSI_Forw ard% 20Focus_A nalytics_T urning% 20data% 20into% 20dollars_ 120711.pdf. M indell, David A.: Digital Apollo: Human and Machine in Spaceflight. Cam bridge, MIT Press, 2008.
230
BIG DATA
M inkéi, J. R.: „The U.S. Census Bureau Gave Up N am es of Japanese-A m ericans in W W II". Scientific American, 2007. március 30., http ://w w w .scientificam erican.com / article.cfm ?id=confirm ed-the-us-census-b. M urray, A lexander: Reason and Society in the Middle Ages. N ew York, O xford Univer sity Press, 1978. Nalimov, E. V. - G. M cC. H aw orth - E. A. H einz: „Space-Efficient Indexing of Chess Endgam e Tables". ICGA Journal 23/3., 2 0 0 0 ,1 4 8 -6 2 . N arayanan, A rvind - Vitaly Shmatikov: „How to Break the Anonym ity of the Netflix Prize D ataset". 2 0 0 6 . október 18., http ://arxiv.org/ab s/cs/0610105. N arayanan, A rvind - Vitaly Shmatikov: „Robust D e-Anonym ization of Large Sparse Datasets". Proceedings of the 2 008 IEEE Symposium on Security and Privacy, 111, h ttp :// w w w .cs.u texas.ed u/~shm at/sh m at_oak08n etflix.p d f. N azareth, Rita - Julia Leite: „Stock Trading in U.S. Falls to Lowest Level Since 2008". Bloomberg, 2012. augusztus 13., http://w w w .bloom berg.com /new s/2012-08-13/stocktrading-in-u-s-hits-low est-level-since-2008-as-vix-falls.htm l. N egroponte, Nicholas: Digitális létezés (Being Digital). Ford.: Csaba Ferenc. Budapest, Typotex, 2002. N eym an, Jerzy: „On the Two Different Aspects of the R epresentative M ethod: The M ethod of Stratified Sampling and the M ethod of Purposive Selection". Journal of the Royal Statistical Society 97/4., 1 9 3 4 ,5 5 8 -6 2 5 . O hm , Paul: „Broken Prom ises of Privacy: Responding to the Surprising Failure of Anonym ization". 57 UCLA Law Review 1701,2010. Onnela, J. P. et al.: „Structure and Tie Strengths in Mobile Communication Networks". Proceedings of the National Academy of Sciences of the United States of America (PNAS) 104, 2007. m ájus, 7 3 3 2 -3 6 ., h ttp ://n d .e d u /~ d d d a s/P a p e rs/P N A S 0 6 1 0 2 4 5 1 0 4 v l. pdf. Palfrey, John - Urs Gasser: Interop: The Promise and Perils of Highly Interconnected Sys tems. N ew York, Basic Books, 2012. Pearl, Judea: Causality: Models, Reasoning and Inference. N ew York, C am bridge U ni versity Press, 2009. President's C ouncil of Advisors on Science and Technology: „R eport to the Presi dent and C ongress, D esigning a D igital Future: Federally Funded R esearch and D evelopm ent in N etw o rk in g an d In form ation T echnology". 2010. decem ber, http://w w w .w hitehouse.gov/sites/default/files/m icrosites/ostp/pcast-nitrd-report2010.pdf.
FELHASZNÁLT IRODALOM
231
Priest, Dana - William Arkin: „A Hidden World, Growing Beyond Control". Washing ton Post, 2010. július 19., http://projects.w ashingtonp ost.com /top -secret-am erica/ articles/a-hidden-w orld-grow ing-beyond-control/print/. Q uery, Tim: „Grade Inflation and the G ood-Student Discount". Contingencies Maga zine, Am erican Academy of Actuaries, 2007. május-június, http://www.contingencies .org/m ayjun07/tradecraft.pdf. Q u in n , Elias Leake: „Sm art M etering and Privacy: Existing Law and C om peting Policies; A R eport for th e C olorado Public U tility Com m ission". 2 0 0 9 tavasza, http://w w w .w 4ar.com /D anger_of_Sm art_M eters_C olorado_R eport.pdf. Reshef, David et al.: „Detecting Novel Associations in Large Data Sets". Science 2011, 1 5 1 8 -2 4 . R osenthal, Jonathan: „Banking Special R eport". The Economist, 2012. május 19., 7-8. R osenzw eig, Phil: „Robert S. M cN am ara an d th e Evolution of M od ern M an age m ent". Harvard Business Review, 2010. decem ber, 8 7 -9 3 ., h ttp ://h b r.o rg /2 0 1 0 /1 2 / robert-s-m cnam ara-and-the-evolution-of-m odern-m anagem ent/ar/pr. R udin, C ynthia et al.: „21st-C en tu ry D ata M iners M eet 1 9 th -C e n tu ry E lectrical Cables". Computer, 2011. június, 1 0 3 -0 5 . Rudin, C ynthia et al.: „M achine L earn in g for the N ew York City Pow er Grid". IEEE Transactions on Pattern Analysis and Machine Intelligence 3 4 .2 , 2012, 3 2 8 -4 5 ., h ttp :// hdl.handle.net/1721.1/68634. Rys, M ichael: „Scalable SQL". Communications of the ACM, 2011. június, 4 8 -5 3 . Salathé, M arcel - Shashank Khandelwal: „Assessing Vaccination Sentim ents w ith O nline Social M edia: Implications for Infectious Disease D ynam ics and Control". PLOS Computational Biology 7/10., 2011. október. Savage, Mike - Roger Burrow s: „The C om ing Crisis of Em pirical Sociology". Socio logy 4 1 ,2 0 0 7 ,8 8 5 -9 9 . Schlie, Erik - Jörg Rheinboldt - Niko W aesche: Simply Seven: Seven Ways to Create a Sustainable Internet Business. Basingstoke, Palgrave M acm illan, 2011. Scanlon, Jessie: „Luis von A hn: The Pioneer of 'H u m an C om putation'". Business week, 2008. novem ber 3., h ttp ://w w w .b u sin essw eek .eo m /sto ries/2008-ll-03/lu isvon-ahn-the-pioneer-of-hum an-com putation-businessweek-business-news-stockm arket-and-financial-advice. Seism, Leslie - M ark M arem ont: „Inside Deloitte's Life-Insurance Assessm ent Tech nology". Wall Street Journal, 2010. novem ber 19., http://online.w sj.com /article/SB10 001424052748704104104575622531084755588.h tm l.
232
BIG DATA
Seism, Leslie - M ark M arem ont: „Insurers Test D ata Profiles to Id en tify Risky Clients". Wall Street Journal, 2010. novem ber 19., http://online.w sj.com /article/SB10 001424052748704648604575620750998072986.h tm l. Scott, Jam es: Seeing Like a State: How Certain Schemes to Improve the Human Condition Have Failed. N ew H aven, Yale University Press, 1998. Seltzer, William - M argo Anderson: „The Dark Side of Numbers: The Role of Popula tion Data Systems in H um an Rights Abuses". Social Research 6 8 ,2 0 0 1 ,4 8 1 -5 1 3 . Silver, N ate: The Signal and the Noise: Why So Many Predictions Fail - But Some Don't. New York, Penguin Press, 2012. Singel, Ryan: „N etflix Spilled Your Brokeback M ountain Secret, Law suit Claims". Wired, 2 0 0 9 . d ecem b er 17., h ttp ://w w w .w ire d .co m /th re a tle v e l/2 0 0 9 /1 2 /n e tflix privacy-lawsuit/. Sm ith, A dam : Vizsgálódás a nemzetek jólétének természetéről és okairól (The Wealth of Nations). Ford.: Éber Ernő. Budapest, Napvilág, 2011. Az eredeti mű ingyenes elekt ron ik u s v erzió jáért lásd h ttp ://w w w 2 .h n .p su .e d u /fa cu lty /jm a n is/a d a m -sm ith / W ealth-N ations.pdf. Solove, Daniel J.: The Digital Person: Technology and Privacy in the Information Age. New York, N Y U Press, 2004. Surowiecki, Jam es: „A Billion Prices Now". New Yorker, 2011. május 30., h ttp ://w w w . new york er.eom /talk/financial/2011/05/30/110530ta_talk_surow iecki. Taleb, Nassim Nicholas: Fooled by Randomness: The Hidden Role of Chance in Life and in the Markets. N ew York, R andom H ouse, 2008. Taleb, Nassim Nicholas: A fekete hattyú, avagy a legváratlanabb hatás (The Black Swan: The Impact of the Highly Improbable). Ford.: G oddard Zsuzsan n a - Boris János. Buda pest, Gondolat, 2012. Thom pson, Clive: „For C ertain Tasks, the C ortex Still Beats the CPU". Wired, 2007. június 25 ., h ttp ://w w w .w ired .co m /tech b iz/it/m ag azin e/15-07/ff_h u m an co m p ? cu rren tP ag e= all. Thurm , Scott: „N ext Frontier in Credit Scores: P redicting Personal Behavior". Wall Street Journal, 2011. október 27., http://online.w sj.eom /article/SB 1000142405297020 3687504576655182086300912.h tm l. Tsotsis, Alexia: „Twitter Is at 250 Million Tweets per Day, iOS 5 Integration Made Sign ups Increase 3x". TechCrunch, 2011. október 17., h ttp ://tech cru n ch .com /2011/10/17/ tw itter-is-at-250-m illion-tw eets-per-day/. Valery, Nick: „Tech.View: Cars and Software Bugs". The Economist, 2010. május 16., http:// w w w .econom ist.com /blogs/babbage/2010/05/techview _cars_and_softw are_bugs.
FELHASZNÁLT IRODALOM
233
Vlahos, James: „The Departm ent Of Pre-Crim e". Scientific American 3 0 6 ,2 0 1 2 . január, 62 -6 7 . Von Baeyer, H ans C hristian: Information: The New Language of Science. Cam bridge, H arvard University Press, 2005. Von A hn, Luis et al.: „reCAPTCH A: H um an-B ased C haracter R ecognition via Web S ecu rity M easures". Science 321, 2 0 0 8 . szep tem b er 12., 1 4 6 5 -6 8 ., h ttp ://w w w . scien cem ag.org/content/321/5895/1465.abstract. W atts, D uncan: Everything Is Obvious Once You Know the Answer: How Common Sense FailsjUs. London, Atlantic, 2011. W einberger, David: Everything Is Miscellaneous: The Power of the New Digital Disorder. N ew York, Times Books, 2007. W einberger, Sharon: „Intent to D eceive". Nature 465, 2010. május, 4 1 2 -1 5 ., h ttp :// w w w .n atu re.com /n ew s/2010/100526/fu ll/465412a.h tm l. W einberger, Sharon: „Terrorist 'P re-crim e' D etector Field Tested in United States". Nature, 2011. m ájus 27., h ttp ://w w w .n a tu re .co m /n e w s/2 0 1 1 /1 1 0 5 2 7 /fu ll/n e w s. 2011.323.htm l. W hitehouse, David: „UK Science Shows Cave A rt D eveloped Early". BBC N ew s Online, 2001. október 3., http://new s.bb c.co.U k/l/h i/sci/tech/1577421.stm . W igner, Eugene: „The Unreasonable Effectiveness of M athem atics in the N atural Sciences". Communications on Pure and Applied Mathematics 13/1., 1 9 6 0 ,1 -1 4 . Wilks, Yorick: Machine Translation: Its Scope and Limits. London, Springer, 2008. Wingfield, Nick: „Virtual Products, Real Profits: Players Spend on Zynga's Games, but Q uality Turns Some Off". Wall Street Journal, 2011. szeptem ber 9., h ttp ://onlin e. w sj.com /article/SB 10001424053111904823804576502442835413446.h tm l.
JEGYZETEK
1. fejezet : Most 1 Jerem y G insburg et al.: „D etecting Influenza Epidem ics U sing Search Engine Q uery Data". Nature, 4 5 7 /2 0 0 9 ,1 0 1 2 -1 4 ., http ://w w w .nature.com /nature/journal/ v457/n 7232/full/n atu re07634.h tm l. 2 A Google Flu Trendsről szóló további tanulm ányért lásd A. F. Dugas et al.: „Google Flu T rends: C o rrelatio n w ith E m erg en cy D ep artm en t In flu en za R ates and Crow ding M etrics". CID Advanced Access, 2012. január 8.; DOI 10.1093 /cid/cir883. 3 A rep ü lőjegy-vásárlásról és a Farecastról szóló inform ációk forrása: K enneth Cukier: „Data, Data Everyw here". The Economist, 2010. február 27., 1-14., valam int az Etzioni által 2010 és 2012 között adott interjúk. 4 O ren Etzioni - C. A. Knoblock - R. Tuchinda - A. Yates: „To Buy or N ot to Buy: M ining Airfare Data to M inim ize Ticket Purchase Price". SIGKDD, 2003. augusz tus 2 4 -2 7 ., http://knight.cis.tem ple.edU /~yates//papers/ham let-kdd03.pdf. 5 M édiajelentések alapján, n ev ezetesen : „S ecret F a re ca st B uyer Is M icrosoft". S eattlepi.com , 2 0 0 8 . április 17., h ttp ://b lo g .se a ttle p i.co m /v e n tu re /2 0 0 8 /0 4 /1 7 / secret-farecast-buyer-is-m icrosoft/?source=m ypi. 6 H angos és term éketlen vita folyik a big data kifejezés eredetéről, valam int arról, hogyan kell a fogalm at tökéletesen definiálni. A két szó m ár évtizedek óta meg megjelenik így együ tt. A G artner egy 2001-es kutatási jelentésében D oug Laney fejtette ki a big data „három V-jét" (volume, velocity és variety, azaz n agy menynyiség, gyorsaság és változatosság), amely an nak idején tökéletlensége ellenére is hasznos m eghatározás volt.
JEGYZETEK
235
7 A csillagászattal és a D N S-szekven álással kapcsolatos összefü ggések ért lásd Cukier: „Data, Data Everyw here". 8 Rita N azareth - Julia Leite: „Stock T rading in U.S. Falls to Low est Level Since 2008". Bloomberg, 2012. augusztus 13., http://w w w .bloom b erg.com /n ew s/201208-13/stock-trading-in-u-s-hits-low est-level-since-2008-as-vix-falls.htm l. 9 Thom as H. D avenport - Paul B arth - Randy Bean: „How 'Big Data' Is Different". Sloan Review, 2012. július 30., 4 3 -4 6 ., h ttp://sloanreview .m it.edu/the-m agazine/ 2012-fall/54104/how -big-data-is-different/. 10 A Facebook első nyilvános kibocsátás (IPO ) tájékoztatója, „Form S -l Registration Statem ent". U.S. Securities and Exchange Com m ission, 2012. február 1., h ttp :// se c.g o v /A rch iv e s /e d g a r/d a ta /1 3 2 6 8 0 1 /0 0 0 1 1 9 3 1 2 5 1 2 0 3 4 5 1 7 /d 2 8 7 9 5 4 d sl.h tm . 11 L arry Page: „Update from the CEO". Google, 2012. április, http://investor.google. com /corporate/2012/ceo-letter.htm l. 12 Tom io G eron: „Tw itter's D ick C ostolo: T w itter M obile Ad R evenue B eats D esktop on Some Days". Forbes, 2 0 1 2 . június 6., h ttp ://w w w .forb es.com /sites/ tom iogeron/2012/06/06/tw itters-dick-costolo-m obile-ad-revenue-beats-desktopon-som e-days/. 13 Az adatm ennyiségre vonatkozó inform ációkért lásd M artin H ilbert - Priscilla L ópez: „The World's Technological C apacity to Store, C om m unicate, and C om pute Inform ation". Science, 2011. április 1., 6 0 -6 5 .; H ilb ert-L óp ez: „How to M ea sure the World's Technological C apacity to C om m unicate, Store and Com pute Inform ation?". International Journal of Communication, 2 0 1 2 ,1 0 4 2 -5 5 ., h ttp ://w w w . ijoc.org/ojs/index.php/ijoc/article/view File/1562/742. 14 A becslés forrása Cukier interjúja H ilberttel, 2012. 15 E lizabeth L. Eisenstein: The Printing Revolution in Early Modern Europe. C anto, Cam bridge University Press, 1 9 93,13-14. 16 Az analógiáról lásd N orvig előadásait az alábbi tanulm ány alapján: A. H alevy P. N orvig - F. Pereira: „The U nreasonable Effectiveness of Data". IEEE Intelligent Systems, 2009. m árcius-április, 8 -1 2 ., http://w w w .com puter.org/portal/cm s_docs_ intelligent/intelligent/hom epage/2009/x2exp.pdf. Figyeljünk fel arra, hogy a ta nulm ány cím e játékosan utal Eugene W igner „The U nreasonable Effectiveness of M athem atics in the N atural Sciences" cím ű cikkére, amelyben a szerző arról elmélkedik, hogy a fizikát m iért lehet jól leírni a matematika nyelvén, ellentétben a társadalomtudományokkal, amelyek ellenállnak az efféle takaros formuláknak. Lásd E. W igner: „The Unreasonable Effectiveness of M athem atics in the N atural
BI G DATA
236
Sciences". Communications on Pure and Applied Mathematics, 13/1., 1 9 6 0 ,1 -1 4 . Norvig a tanulm ányról ta rto tt előadásai közül lásd „Peter N orvig - The U nreasonable Effectiveness of Data" lecture at University of British Columbia, YouTube, 2010. szeptem ber 23., h ttp://w w w .youtube.com /w atch?v=yvD C zhbjY W s. 17 Picasso kijelentését a lascaux-i barlangfestm ényekről lásd D avid W hitehouse: „UK Science Shows Cave A rt Developed Early". BBC News Online, 2001. október 3., http ://new s.bb c.co.U k/l/h i/sci/tech/1577421.stm . 18 Bár nem teljesen helyes, a fizikai méretnagyságról, amely kihat a fizikai törvények m űködésére, a gyak ran hivatkozott referencia: J. B. S. H aldane: „On Being the Right Size". Harper's Magazine, 1926. m árcius, h ttp ://harpers.org/archive/1926/03/ on-being-the-right-size/.
2. f ejezet : Több 1 Beszélgetés Jeff Jonasszal, Párizs, 2010. december. 2 Az Egyesült Állam ok népszám lálásainak történetéről lásd U.S. Census Bureau: „The H ollerith M achine", h ttp ://w w w .cen su s.g o v /h isto ry /w w w /in n o v atio n s/ technology/the_hollerith_tabulator.htm l. 3 N eym an szerepéről lásd W illiam Kruskal - Frederick M osteller: „Representative Sampling, IV: The H istory of the C oncept in Statistics, 1895-1939". International Statistical Review, 4 8 ,1 9 8 0 ,1 6 9 -9 5 ., 187-88. N eym an híres tanulm ányát lásd Jerzy N eym an: „O n th e Two D ifferent A spects of th e R epresentative M ethod: The M ethod of Stratified Sampling and the M ethod of Purposive Selection". Journal of the Royal Statistical Society, 97/4., 1 9 3 4 ,5 5 8 -6 2 5 . 4 Earl Babbie: Practice of Social Research. Belm ont, W adsw orth, 2 0 1 0 ,2 0 4 -0 7 . 5 A torzított választási közvélem ény-kutatásokra és egyéb statisztikai kérdésekre vonatkozó további inform ációkért lásd Nate Silver: The Signal and the Noise: Why So Many Predictions Fail - But Some Don't. New York, Penguin, 2012. 6 W alter Isaacson: Steve Jobs. Ford.: Garam völgyi Andrea - Igaz Katalin - Somogyi Ágnes - Stern Gábor - Szalai Virág - Takács Zoltán. Budapest, HVG Könyvek,
2011 . 7 Dugas et al.: „Google Flu Trends". 8 Cukier interjúja, 2011. október. 9 Jo n ath an R osenthal: „Special R eport: In ternation al B anking". The Economist, 2012. május 19., 7-8.
JEGYZETEK
237
10 M ark Duggan - Steven D. Levitt: „W inning Isn't Everything: Corruption in Sumo W restling". American Economic Review, 9 2 , 2 0 0 2 ,1 5 9 4 -1 6 0 5 ., h ttp ://p riceth eo ry . u chicago.edu /levitt/P apers/D u ggan L evitt2002.p d f. 11 A Lytro vállalati honlapjáról, h ttp ://w w w .lytro.com . 12 Mike Savage - Roger Burrows: „The Com ing Crisis of Empirical Sociology". Socio logy, 4 1 ,2 0 0 7 ,8 8 5 -9 9 . 13 A m obilszolgáltatói átfogó adatok elem zéséről lásd J. P. O nnela et al.: „Struc tu re and Tie Strengths in Mobile C om m unication Networks". Proceedings of the National Academy of Sciences of the United States of America (PNAS), 104,2007. május, 7 3 3 2 -3 6 ., h ttp ://n d .ed u /~ d d d as /Papers/PN A S0610245104vl.pdf.
3. f ejezet : Kuszaság 1 A lfred W. Crosby: The Measure of Reality: Quantification and Western Society, 1250-1600. Cambridge, Cambridge U niversity Press, 1997. 2 Az említett aforizm ákat széles körben tulajdonítják a két tudósnak, bár munkáik ban azért egy kicsit m ásképp fogalm aztak. A Kelvin-idézet egy m érésről szóló hosszabb id ézet része Kelvin „A villam osság m érték egységei" cím ű, 1 883-as előadásából. A Bacon-idézetet pedig egy latin idézet szabad fordításának tartják, am ely Bacon Meditationes Sacrae cím ű, 1597-es művében jelent meg. 3 DJ Patil: „Data Jujitsu: The Art of Turning Data into Product". O'Reilly Media, 2012. július, h ttp ://o reilly n et.co m /o reilly /d ata/rad arrep o rts/d ata-ju jitsu .csp 7cm p = tw -strata-books-data-products. 4 C olin C lark: „Im provin g Speed an d T ran sp aren cy of M ark et D ata". N YSE E U R O N E X T b lo g p o szt, 2011. ja n u á r 9., h ttp ://e x c h a n g e s.n y x .co m /c c la rk / im proving-speed-and-transparency-m arket-data. 5 Brian H opkins - Boris Evelson: „Expand Your D igital H orizon w ith Big Data". Forrester, 2011. szeptem ber 30. 6 President's Council of Advisors on Science and Technology: „Report to the Presi dent and Congress, D esigning a Digital Future: Federally Funded R esearch and D evelopm ent in N etw ork in g and In form ation Technology". 2010. decem ber, 71., http://w w w .w hite house.gov/sites/default/files/m icrosites/ostp/pcast-nitrdreport-2010.pdf. 7 A nyilvánosan elérhető sakkvégjáték-táblázatok közül a legátfogóbb a Nalim ovtáblázat, amely egyik megalkotója nevét viseli, és hat vagy annál kevesebb figura
BIG DATA
238
összes lehetséges lépését tartalm azza. Mérete m eghaladja a 7 terabájtot, úgyhogy a töm örítése nem kis feladatot jelent. Lásd E. V. N alim ov - G. M cC. H aw orth - E. A. H einz: „Space-efficient Indexing of Chess Endgam e Tables". 1CGÁ Journal 23/3., 2 0 0 0 ,1 4 8 -6 2 . 8 M ichele Bankó - Eric Brill: „Scaling to Very Very L arg e C orp ora for N atural Langu age Disam biguation". M icrosoft R esearch, 2001, 3., h ttp ://acl.ld c.u p en n . ed u/P /P 01/P 01-1005.p df. 9 IBM : „701 T ranslator" sajtóközlemény, IB M -archivum , 1954. jan u ár 8., h ttp :// w w w -03.ib m .com /ibm /history/exhibits/701/701_translator.htm l. Lásd még John H utchins: „The First Public Dem onstration of M achine Translation: The Georgetown-IBM System, 7th January 1954". 2005. november, http://w w w .hutchinsw eb. m e.uk/G U -IBM -2005.pdf. 10 Az IBM C andide projektjéről lásd Adam L. B erger et al.: „The C andide System for Machine Translation". Proceedings of the 1994 ARPA Workshop on Human Language Technology, 1994, http://aclw eb.O rg/anthology-new /H /H 94/H 94-1100.pdf. 11 A gépi fordítás tö rtén etét lásd Yorick W ilks: Machine Translation: Its Scope and Limits, London, Springer, 2 0 0 8 ,1 0 7 . 12 Cukier interjúja O chhal, 2009. december. 13 Alex Fran z - Thorsten Brants: „All O ur N -gram are Belong to You". Google-blogposzt, 2006. augusztus 3., h ttp ://googleresearch.b logsp ot.co.u k /2006/08/all-ourn-gram -are-belong-to-you.htm l. 14 H alev y -N o rv ig -P ereira: „The Unreasonable Effectiveness of Data". 15 A hivatkozást N orvig és szerzőtársai tanulm ányára lásd uo. 16 A BP csővezetékeinek korróziója és a zord vezeték nélküli környezet témájáról lásd Jaclyn Clarabut: „O perations M aking Sense of Corrosion". BP Magazine, 2./2011, h ttp ://w w w .b p .co m /liv e a sse ts/b p _ in te rn e t/g lo b a lb p /g lo b a lb p _ u k _ e n g lish / reports_and_publications/bp_m agazine/STA G IN G /local_assets/pdf/BP_M agazine_2011_issue2_text.pdf. A vezeték nélküli adatok leolvasásának nehézségeiről lásd Cukier: „Data, D ata, Everyw here". A rendszer nyilvánvalóan nem tévedhe tetlen : a BP C h erry Point olajfinom ítójában tö rtén t 2 0 1 2 . feb ru ári tű z e se té rt a k orrodálódott csöveket okolták. 17 A B i l l i o n Prices Projecttel kapcsolatos adatok Cukier a társalapítókkal készített interjújából szárm aznak , 2012. október. Lásd még Jam es Surow iecki: „A Billión Prices Now". The New Yorker, 2011. május 30. Adatok és részletek a projekt honlap ján találhatók: http://bp p .m it.edu /. További inform ációkért lásd Annie Low rey: „Econom ists' P rogram s Are Beating U.S. at Tracking Inflation". Washington Post,
JEGYZETEK
239
2010. decem ber 25., h ttp ://w w w .w ash in gton p ost.com /w p -d yn/conten t/article/ 2010/12/25/A R 2010122502600.h tm l. 18 A PriceStatsról m int a nem zeti statisztikák ellenőrzésének eszközéről lásd „Offi cial Statistics: Don't Lie to Me, Argentina". The Economist, 2012. február 25., h ttp :// w w w .econom ist .com /nod e/21548242. 19 A Flickr oldaláról szárm azó adat, h ttp://w w w .flickr.com . 20 Az információk kategorizálásának kihívásairól lásd David W einberger: Everything Is Miscellaneous: The Power of the New Digital Disorder. N ew York, Times Books, 2007. 21 Pat Helland: „If You Have Too M uch Data Then 'G ood Enough' Is Good Enough". Communications of the ACM , 2011. június, 40 -4 1 . Az adatbázisokkal foglalkozók közösségében jelenleg élénk vita zajlik arról, hogy mely modellek és elképzelések felelnek m eg legjobban a big d ata igényeinek. H elland a zt a táb o rt képviseli, amely radikális szakítást sürget a múlt eszközeivel. M ichael Rys viszont a M icro softtól am ellett érvel, hogy a jelenlegi eszközök alaposan átdolgozott változatai is jól megállják majd a helyüket. Lásd „Scalable SQL". Communications of the ACM, 2011. június, 48. 22 Cukier: „Data, Data, Everyw here". 23 Abhishek M ehta: „Big D ata: Pow ering the N ext Industrial Revolution". Tableau Software White Paper, 2011, http://w w w .tableausoftw are.com /learn/w hitepapers/ big-data-revolution.
4. f ejezet : Korreláció 1 A L in d en -sztori és az „A m azo n -h an g " tö rtén etén ek forrása C ukier interjúja Lindennel, 2012. m árcius. 2 A Wall Streat Journal cikkét az A m azon könyvkritikusairól idézi Jam es M arcus: Amazonia: Five Years at the Epicenter of the Dot. Com Juggernaut. N ew York, The New Press, 2 0 0 4 ,1 2 8 . 3 M arcus: Amazonia, 199. 4 A vállalat ezt a szám ot soha nem erősítette m eg hivatalosan, de több alkalom m al is m egjelent elem zői jelentésekben és a sajtóban. Lásd például „Building w ith Big D ata: The Data Revolution Is C hanging the Landscape of Business". The Econo mist, 2011. május 26., h ttp ://w w w .econom ist.com /node/18741392/. A szám ra két korábbi A m azon-vezető is hivatkozott Cukierrel készült interjújában.
BIG DATA
240
5 X avier A m atriain - Justin Basilico: „N etflix R ecom m endations: B eyond th e 5 Stars (P art 1)". N etflix blog, 2012. április 6. 6 Nassim N icholas Taleb: Fooled by Randomness. N ew York, R andom H ouse, 2 0 0 8 .; lásd még Taleb: A fekete hattyú, avagy a legváratlanabb hatás (The Black Swan: The Im pact of the Highly Improbable). Ford.: Goddard Z suzsan n a - Boris János. Budapest, Gondolat, 2012. 7 Lásd C onstance L. Hays: „W hat W al-M art Knows About Custom ers' Habits" New York Times, 2 0 0 4 . novem ber 14., h ttp ://w w w .n y tim es.co m /2004/ll/14/b u sin ess/ yourm oney/14w al.htm l. 8 A FICO, az Experian és az Equifax példáit az előrejelzési m odellekre lásd Scott T hu rm : „N ext F ron tier in C red it Scores: P red ictin g Person al B ehavior". Wall Street Journal, 2011. október 27., http://online.w sj.com /article/SB 10001424052970 203687504576655182086300912.h tm l. 9 Az Aviva előrejelzési modelljeiről lásd Leslie Seism - M ark M arem ont: „Insurers Test Data Profiles to Identify Risky Clients". Wall Street Journal, 2010. november 19., http://online.w sj.com /article/SB 10001424052748704648604575 620750998072986. htm ). Lásd még S cism -M arem ont: „Inside Deloitte's Life-Insurance Assessment Technology". Wall Street Journal, 2010. november 19., http://online.w sj.com /article/ S B 10001424052748 70410410 4 5 7 5 6 2 2 5 3 1 0 8 4 7 5 5 5 8 8 .h tm l. Lásd továbbá H ow ard Mills: „Analytics: Turning Data into Dollars". Forward Focus, 2011. december, h ttp:// w w w .d e lo itte .co m /a sse ts/D co m -U n ite d S ta te s/L o ca l% 2 0 A sse ts/D o cu m e n ts/ FSI/U S_FSI_Forw ard% 20Focus_Analytics_Turning% 20data% 20into% 20dollars_ 120711.pdf. 10 A Target és a terhes tin éd zser esetét lásd C harles D u h igg: „H ow C om panies L earn Your Secrets". New York Times, 2012. február 16., h ttp://w w w .nytim es.com / 2012/02/19/m agazine/shopping-habits.htm l. A cikk a következő könyv alapján készült: D uhigg: The Power of Habit: Why We Do What We Do in Life and Business. N ew York, R andom H ouse, 2012. A Target állítása szerint pontatlanságok talál hatók a tevékenységéről szóló sajtóbeszámolókban, de erről nem volt hajlandó közelebbit elárulni. Am ikor a Target szóvivőjét az em lített könyvről kérdezték, azt válaszolta: „Az a célunk, hogy a vásárlóadatok révén elmélyítsük a vásárlóink és a Target közötti kapcsolatot. Vevőink értéket, kedvező ajánlatokat és nagyszerű élm ényeket ak arn ak kapni tőlünk. Sok m ás vállalathoz hasonlóan kutatási esz közeinket arra használjuk, h ogy a segítségükkel m egértsük, m ilyen irányzatok léteznek a vásárlási szokásokban és a vevőpreferenciákban, h ogy vásárlóinknak
JEGYZETEK
241
olyan ajánlatokat és akciókat nyújthassunk, amelyek relevánsak szám ukra. Fele lősséget vállalunk azért, hogy vásárlóink irántunk tanúsított bizalmát semmilyen körülm ények között ne veszélyeztessük. E zt egyrészt a honlapunkon közzétett átfogó adatvédelm i politikánk garantálja, m ásrészt pedig az, h ogy vállalatunk dolgozóit rendszeres vevőadat-védelm i oktatásban részesítjük." 11 A UPS analitikai tevékenységével kapcsolatos adatok forrása Cukier interjúja Jack Levisszal, 2012. 12 A koraszülöttekkel kapcsolatos tém a feldolgozása a M cG regorral 2010-b en és 2012-b en készített interjúk alapján. Lásd még Carolyn M cGregor - C hristina Catley - Andrew James - James Padbury: „Next Generation Neonatal Health Informa tics w ith A rtem is" In European Federation for M edical Informatics. A. M oen et al. (eds.). User Centred Networked Health Care, IOS Press, 2011,117. N éhány anyag forrása Cukier: „Data, Data, Everyw here". 13 A boldogság és a jövedelem korrelációjáról lásd R. Inglehart - H.-D. Klingem ann: Genes, Culture and Happiness. Cam bridge, MIT Press, 2000. 14 A kanyaróról és az egészségügyi kiadásokról, valam int az új nem lineáris k orre lációelemzési eszközökről lásd David Reshef et al.: „Detecting Novel Associations in L arge D ata Sets". Science, 3 3 4 ,2 0 1 1 ,1 5 1 8 -2 4 . 15 D aniel K ah n em an : Gyors és lassú gondolkodás (Thinking, Fast and Slow). Ford .: Bányász Réka. Budapest, HVG Könyvek, 2013. 16 Azoknak az olvasóknak, akiket érdekel, hogy Pasteur m ilyen hatással volt arra, ah ogyan m anapság érzékeljük a dolgokat, a következő m űvet ajánljuk: B runo Latour: The Pasteurization of France. Cam bridge, H arvard University Press, 1993. 17 A veszettséggel történő fertőződés kockázatáról lásd Melanie Di Q uinzio - Anne M cCarthy,: „Rabies Risk Am ong Travellers". C M A J178/5., 2 0 0 8 ,5 6 7 . 18 Judea Pearl, Turing-díjjal kitüntetett inform atikus kifejlesztett egy m ód szert az ok-okozati dinam ika alaki ábrázolására; miközben a formális bizonyíték hiány zik, ez a m ódszer pragm atikusan közelíti m eg a lehetséges oksági kapcsolatok elem zésének kérdését. Lásd Judea Pearl: Causality: Models, Reasoning and Inference. Cam bridge, Cambridge University Press, 2009. 19 Q uentin H ardy: „Bizarre Insights from Big Data", nytim es.com , 2012. m árcius 28., h ttp ://b its.b lo g s.n y tim es.co m /2012/03/28/b izarre-in sig h ts-fro m -b ig -d ata/. Lásd még Kaggle: „M omchil Georgiev Shares His C hrom atic Insight from D on't Get Kicked". Blogposzt, 2012. február 2 ., h ttp ://b lo g .k a g g le .co m /20 12 /0 2 /0 2 / m om chil-georgiev-shares-his-chrom atic-insight-from -dont-get-kicked/.
BIG DATA
242
20 A kábelaknafedelek súlyáról, a robbanások szám áról és m agasságáról lásd Rachel Ehrenberg: „Predicting the N ext Deadly M anhole Explosion". Wired, 2010. július 7., h ttp ://w w w .w ired.com /w iredscience/2010/07/m anhole-explosions. 21 Az eset laikusok szám ára is érth ető m ag y a rá z a tá t lásd C ynthia Rudin et al.: „21st-Century Data M iners M eet 19th-C entury Electrical Cables". Computer, 2011. június, 1 0 3 -0 5 . A m unka technikai leírása m egtalálható Rudin és m unkatársai tudom ányos cikkeiben, a honlapjaikon, illetve a következő forrásban: Rudin et al.: „M achine L earn in g for the N ew York City Power Grid". IEEE Transactions on Pattern Analysis and Machine Intelligence, 3 4 /2 ., 2012, 3 2 8 -4 5 ., h ttp ://h d l.h an d le. net/1721.1/68634. 22 A lista forrását lásd Rudin et al.: „21st-C entury D ata M iners M eet 19th -C en tu ry Electrical Cables". 23 Cukier interjúja R udinnal, 2012. március. 24 C hris A n d erson : „The E n d of T h eory: The D ata D eluge M akes th e Scien tific M eth od O bsolete". Wired, 2 0 0 8 . június, h ttp ://w w w .w ired .co m /scien ce/ discoveries/m agazine/16-07/pb_theory/. 25 N ation al Public R adio: „S earch an d D estroy". 2 0 0 8 . július 18., h ttp ://w w w . on th em ed ia.org/2008/ju l/18/search -an d -d estroy/tran scrip t/. 26 Idézet d anah boyd és Kate Crawford „Six Provocations for Big Data" cím ű, az O x ford Internet Institute „A Decade in Internet Time: Symposium on the Dynam ics of the Internet and Society" rendezvényén tarto tt előadásából, 2011. szeptember 21., h ttp ://ssrn .co m /ab stract= 1926431.
5. f ejezet : Adat os ít ás 1 M aury életének részleteit az általa, illetve róla írt m unkákból állítottuk össze. Lásd C hester G. H earn : Tracks in the Sea: Matthew Fontaine M aury and the M ap ping of the Oceans. C am den, In ternational M arine / M cG raw -H ill, 2 0 0 2 ; Janice Beaty: Seeker of Seaways: A Life of Matthew Fontaine Maury, Pioneer Oceanographer. N ew York, P a n th e o n B ooks, 1 9 6 6 ; C h arles L ee L ew is: M atth ew F o n tain e M aury: The Pathfinder of the Seas. Annapolis, The U nited States N aval Institute, 1927, h ttp ://arch iv e.o rg /d etails/m atth ew fo n tain em 001ew i. Lásd még M atthew Fontaine M aury: The Physical Geography of the Sea. New York, H arp er & Brothers, 1855. 2 Nikkei: „Car Seat of N ear Future IDs Driver's Backside". 2011. decem ber 14.
JEGYZETEK
243
3 N icholas N egropon te: Digitális létezés (Being Digital). Budapest, Typotex, 2 0 0 4 . 4 A szerzők nézeteit az adatosítás m últjáról jórészt Crosby The Measure of Reality cím ű m unkája inspirálta. 5 Ibid., 112. 6 A lexander M urray: Reason and Society in the Middle Ages. New York, O xford U ni versity Press, 1978,166. 7 h ttp ://books.google.com /ngram s. 8 Jean-Baptiste Michel et al.: „Quantitative Analysis of Culture Using M illions of Digitized Books". Science, 331,2011. január 14., 176-182., http://w w w .sciencem ag. org/content/331/6014/176.abstract. 9 Ibid. A tanulm ányról szóló video-előadás forrása: Erez Lieberm an Aiden - JeanBaptiste Michel: „W hat W e Learn ed from 5 M illion Books". TED x, Cam bridge, 2011, http://w w w .ted.com /talks/w hat_w e_learned_from _5_m illion_books.htm l. 10 Cukier: „Data, Data Everyw here". 11 A U PS m eg tak a rítá sa ira v o n atk o zó ad atok at lásd In stitu te for O p eratio n s R esearch and the M anagem ent Sciences (IN FO R M S): „UPS W ins G artn er BI Excellence Award". 2011, http ://w w w .in form s.org/A n n ou ncem ents/U P S -w insG artner-BI-Excellence-Aw ard. 12 Cukier interjúja, 2012. április. 13 Robert L ee H otz: „The Really Sm art Phone". Wall Street Journal, 2011. április 22., h ttp ://on lin e.w sj.com /article/S B 10001424052748704547604576263261679848814. html. 14 N athan Eagle: „Big Data, Global Developm ent, and Complex Systems". Santa Fe Institute, 2010. május 5., http://w w w .youtube.com /w atch?v=yaivtqlu7iM ; Cukier interjúja, 2012. október. 15 A Facebook IPO prospektusából, 2012. 16 Alexia Tsotsis: „Twitter Is at 250 M illion Tweets per Day, iOS 5 Integration M ade Signups Increase 3x". TechCrunch, 2011. október 17., http ://tech cru n ch.com /2011/10/ 17/tw itter-is-at-250-m illion-tw eets-per-day/. 17 K enneth Cukier: „Tracking Social M edia: The M ood of the M arket". Econom ist, com , 2012. június 28., http://w w w .econom ist.com /blogs/grap h icd etail/2012/06/ tracking-social-m edia. 18 S itaram A su r - B ern ard o A. H u b erm an : „P red ictin g the F u tu re w ith Social Media". Proceedings of the 2010 IEEE/W IC /A C M International C onference on Web Intelligence and Intelligent Agent Technology, 4 9 2 -4 9 9 ., http://w w w .hpl.hp. com /research/scl/papers/socialm edia/socialm edia.pdf.
BIG D AT A
244
19 S cott A. G older - M ichael W. M acy: „D iurnal an d Seasonal M ood V ary w ith Work, Sleep, and Daylength Across Diverse Cultures". Science, 333,2011. szeptem ber 30., 1 8 7 8 -8 1 . 20 M arcel Salathé - Shashank Khandelwal: „Assessing Vaccination Sentiments with Online Social M edia: Implications for Infectious Disease D ynam ics and Control". PLoS Computational Biology, 2011. október. 21 Lydia M ai D o - Travis M. Grigsby - Pam ela A nn N esbitt - L isa A nne Seacat: „Securing prem ises using surfaced-based com puting technology". Szabadalm i szám: 8138882. 22 „Counting Every M oment". The Economist, 2012. m árcius 3. 23 Jesse Lee D orogusk er - A nthony Fadell - D onald J. N o votn ey - N icholas R. Kalayjian: „Integrated Sensors for Tracking Perform ance M etrics". Szabadalmi kérelem szám a: 20090287067. 24 „Your W alk Is Y our P IN -C o d e". Sajtóközlem ény, 2011. feb ru ár 21., h ttp :// b iom etrics.deraw i.com /?p=175. 25 Lásd a G eorgiái M űszaki Egyetem L andm arc Kutatóintézete iTrem projektjének honlapját: h ttp ://eosl.gtri.g atech .ed u /C ap ab ilities/L an d m arcR esearch C en ter/ Landm arcProjects/iTrem /tabid/798/D efault.aspx. 26 iMedicalApps Team: „Gait Analysis A ccuracy: Android App Comparable to Stan dard A ccelerom eter M ethodology". mHealth, 2012. m árcius 23. 27 Benedict Anderson: Imagined Communities: Reflections on the Origin and Spread of Nationalism. London, Verso, 2006. 28 H ans C hristian von Baeyer: Information: The New Language of Science. Cambridge, H arvard University Press, 2005.
6. f ejezet: Érték 1 Luis von Ahn története Cukier Von Ahnnal 2010-b en készített interjúja alapján. Lásd még Clive Thom pson: „For C ertain Tasks, the C ortex Still Beats the CPU". Wired, 2007. június 25., h ttp ://w w w .w ired.com /techbiz/it/m agazine/15-07/ff_hu m an com p ?cu rren tP age= all); Jessie Scanlon: „Luis von Ahn: The Pioneer of 'H u m an Computation"'. Businessweek, 2008. november 3., http://w w w .businessw eek.
com /stories/2008-ll-03/lu is-von-ah n -th e-p ion eer-of-h u m an -com p u tation businessweek-business-news-stock-market-and-financial-advice.
JEGYZETEK
245
2 Luis von A hn et al.: „reC A PTCH A : H u m an -B ased C h aracter R ecognition via Web Security Measures". Science 3 2 1 ,2 0 0 8 . szeptember 12., 1 4 6 5 -6 8 ., http ://w w w . sciencem ag.org/content/321/5895/1465.abstract. 3 Adam Smith: Vizsgálódás a nemzetek jólétének természetéről és okairól (The Wealth of Na tions). Ford.: Éber Ernő. Budapest, Napvilág, 2011. Ingyenesen hozzáférhető angol ere detije: http ://www2.hn.psu.edu/faculty/jm anis/adam-sm ith/W ealth-Nations.pdf. 4 Viktor M ayer-Schönberger: Delete: The Virtue of Forgetting in the Digital Age. Prince ton, P rinceton University Press, 2 0 1 1 ,6 3 . 5 IBM: „IBM, Honda, and PG&E Enable Smarter Charging for Electric Vehicles". Sajtóközlemény. 2012. április 12., http ://w w w -03.ib m .com /press/u s/en /p ressrelease/ 37398.w ss. Lásd még Clay Luthy: „Guest Perspective: IBM W orking w ith PG&E to M axim ize the EV Potential". PGE Currents Magazine, 2012. április 13., h ttp :// w w w .pgecurrents.com /2012/04/13/ibm -w orking-w ith-pge-to-m axim ize-the-evpotential. 6 Cukier 2010-ben és 2012-ben készített interjúja A ndreas Weigenddel. 7 Cukier: „Data, Data Everyw here". 8 Brad Brow n - M ichael Chui - Jam es M anyika: „Are You Ready for the Era of 'Big D ata'?". McKinsey Quarterly, 2011. október, 10. 9 „Telefonica Hopes 'Big Data' A rm Will Revive Fortunes". BBC Online, 2012. októ ber 9., http://w w w .bbc.co.uk/new s/technology-19882647. 10 Patrizia Frei et al.: „Use of Mobile Phones and Risk of Brain Tum ours: U pdate of D anish C ohort Study". British Medical Journal 3 4 3 ,2 0 1 1 , http://w w w .bm j.com / content/343/bm j.d6387; Cukier interjúja, 2012. október. 11 Peter Kirwan: „This Car Drives Itself". Wired UK, 2012. január, http://w w w .w ired. co .u k /m agazine/arch ive/2012/01/featu res/th is-car-d rives-itself?p age= all. 12 C ukier interjúja. M ou ntain View, K alifornia, G oogleplex, 2 0 0 9 . d ecem ber. N éhány részlet itt is megjelent: Cukier: „Data, D ata Everyw here". 13 Cukier interjúja, 2012. október. 14 A lexandra Alter: „Your E-Book Is R eading You". Wall Street Journal, 2012. június 29., http://onlin e.w sj.com /article/S B 10001424052702304870304577490950051438 304.htm l. 15 Cukier interjúja, 2012. június. 16 B arack Obam a: „Presidential m em orandum ". W hite H ouse, 2009. jan u ár 21. 17 A Facebook kezdeti nyilvános ajánlattételében kifejeződő piaci és k önyv sze rinti érték k özötti eltérés k itűnő elem zéséért lásd D oug L aney: „To Facebook
BIG DATA
246
You're W orth $80.95". Wall Street Journal, 2012. m ájus 3., http://blogs.w sj.com / cio/2012/05/03/to-faceb ook -you re-w orth -80-95/. A Facebook tartalm i elemeinek értékeléséhez L aney a Facebook növekedéséből extrapolálva jutott el a 2,1 bil lió darabos becsléséhez. Fent em lített cikkében 3 centre értékelt m inden ilyen elemet, mivel a Facebook egy korábbi, 75 m illiárd dolláros piaci értékbecsléséből indult ki. M ivel ez végü l m eghaladta a 100 m illiárd dollárt, L an ey szám ításait követve mi darabonként 5 centes értékre jutottunk. 18 Steve M. Sam ek: „P rep ared Testim ony: H earin g on A d apting a 1930's F in an cial R eporting M odel to the 21st C entury". U.S. Senate Com m ittee on Banking, H ousing and U rban Affairs, Subcom m ittee on Securities szenátusi albizottsági m eghallgatás anyaga, 2000. július 19. 19 R obert S. Kaplan és David P. N orton: Stratégiai térképek - Hogyan alakulnak át az immateriális javak pénzügyi eredménnyé? (Strategy Maps: Converting Intangible Assets into Tangible Outcomes). Ford .: Bácsi K atalin - Gast K ároly - H ortován yi Lilla. Budapest, Panem , 2 0 0 5 ,4 -5 . 20 Cukier interjúja, 2011. február.
7. Követ kezmények 1 A D ecide.com -m al kapcsolatosa adatok forrása Cukier em ailváltása Etzionival, 2012. május. 2 Jam es M anyika et al.: „Big Data: The N ext Frontier for Innovation, Com petition, and Productivity". M cKinsey Global Institute, 2011. május, http://w w w .m ckinsey. com /in sigh t s/m g i/re se a rch /te ch n o lo g y _ a n d _ in n o v a tio n /b ig _ d a ta _ th e _ n e x t_ frontier_for_innovation. 3 Cukier interjúja, 2009. december. 4 Cukier em ailváltása De M arckennel, 2012. május. 5 Cukier interjúja G ary Kearnsszel, a M aster-Card Advisors vezetőjével a The Econo mist „The Ideas Econom y: Inform ation" konferenciáján. Santa C lara, Kalifornia, 2011. június 8. 6 Cukier interjúja városi hivatalnokokkal, 2007. február. 7 „M icrosoft E xp an d s Presen ce in H ealth care IT In d u stry w ith Acquisition of H ealth Intelligence Softw are A zyxxi". A M icrosoft sajtóközleménye. 2006. július 26., h ttp ://w w w .m icrosoft.com /en -u s/n ew s/p ress/2006/ju l06/07-26azyxxiacq u i
JEGYZETEK
247
sitionpr.aspx. Az Am alga szolgáltatás jelenleg a M icrosoft G eneral Electrickel közösen létrehozott vállalkozása, a C aradigm része. 8 A Bradford Crosszal kapcsolatos inform ációk forrásai Cukier interjúi, 2012. m ár cius-október. 9 Kezdeti nyilvános ajánlattétel, 1997. május, h ttp://w w w .sec.gov/A rchives/edgar/ d ata/1018724/0000891020-97-000868.txt. 10 Nick Valery: „Tech.View: C ars and Softw are Bugs". Economist.com, 2010. május 16.,
h ttp ://w w w .e co n o m ist.co m /b lo g s/b a b b a g e /2 0 1 0 /0 5 /te ch v ie w _ ca rs_ a n d _
softw arejbug. 11 M aury: The Physical G eography of the Sea. 12 Az Inrixszel kapcsolatos inform ációk forrásai Cukier vezetőkkel készített in ter júi, 2012. május, szeptember. 13 Sarah Kliff: „A Database That Could Revolutionize H ealth Care". Washington Post, 2012.
május 21.
14 Cukier em ailváltása Etzionival, 2012. május. 15 Claire Cain Miller: „U.S. Clears Google Acquisition of Travel Software". New York Times, 2011. április 8., h ttp://w w w .nytim es.com /2011/04/09/technology/09google. h tm l?_r= 0. 16 Cukier Inrix-vezetőkkel készített interjúja, 2012. május. 17 Cukier interjúja, 2012. május. 18 Ian Ayres: Super Crunchers. London, John M urray, 2007. 19 Cukier interjúja, 2012. május. 20 Cukier interjúja, 2012. m árcius. 21 A filmekre vonatkozó adatokért lásd Brooks Barnes: „A Year of Disappointm ent at the M ovie Box Office". New York Times, 2011. decem ber 25., http ://w w w .nytim es. co m /2 0 1 1 /1 2 /2 6 /b u s in e s s /m e d ia /a -y e a r-o f-d is a p p o in tm e n t-fo r-h o lly w o o d .htm l). A videojátékokra vonatkozó adatokért lásd „Factbox: A Look at th e $65 billion Video Games Industry". Reuters, 2011. június 6., h ttp ://u k .reu ters.co m / article/2011/06/06/us-videogam es-factbox-idU K TR E75552I20110606. 22 Nick Wingfield: „Virtual Products, Real Profits: Players Spend on Zynga's Games, but Q u ality Turns Some O ff". Wall Street Journal, 2 0 1 1 .szeptem ber 9., h ttp :// on Iin e.w sj.com /articIe/SB 10001424053111904823804576502442835413446.h tm l. 23 Niko W aesche Rudinnal készített interjúját idézi Erik Schlie - Jörg Rheinboldt Niko W aesche: Simply Seven: Seven Ways to Create a Sustainable Internet Business. Basingstoke, Palgrave M acm illan, 2011,7.
BIG DATA
248
24 Cukier D avenporttal készített interjúja, 2009. december. 25 Cukier Bruce Nashsel készített interjúi, 2011. október, 2012'. július. 26 E rik Brynjolfsson - L ó rin H itt - H eekyung Kim: „Strength in N um bers: H ow D oes D ata-D riven D ecisionm aking A ffect Firm P erform an ce?". M unkaanyag, 2011. április, http://pap ers.ssrn .com /sol3/pap ers.cfm ?ab stract_id = 1819486. 27 „Rolls-Royce: Britain's Lonely H igh-Flier". The Economist, 2009. január 8., h ttp :// w w w .econ om ist.com /n ode/12887368. 28 Erik Brynjolfsson - A ndrew McAfee - M ichael Sorell - Feng Z hu,: „Scale W ith out Mass: Business Process Replication and Industry Dynamics". H arvard Business School m unkaanyag, 2006. szeptember, http://w w w .hbs.edu/research/pdf/07-016 .pdf; h ttp ://hb sw k.hbs.edu/item /5532.htm l. 29 Az egyre nagyobb adatbirtokosok létrejötte irányába tartó folyam atról lásd még Yannis Bakos - Erik Brynjolfsson: „Bundling Information Goods: Pricing, Profits, and Efficiency". Management Science, 4 5 ,1 9 9 9 . decem ber, 16 1 3 -3 0 . 30 A szerzők interjúi, 2011 és 2012.
8. Kockázatok 1 A Stasiról szóló irodalom legnagyobb része ném et nyelvű. E gy alapos kutatásra épülő, angol nyelven írt m u n káért lásd Kristie M acrakis: Seduced by Secrets: In side the Stasi's Spy-Tech World. Cambridge, Cambridge University Press, 2008. Egy személyes történ et rajzolódik ki a következő m űben: Tim othy G arton Ash: The File. L ond on , A tlantic Books, 2 0 0 8 . Javasoljuk m ég eg y O scar-d íjas film m eg tekintését: A mások élete (Das Leben dér Anderen). R endezte: Flórian Henckel von D onnersm ark. Buena Vista / Sony Pictures, 2006. 2 „George Orwell, Big Brother Is W atching Your House". The Evening Standard, 2007. m árcius 31., http://w w w .thisislondon.co.uk/new s/george-orw ell-big-brother-isw atching-your-house-7086271.htm l. 3 Daniel J. Solove: The Digital Person: Technology and Privacy in the Information Age. New York, N Y U Press, 2 0 0 4 ,2 0 -2 1 . 4 J. R. Minkel: „The U.S. Census Bureau Gave Up N am es of Japanese-Am ericans in W W II". Scientific American, 2007. március 30., http://w w w .scientificam erican.com / article.cf m ?id = confirm ed-the-us-census-b. 5 William Seltzer - M argo Anderson: „The Dark Side of Numbers: The Role of Popu lation Data Systems in H um an Rights Abuses". Social Research 68, 2001, 4 81-513.
JEGYZETEK
249
6 Edw in Black: Az IBM és a holokauszt (IBM and the Holocaust). Ford.: Árokszállásy Zoltán. Budapest, A thenaeum , 2000. 7 Elias Leake Q uinn: „Sm art M etering and Privacy: Existing Law and C om peting Policies; A R eport for the C olorado Public U tility Com m ission". 2 0 0 9 tavasza, http://w w w .w 4ar.com /D anger_of_Sm art_M eters_Colorado_Report.pdf. Lásd még Joel M. M argolis: „W hen Sm art Grids G row Sm art E nough to Solve C rim es". N eustar, 2010. március 18., http://energy.gov/sites/prod/files/gcprod/docum ents/ N eustar_Com m ents_D ataExhibitA .pdf. 8 Fred H . Cate: „The Failure of Fair Inform ation Practice Principles" In Consumer Protection in the Age of the „Information Economy". Jane K. W inn (ed.). Burlington, Ashgate, 2006, 341. 9 M ichael B arbaro - Tom Zeller Jr.,: „A Face Is E xp o sed for AOL S earch er No. 4417749". New York Times, 2 0 0 6 . au gu sztu s 9. Lásd még M atthew K arn itsch n ig - Mylene M angalindan: „AOL Fires Technology Chief A fter W eb-Search Data Scandal". Wall Street Journal, 2006. augusztus 21. 10 Ryan Singel: „Netflix Spilled Your Brokeback M ountain Secret, Lawsuit Claims". Wired, 2009. decem ber 17., h ttp ://w w w .w ired .co m /th reatlev el/2009/12/n etflixp rivacy-law suit/; A rvin d N aray an an - Vitaly Shm atikov: „Robust D e-A nonym ization of L arge Sparse D atasets". Proceedings of the 2008 IEEE Symposium on Security and Privacy, 111, http://w w w .cs.utexas .edu/~shm at/shm at_oak08netflix. pdf; N arayanan - Shmatikov: „How to Break the Anonym ity of the N etflix Prize D ataset". 2006. október 18., http ://arxiv.org/ab s/cs/0610105. 11 Paul O hm : „Broken Prom ises of Privacy: Responding to the Surprising Failure of Anonym ization". 57 UCLA Law Review 1701,2010. 12 Lars Backstrom - Cynthia D w o rk -Jo n Kleinberg: „Wherefore A rt Thou R 3579X? Anonym ized Social Networks, Hidden Patterns, and Structural Steganography". Communications of the Association of Com puting M achinery, 2011. d ecem b er, 133. 13 „Vehicle Data Recorders: W atching Your Driving". The Economist, 2012. június 23., 'http ://w w w .econom ist.com /nod e/21557309. 14 D ana Priest - W illiam Arkin: „A H idd en W orld, G row ing B eyond Control". Washington Post, 2010. július 19., http://projects.w ashingtonpost.com /top-secretam erica/articles/a-hidden-w orld-grow ing-beyond-control/print/); Juan G onza lez: „Whistleblower: The NSA Is Lying - U.S. G overnm ent H as Copies of M ost of Your Emails". Democracy Now, 2012. április 20., h ttp ://w w w .dem ocracyn ow .org/ 2012/4/20/w histleblow er_the_nsa_is_ lying_us.
BIG DATA
250
15 „Sworn D eclaration in th e C ase of Jew el v. NSA". W illiam B in ney eskü alatt tett nyilatkozata. 2012. július 2., http://publicintelligence.net/binney-nsa-decla ration/. 16 Arról, hogyan változtatta m eg a big data a megfigyeléseket lásd Patrick Radden Keefe: „Can Netw ork Theory Thw art Terrorists?". New York Times, 2 0 0 6 . március 12., http://w w w .nytim es.com /2006/03/12/m agazin e/312w w ln _essay.h tm l. 17 Különvélemény (Minority Report). Rendezte: Steven Spielberg. D ream W orks/ 20th C entury Fox, 2 0 0 2 . Az általunk idézett részt kism értékben lerövidítettük. A film Philip K. D ick 1958-b an m egjelent elbeszélése alapján készült, ah hoz képest azonban jelentős eltérések et ta rta lm a z . A nyitójelenet a felszarv azo tt férjjel például nem szerepel a könyvben, valam int az „elő-bűncselekm ény" filozófiai talánya is sokkal élesebben megjelenik a filmben, m int az elbeszélésben. Ezért döntöttünk úgy, h ogy a filmmel fogunk párhuzam ot vonni a könyv helyett. 18 A prediktív ren d fen ntartás példáit lásd Jam es Vlahos: „The D epartm ent Of PreCrime". Scientific American 3 0 6 ,2 0 1 2 . január, 62 -6 7 . 19 S haron W ein b erger: „Terrorist 'P re -c rim e ' D etecto r Field Tested in U nited States". Nature, 2011. május 27., h ttp://w w w .nature.com /new s /2011/110527/fu ll/ news.2011.323 .html; Weinberger: „Intent to Deceive". Nature 465,2010. május, 4 1 2 15. 20 A ham is következtetések problémájáról lásd Alexander Furnas: „Homeland Secu rity's 'P re-C rim e' Screening W ill N ever Work". The Atlantic Online, 2012. április 17., http://w w w .theatlantic.com /technology/archive/2012/04/hom eland-securitys -pre-crim e-screening-w ill-never-w ork/255971/. 21 Tim Query: „Grade Inflation and the Good-Student Discount". Contingencies Maga zine, 2007. május-június, http://w w w .contingencies.org/m ayjun07/tradecraft.pdf. 22 Bernard E. H arcourt: Against Prediction: Profiling, Policing, and Punishing in an Actua rial Age. Chicago, University of C hicago Press, 2006. 23 Richard Berk: „The Role of Race in Forecasts of Violent Crim e". Race and Social Problems 1 ,2 0 0 9 ,2 3 1 -4 2 ; Cukier emailinterjúja, 2012. november. 24 M cN am ara adatim ádatáról lásd Phil Rosenzweig: „Robert S. M cN am ara and the Evolution of M odern M anagem ent". Harvard Business Review, 2010. decem ber, http ://hb r.org/2010/12/rob ert-s-m cn am ara-and -the-evolution-of-m odern-m ana gem ent/ar/pr. 25 John Byrne: The Whiz Kids. New York, Doubleday, 1993. 26 M cN am ara Fordnál eltöltött éveiről lásd David H alberstam : The Reckoning. New York, M orrow, 1 9 8 6 ,2 2 2 -4 5 .
JEGYZETEK
251
27 D ouglas K inn ard : The War Managers. H anover, U niversity Press of N ew E ng land, 1977, 7 1 -2 5 . E rész m egírásához n agy segítséget jelentett a dr. K innarddal - asszisztense közrem űködésével - készített em ailinterjú, am elyért a szerzők ezúton m ondanak köszönetét. 28 A m ondást leggyakrabban W. Edw ards D em ingnek tulajdonítják. 29 Sara K ehaulani Goo: „Sen. K ennedy Flagged by N o-Fly List". Washington Post, 20 04. augusztus 20., h ttp://w w w .w ashingtonpost.com /w p-dyn/articles/A 170732004A u gl9.h tm l. 30 A Google felvételi gyakorlatáról lásd D ouglas E dw ard s: I'm Feeling Lucky: The Confessions of Google Employee Number 59. B oston, H oughton M ifflin H arco u rt, 2011, 9. Lásd még Steven L evy: In the Plex. N ew York, Simon and Schuster, 2011, 140-41. A sors iróniája, h ogy a Google társalapítói szerették volna Steve Jobsot vezérigazgatónak felkérni, annak ellenére, hogy nem rendelkezett felsőfokú vég zettséggel. Ibid. 80. 31 Laura M. Holson: „Putting a Bolder Face on Google". New York Times, 2009. m ár cius 1., http://w w w .nytim es.com /2009/03/01/b usiness/01m arissa.h tm l. 32 Az id ézet k irag ad o tt részlet D oug B o w m an „Goodbye, G oogle" cím ű blogposztjából, 2009. március 20., http://stopdesign.com /archive/2009/03/20/goodbye -google.htm l. 33 Steve Lohr: „Can Apple Find More Hits W ithout Its Tastemaker?". New York Times, 2011. jan u ár 18., h ttp ://w w w .n y tim es.co m /2011/01/19/tech n o lo g y /co m p an ies/ 19innovate.htm l. 34 Jam es Scott: Seeing Like a State: How Certain Schemes to Improve the Human Condition Have Failed. New H aven, Yale University Press, 1998. 35 Részlet M cN am ara Millsaps College-ban elm ondott beszédéből (Jackson, M issis sippi állam). 36 Robert S. M cN am ara - Brian VanDeM ark: In Retrospect: The Tragedy and Lessons of Vietnam. New York, Random House, 1 9 9 5 ,4 8 ,2 7 0 .
9. Kontroll 1 M arc D rogin: Anathema!: Medieval Scribes and the History of Book Curses. M ontclair, Allanheld and Schram , 1983, 37. 2 A felelősség és az adatvédelem összefüggéseiről lásd h ttp ://w w w .in form ation policycentre.com /accountability-based_privacy_governance/.
BIG DATA
252
3 Az adatok felhasználásának határidejéről lásd M ayer-Schönberger: Delete. 4 Cynthia Dwork: „A Firm Foundation for Private Data Analysis". Communications of the ACM, 2011. január, 8 6 -9 5 . 5 A. C hin - A. Klinefelter: „Differential P rivacy as a Response to the Reidentifica tion Threat: The Facebook A dvertiser Case Study". 90 North Carolina Law Review 1417,2012.; A. Haeberlen et al.: „Differential Privacy Under Fire", http://w w w .cis. u penn .ed u/~ ahae/p apers/fu zz-sec2011.p d f. 6 Az e területen zajló m unkával kapcsolatban lásd Pirn Heijnen - M arco A. H aan A driaan R. Soetevent: „Screening for Collusion: A Spatial Statistics Approach". Tinbergen Institute, 2 0 1 2 ,2 0 1 2 -0 5 8 /1 sz. vitaanyag, http://w w w .tinbergen.nl/discussionpapers/12058.pdf. 7 Viktor M ayer-Schönberger: „Beyond Privacy, Beyond Rights: Tow ards a 'Sys tem s' Theory of Inform ation G overnance". 98 California Law Review 1853, 2010. 8 Az együttm űködésről lásd John Palfrey - Urs Gasser: Interop: The Promise and Perils of Highly Interconnected Systems. N ew York, Basic Books, 2012.
10. fejezet : Ezután 1 Mike Flow ers és a N ew York-i elem zések történetének alapja: Cukier interjúja, 2012. július. L eírását lásd még Alex H ow ard: „Predictive data analytics is saving lives and taxpayer dollars in New York City". O'Reilly Media, 2012. június 26., h ttp:// strata.oreilly.com /2012/06/predictive-data-analytics-big-data-nyc.htm l. 2 Hays: „W hat W al-M art Knows About Custom ers' Habits". 3 N athan Eagle: „Big D ata, Global D evelopm ent, and Com plex Systems", h ttp :// w w w .youtube.com /w atch?v=yaivtqlu7iM . 4 Az időfelfogásról lásd Benedict Anderson: Imagined Communities. London, Verso, 2006. 5 William Shakespeare: A vihar. 2. felvonás, 1. szín. Ford.: Babits Mihály. http://m ek. o szk .h u /05700/05772/05772.h tm # 5 6 Cukier em ailváltása a C ER N kutatóival. 2012. november. 7 Az A pollo-11 szám ítógépes ren d szeréről lásd David A. M indell: Digital Apollo: Human and Machine in Spaceflight. Cambridge, MIT Press, 2008.
NÉV- ÉS TÁRGYMUTATÓ
23andM e 34-35
—közvetítők 1 4 9 -5 2 ,1 5 4 —nyilvántartás az ókorban 23
abakusz 9 3 ,2 0 9 A ccenture 143,146 Acxiom 114,166 adat(ok) lásd még big data, információ
—osítás 2 3 ,2 6 ,8 5 -1 1 1 ,1 5 2 ,1 8 3 ,1 9 1 , 207-08,211 —tárolás 5 5 ,1 1 5 —tem ető(k) 120
~ anonim m á tétele 17 0 -7 2
-tu d ó s o k 1 2 8 ,1 4 0 ,2 0 5 ,2 2 0
~ diktatúrája 2 5 ,1 6 7 ,1 8 0 -8 7 ,1 9 5
—védelmi nyilatkozat és hozzájárulás
~ értéke 112-37
1 6 9 -7 2 ,1 9 1 -9 2
— fetisizálása 167,185
—védelmi törvény 16 9 ,1 9 1 -9 3
~ opciós értéke71 1 6 -2 4 ,1 3 5 -3 6
—vezérelt döntéshozatal 160-61,
~ összesítése 1 2 ,8 9 -9 0 ,1 0 8 ~ újrafelhasználása / újrahasznosítása 1 1 8 -2 0 ,1 2 6 ,1 3 6 ,1 4 0 —bányászat 77,80-81
181 értékesítési — 1 2 ,1 1 5 ,1 5 2 ,1 5 9 m éta— 106-07 mobiltelefon— / mobilszolgáltatók —ai
—bázis-tervezés 5 4 -5 6
3 5 ,4 0 ,1 0 1 ,1 0 3 -0 4 ,1 2 0 -2 1 ,1 2 2 -2 3 ,
-e le m z é s 2 3 ,5 6 ,8 0 -8 1 ,8 3 ,1 4 0 ,1 5 3 -5 4 ,
1 3 5 ,1 4 7 ,1 5 1 ,1 6 2 -6 3 ,1 6 6 -6 8 ,2 1 1 ,
1 5 7 -5 8 ,1 7 4 -7 6 ,1 8 0
213
lásd még korreláció-elemzés,
nyílt - 1 3 0 -3 3 ,1 4 5
prediktív analitika
személyes — 2 5 ,1 1 4 ,1 6 3 -6 4 ,1 6 7 -7 4 ,
-g y ű jté s 2 2 -2 3 ,3 2 - 3 4 ,3 6 ,4 0 ,4 3 ,5 2 ,
192-93,201
6 4 -6 5 ,7 0 ,8 1 ,9 9 ,1 0 5 ,1 1 5 ,1 2 0 ,1 2 3 -2 4 ,
visszaélések az —kai 183,190
1 3 0 -3 1 ,1 3 9 ,1 4 2 ,1 4 8 ,1 6 2 ,1 6 7 ,1 6 9 ,
a u tó k / gépjárm űvek —ai 150-51
17 3 ,1 9 1 ,1 9 6 ,2 1 1 —kereskedők 66,1 1 4 ,1 1 9
kim aradás az —gyűjtésből 170 vállalatok ~ i 1 1 3 ,1 2 0 -2 1 ,1 3 5 ,1 3 9
BIG DATA
254
AirSage 103,121
Barnes & Noble 129,146
algoritmisták 1 9 8 -2 0 1 ,2 0 3 ,2 1 3
baseball 2 4 ,1 5 5 -5 6 ,1 6 1
Alta Vista 127
Basis 108
Amalga 1 4 3 -4 4 ,1 5 4
Beane, Billy 156
Am azon 2 0 ,2 3 ,6 0 -6 3 ,9 8 -9 9 ,1 1 5 -1 6 ,
Bell Labs 184
1 1 9 ,1 2 4 -2 5 ,1 3 0 ,1 4 6 -4 8 ,1 5 7 ,1 6 2 -6 3 ,
Berners-Lee, Tim 132
166,173
Bezos, Jeff 6 0 ,9 8 ,1 4 6 ,1 5 7
Amerikai Egyesült Államok ~ Belbiztonsági Minisztériuma
big data lásd még adat, információ ~ a bűnmegelőzésben 1 6 8 ,1 7 4 -7 9
(U.S. D epartm ent of Homeland
~ a csillagászatban 14
Security, DHS) 176,199
~ a hálózatelméletben 4 0 ,8 1
~ járványügyi hivatala (U.S. Centers for Disease Control and Prevention, CDC) 9-10 ~ M unkaügyi Statisztikai Hivatala (U.S. Bureau of Labor Statistics) 51 ~ Nem zetbiztonsági Ügynöksége (U.S. National Security Agency, NSA) 173 ~ Népszámlálási Hivatala (U.S. Census Bureau) 31-32,167 Anderson, Chris 82-83
~ a hitelkártyacsalások felderítésében 37 ~ árnyoldalai / veszélyei 25,27, 1 6 7 -6 8 ,1 7 1 ,1 7 8 -8 8 ,1 9 0 ,2 0 1 ,
212 ~ az egészségügyben 9 -1 1 ,2 5 , 3 4 ,6 6 -6 7 ,7 0 -7 2 ,7 3 ,1 0 4 ,1 0 7 -0 9 , 1 4 3 -4 4 ,1 5 2 -5 3 ,1 8 7 ,2 1 1 ,2 1 3 ~ az elektronikus kereskedelemben 6 2 ,1 1 9 ,1 3 2 ,1 4 6 ,2 0 9 ~ az igazságszolgáltatásban 26, 178-79,194
A O L 119,171-72
~ az oktatásban 1 9 ,2 5 ,1 2 9 -3 0 ,1 8 3
Apple 3 5 ,1 0 1 ,1 0 8 ,1 3 7 ,1 6 2 -6 3 ,1 8 5
~ az olajfinomításban 5 0 ,1 6 8
Arnold, Thelma 171
~ értéklánc 141,14 7 ,1 4 9 ,1 5 2
Asthmapolis 108
~ és az infláció számítása 51-52
átláthatóság 1 2 ,6 4 ,1 5 3 ,1 9 7
~ és az üzleti modellek átalakulása
autó(k)
2 4 ,1 1 4 ,1 3 7 ,1 4 7 -4 8 ,1 5 2 -5 4
elektromos ~ 116-17
~ és genetika 1 6 ,3 4 -3 5 ,8 2
vezető nélküli ~ 2 0 ,1 2 4 ,1 4 8 ,2 1 1
~ és elm agyarázhatóság 197
Aviva 67
~ és klím aváltozás 2 6 ,2 1 3
Ayres, Ian 157
~ gondolkodásmód 1 3 9 -4 1 ,1 4 4 -4 7 , 1 55,212
Bacon, Francis 43
~ kockázatai 1 6 6 -8 8
Banko, Michele 4 6 ,4 9
~ m int a versenyelőny forrása 60,
Barabási Albert-László 40
161-62,165
N É V - . ÉS T Á R G Y M U T A T Ó
Billion Prices Project 51
255
digitális
Bing 13,173
~ lábnyom 1 2 6 -3 0 ,1 6 5 ,2 1 2
Binney, William 173
~ önism eret 108
Bloomberg, Michael 205
digitalizáció 2 3 ,8 9 -9 0 ,9 5 -9 6 ,9 8 -9 9 ,1 2 0
Boston Consulting Group 164
Domesday Book 30
Bow m an, Douglas 185
Dostert, León 47
boyd, danah 83
Duhigg, Charles 68-69
Brahe, Tycho 95 Brill, Eric 4 6 ,4 9
Éagle, N áthán 103-04
Brin, Sergey 184
eBay 1 3 6 ,1 4 6
British Petroleum (BP) 5 0 ,1 6 8
edX 129
Brynjolfsson, Erik 161,163
Eisenstein, Elizabeth 18
Captcha 112
Elbaz, Gil 137,221
Cate, Fred 169,220
elemzés
e-könyvek 9 8 ,1 2 9 ,1 4 8 lásd még Kindle
Cavallo, Alberto 52
érzelem — 4 4 ,1 0 6 -0 7
CERN laboratórium 217
hálózat— 40
Chagall, M arc 97
korreláció— 6 5 -6 6 ,6 9 ,7 2 -7 3 ,7 7 -7 8
cím kézés 53
lásd még előrejelzés(ek), prediktív
ClearForest 11
analitika
Code for Am erica 132 Coursera 129,157 Craigslist 113
'
Crawford, Kate 83 Crosby, Alfred 42 Cross, Bradford 1 4 4 -4 6
előrejelzés(ek) lásd még korreláció elemzés, prediktív analitika — a biztosítási ágazatban 25 ,6 7 -6 8 , 1 0 1 -0 2 ,1 5 2 -5 3 ,1 5 8 ,1 7 7 ,1 7 9 ,2 1 1 — a feltételes szabadlábra helyezésben 1 7 5 ,1 7 8 -7 9 ,2 0 0 — a közlekedésben 1 3 ,2 0 ,8 9 ,1 4 8 ,1 5 1 ,
csoportos információszűrés 148
154,191-92 — a m echanikus és szerkezeti hibák
DataM arket 136
megelőzésében 69
Data-Sift 105
— a profilalkotásban 177-78
Davenport, Thomas 160
— a rendfenntartásban 1 7 4 -7 6 ,1 7 9
Decide.com 138-39,153
— a sportban 3 7-38,156
Delano, Robert 109
— a Targetnél 68-69
Deloitte Consulting 67,221
— a tengeri navigációban 88
Derawi Biometrics 109
— a terrorizm us elleni harcban 173-74,
D erwent Capital 106
1 7 6 -7 7 ,1 8 3 -8 4 ,2 0 4
BIG DATA
256
~ a UPS-nél 102 ~ az egészségügyben 7 0 ,7 3
egyén i/szem élyes — 178-79,195-96, 212-13
~ és „az elméletek vége" 8 1 -8 3
Fitbit 108
~ felhasználása a hitelbírálatokban
Flickr 53
6 6 ,1 7 7
FlightCaster.com 144-45
adósok várható viselkedésének ~ 66
Flowers, Mike 2 0 4 -0 8 ,2 1 6 ,2 2 0
emberi viselkedés ~ 103
FlyOnTime.us 132-3 3 ,1 4 4 -4 5
hollywoodi filmek sikerének ~ 44,
fogyasztóiár-index (CPI) 51-52
106,159-60 influenza terjedésének ~ 9 -1 0 ,1 9 ,3 6 , 3 9 ,6 6 ,7 5 ,7 7 ,8 9 ,1 0 3 ,1 0 7 ,1 1 8 ,1 4 8 ,
Ford M otor Company 181 Ford, H enry 216 Foursquare 1 03,107
170,187,210 járatkésések ~ e 132-33
Galton, Sir Francis 64
jegyárváltozások ~ e 1 2 -1 3 ,1 9 ,1 3 9 ,1 4 1
Gasser, Urs 222
jelzőértékek az —ben 6 3 ,6 5 -6 6 ,6 8 -6 9
Gates, Bill 184
kábelakna-katasztrófák —e 80
gépi
lakástüzek —e 2 0 5 -0 6 ,2 0 8 ,2 1 5 Equifax 67,114,166
~ fordítás 4 7 -4 8 ,9 8 ,1 5 8 — tanulás 2 0 ,4 6 ,1 4 0 ,1 5 0
Eratoszthenész 99,101
Gnip 105
érintésérzékelő padlóburkolat 107-08
Goldblum, Anthony 158,221
Etzioni, O ren 1 1 -1 3 ,1 9 ,3 6 ,8 8 ,1 3 9 ,1 4 1 ,
Google
1 4 6 ,1 5 3 ,1 5 5 ,2 2 0
— adatfeldolgozása 1 6 ,1 8 4 -8 5
Eukleidész 90
— Books 96
Európai Unió 4 8 ,1 3 2
— Docs 127
Evans, Philip 1 6 4 ,2 2 0
— és beszédfelismerés 120
Excite 11
— és fordítás 4 8 -4 9 ,1 2 7 ,1 9 7
Experian 6 6 -6 7 ,1 1 4 ,1 1 9 ,1 5 2 ,1 6 6
— és helyesírás-ellenőrzés 126-27 ~ Flu Trends 3 7 ,6 3 ,6 5 ,1 0 7 ,1 8 6 -8 7
Facebook 1 6 ,2 0 ,2 3 ,5 3 -5 4 ,7 3 ,1 0 4 -0 5 ,
~ Gmail 5 4 ,1 2 7
1 0 7 ,1 1 3 -1 5 ,1 2 8 ,1 3 0 ,1 3 3 -3 5 ,1 6 0 ,1 6 7 ,
~ GPS-adatgyűjtése 124
173,193
~ MapReduce 1 4 ,5 6
Factual 137
~ PageRank 87
Fair Isaac Corporation (FICO) 66
~ Street View 1 0 1 ,1 2 4 ,1 4 8 ,1 7 0
Farecast 1 2 -1 3 ,1 9 ,3 6 ,1 1 5 ,1 1 8 ,1 3 9 ,1 4 1 -
— térképek 147
4 2 ,1 5 3 ,1 5 5 felelősség adatfelhasználók —e 191-92,213
adatok újrahasznosítása a ~ n ál 11 8 -2 0 keresési kifejezések analitikája a ~ n ál 8 3 ,1 8 7 ,1 9 7
NÉV- JS TÁRGYMUTATÓ
GPS (Global Positioning System)
257
1 0 9 -1 1 ,1 1 5 ,1 1 8 -2 0 ,1 2 3 ,1 2 5 -2 7 ,1 2 9 ,
3 5 ,1 0 0 -0 2 ,1 0 8 ,1 1 4 ,1 2 4 ,1 4 7 ,1 8 7 ,
1 3 1 -3 2 ,1 3 7 ,1 3 9 ,1 4 7 ,1 5 2 ,1 6 5 -6 7 ,1 7 1 ,
217
1 9 1 ,1 9 9 ,2 0 9 ,2 2 0
Graunt, John 30
Internet Movie Database (IMDb) 172
Gutenberg, Johannes 18, 98 ,1 8 9 -9 0
iPhone 1 0 1 ,1 6 2 ,1 8 5 ITA Softw are 141,155
Hadoop 1 4 ,5 6 -5 7
iTrem 109
Ham m erbacher, Jeff 1 2 8 ,2 2 0 H arcourt, B ernard 219
Jam es, Bill 156
hedge fund 106,146
Jana 104
Heiland, Pat 55-56
Jawbone 108
helyesírás-ellenőrző rendszerek 19-20,
Jetpac 140
126-27 Hilbert, M artin 16-17
Jobs, Steve 3 5 ,3 7 ,1 8 5 Jonas, Jeff 2 8 ,2 2 2
H itwise 119,152 Hollandia 168
Kaggle 7 7 ,1 5 8 ,2 2 1
Hollerith, H erm an 31,168
K ahnem an, Daniel 75
H ollywood 4 4 ,1 0 6 ,1 5 9 -6 0
kategorizálás 5 2 ,1 9 5
Honda 117
kauzalitás lásd még ok -okozati/ oksági
H uberm an, Bernardo 106
kapcsolat
Húszéin, Szaddám 204
~ kontra korreláció 2 4 -2 7 ,7 2 ,7 6 -7 9 , 9 6 -9 7 ,1 5 8 ,1 8 0
IBM 2 0 ,2 8 ,3 1 ,4 4 ,4 7 -4 9 ,7 1 ,1 0 7 ,1 1 6 -1 7 , 168,197
~ ösztönös preferálása 74-75,180 K ahnem an a ~ ró l 75
Im port.io 136
Kelet-Németország 1 66,172
információ lásd még adat(ok), big data
Kelvin, W illiam Thomson 43
~ felhasználására vonatkozó jogszabályok 192 ~ m ennyisége a világon 14-18 —s társadalom 14 ,2 0 1 ,2 1 0
Kennedy, Len 155 Kennedy, Ted 1 8 2 ,1 8 4 ,1 9 9 keresőmotor(ok) 1 3 ,8 2 ,1 1 9 ,1 2 6 -2 7 ,1 3 0 , 133
Infoseek 127
kettős könyvelés 93-94
InfoSpace 11
Khandelwal, Shashank 107
innováció (k) 2 1 ,1 0 6 ,1 6 3 -6 5 ,1 9 3 ,2 0 1 , 2 0 9 ,2 1 6 ,2 1 9
Kindle 9 8 ,1 4 8 Kinnard, Douglas 182
Inrix 1 5 0 -5 4
koraszülöttek 71 ,157,214
internet 1 0 -1 1 ,1 4 ,1 6 ,2 0 ,2 5 ,3 6 ,4 8 -4 9 ,
korm ányzati
5 2 -5 3 ,6 2 ,6 4 ,6 7 ,7 7 ,8 3 ,9 5 ,1 0 0 ,1 0 4 ,
~ adatgyűjtés 130-31
258
BIG D AT A
~ információ 131
M asterCard 142-43
~ szerv 131,151
matematikai modell(ek) 1 0 ,1 6 ,3 7 ,6 5 ,1 9 7
korreláció 2 4 - 2 8 ,60-8 4 , 9 7 ,1 0 6 ,1 4 4 , 1 5 2 ,1 5 7 ,1 5 8 ,1 6 1 ,1 7 9 -8 0 ,1 8 4 ,1 8 7 ,1 9 7 , 2 0 6 ,2 0 8 -1 1
Maury, M atthew Fontaine 8 5 -9 0 ,9 5 , 1 0 2 ,1 0 5 ,1 0 9 ,1 1 8 ,1 4 9 ,1 9 2 Mayer, M arissá 185
Koshimizu, Shigeomi 8 9 -9 0 ,1 0 7
McGregor, Carolyn 70 -7 1 ,1 5 7
k ö n y v ek l4-18,2 0 ,2 7 ,3 0 ,4 8 ,6 0 -6 3 ,6 9 ,
M cKinsey Global Institute 140
7 9 ,8 1 ,8 6 ,8 8 ,9 0 ,9 4 -9 9 ,1 1 4 -1 5 ,1 2 5 ,
M cNam ara, Robert 1 8 0 -8 2 ,1 8 6 ,1 8 8
1 2 9 ,1 3 4 -3 6 ,1 4 6 ,1 4 8 ,1 5 6 -5 8 ,1 6 0 ,1 6 3 ,
Medici család 94
1 7 3 ,1 8 2 ,1 8 5 ,1 8 7 ,1 8 9 ,2 2 0 -2 1
MedStar W ashington Kórházi Központ
lásd még e-könyvek közösségi - g r á f 2 3 ,1 0 4 -0 5 ,1 7 2 - hálózat 8 7 ,1 0 4 ,1 3 0 ,1 3 3 - média 5 3 ,1 0 4 -0 5 ,1 0 7 ,1 4 5 kulturomika 97 Kunze, John 37
143 M ercator, Gerardus 100-01 mérés (ek) 2 1 ,3 3 ,4 2 -4 4 ,5 0 ,7 0 ,9 1 - 9 5 , 114,127,133 Merrill, Douglas 57 mesterséges intelligencia 2 0 ,4 9 ,6 0 ,1 5 8 , 197
kuszaság 42-5 9
M etaCrawler 11
Különvélemény (Minority Report) 174,
M icrosoft 1 3 ,4 6 ,4 9 ,1 0 1 ,1 2 6 -2 7 ,1 3 7 ,
180 kvantum fizika 82
1 4 3 -4 4 ,1 5 4 -5 5 ,1 5 8 ,2 0 2 minőség-ellenőrzés 32 mintavétel(ek) 2 1 ,3 1 ,3 2 -4 2 ,4 9 - 5 0 ,5 2 ,
Laney, Doug 134
6 1 ,7 5 ,1 2 2
Levis, Jack 102
M oore-törvény 45
Levitt, Stephen 37-38
műholdak 100-01
Lewis, Michael 156
Mydex 164
Linden, Greg 6 0 -6 2 Linkedln 2 0 ,2 3 ,1 0 5 ,1 0 7 ,1 1 4
Nagy Szinoptikus Égboltfelmérő
lopásgátló rendszerek 8 9 ,1 9 2
Távcső (Large Synoptic Survey
Lytro fény-tér fényképezőgép 39 lyukkártyák 31 ,4 7 ,1 6 8
Telescope, LSST) 16 nanotechnológia 18 Nash, Bruce 161
M arcken, Carl de 141
N egroponte, Nicholas 90
M arcus, James 61
Nem zetközi Meridián Konferencia 100
M arketPsych 106
Nem zetközi Szabványügyi Szervezet
másodlagos jelzálogpiaci botrány (2009) 205
(International O rganization for Standards, ISO) 198
N É V - ÉS T Á R G Y M U T A T Ó
259
népszámlálás(ok) 2 3 ,3 0 -3 2 ,9 0 ,1 6 7
Picasso, Pablo 18,214
Netbot 11
Pinterest 164
N etflix 2 3 ,6 2 ,1 2 4 ,1 7 1 -7 2
pontatlanság 2 1 -2 2 ,2 5 ,3 4 ,4 2 -4 5 ,5 0 -5 1 ,
N ew York 4 5 ,7 9 ,8 7 ,1 2 5 ,1 3 2 ,1 4 6 , 2 0 4 -0 5 ,2 0 8 ,2 1 5
5 3 -5 4 ,8 6 ,1 2 2 ,2 0 6 ,2 1 6 pontosság 1 3 ,2 1 -2 2 ,2 6 ,2 8 ,3 2 ,3 6 ,
New York Times, The 6 8 ,1 4 6 ,1 7 1 ,2 0 1
4 2 -4 6 ,5 0 -5 6 ,5 8 -5 9 ,6 8 ,8 5 ,8 7 ,8 9 ,9 1 ,
N ext Jump 145
9 4 ,1 0 0 -0 1 ,1 0 9 ,1 1 3 ,1 5 2 ,1 5 4 -5 5 ,1 5 8 ,
N eym an, Jerzy 32
1 7 2 ,1 7 6 ,1 7 8 ,1 9 7 ,1 9 9 ,2 0 0 ,2 1 0 ,
Ng, Andrew 129
precizitás lásd pontosság
N orvig, Peter 1 8 ,4 9 ,2 2 0
prediktív analitika 2 4 ,6 9 -7 0 lásd még
N uance 120
adatelem zés, előrejelzés, korreláció elemzés
nyomdagépek 1 8 ,2 5 ,1 1 0 ,1 8 9 ,2 0 3
PriceStats 52
O'Reilly, Tim 137,220-21
projekt
Prismatic 145-46 O akland Athletics 155-56
Gutenberg— 98
Obama, Barack 3 2 ,1 2 6 ,1 3 1
H am let— 12
O ch, Franz Josef 48 Ohm , Paul 172
MIT— 52 Ptolemaiosz 17,99
ok-okozati/ oksági kapcsolat 1 5 ,2 2 ,2 6 , 7 4 -7 9 ,1 4 4 ,1 7 5 ,1 8 0 ,1 8 7 ,2 0 8 ,2 1 0 -1 1
Q uantcast 152
lásd még kauzalitás okos fogyasztásm érők 169
rák 2 2 ,3 4 -3 5 ,3 9 ,1 2 2 -2 3 ,1 7 6 -7 7 ,2 1 3 ,2 1 5
ombudsman(ok) 201
ReCaptcha 113
Omidyar, Pierre 146
recenziók 60
O pen Data Institute 132
rendőrség 1 6 8 ,1 7 4 -7 5 ,2 0 6
O pen Knowledge Foundation 132
Reuters 11
Orwell, George 166,168
Rigobon, Roberto 52 Roadnet Technologies 154-55
Pacioli, Luca 94
Rolls-Royce 162
Page, L arry 1 8 4 ,2 2 0
Rudin, Cynthia 8 0 ,1 9 7 ,2 2 0
Parisé, Brian 109
Rudin, Ken 160
Pasteur, Louis76 „PayPal-maffia" 147
sabermetrics 156-57
Pentland, Sandy 103,164
sakk 45
Pénzcsináló (Moneyball) 2 4 ,1 5 5 -5 6 ,1 5 9 ,
Salathé, M arcel 107
207
Salesforce.com 147,220
260
BIG D AT A
Scott, James 185-86 Sense Networks 103,121
Twitter 1 6 ,2 3 ,3 5 ,4 0 ,4 4 ,5 3 ,1 0 4 -0 7 , 1 1 3 -1 4 ,1 3 9 ,1 4 7 ,1 6 4 ,1 6 7
Silver, Nate 33 Skyhook 103
Udacity 129
Sloan Digital Sky Survey (Sloan
Univerzális Transzverzális M ercator
Digitális Égboltfelmérési Program , SDSS) 15 Smith, Adam 114
(UTM ) 100 U PS 7 0 ,1 0 2 ,1 5 4 UPS Logistics Technologies 154-55
Society for Am erican Baseball Research 156
valóságbányászat 103-04
Stasi 1 6 6 ,1 6 8 ,1 7 2
Varian, Hal 14 0 -4 1 ,2 20
Sunlight Foundation 132
védőoltások 7 3 ,7 6 ,1 0 7
SWIFT 120-21
véletlenszerűség 3 2 -3 4 ,3 6 - 3 8 ,5 1 ,6 3 , 7 9 ,1 1 3 ,2 1 6
szabad akarat 2 5 ,7 4 ,1 6 7 ,1 7 8 -8 0 ,1 8 7 , 194,212
veszettség 76-77 videojátékok 17,159
szakértelem 2 4 ,1 4 0 ,1 5 0 ,1 5 5
vietnam i háború 1 8 3 ,1 8 6
szám (ok)
Világbank 1 3 2 ,1 3 6 ,1 8 6
arab ~ 9 2 -9 4
Visa 57,142
róm ai ~ 92-93
Von Ahn, Luis 112-13
számszerűsítés 1 6 ,2 1 ,2 4 ,2 6 ,4 2 -4 3 ,6 3 , 8 9 -9 2 ,9 5 ,9 7 ,9 9 ,1 1 1 ,1 2 9 ,1 8 1 -8 6 ,2 1 1
W alm art 2 4 ,6 3 -6 4 ,6 6 ,1 1 6 ,1 4 0 ,1 6 2 ,2 1 1
számítógépes lexikológia 97
W arden, Pete 140,221
személyiségi jogok 1 2 1 ,1 2 4 ,1 3 1 ,1 6 7 ,
W atts, Duncan 81
1 9 0 -9 1 ,2 0 1 ,2 0 3 ,2 1 2 -1 3
Wikipedia 164
szumó 37-3 9
W indows A zure M arketplace 137
Taleb, Nassim Nicholas 63
Xoom 37
Target 68-69 társadalom tudom ányok 3 3 ,4 0 ,8 2
Yahoo 1 4 ,1 1 2 ,1 2 7
Telefonica Digital Insights 121
YouTube 16
Teradata 6 4 ,1 4 0 ,1 4 6 ,2 2 1 térinformatikai helym eghatározás 100
Zeo 108
The-Numbers.com 160-61
ZestFinance 57
Thom son Reuters 106
Zillow 123
trösztellenes szabályozás / törvények 202-03
Zuckerberg, M ark 133,185 Zynga 159-60
VIK TO R MAYER-SCHÖNBERGER az Oxfordi Egyetemen működő Oxford Internet Institutenak az internet irányításával és szabályozá sával foglalkozó professzora. A big data széles körben elismert szaktekintélye, számos cikk és könyv szerzője. A világ olyan nagyválla latainak és intézményeinek tanácsadó tes tületéiben foglal helyet, mint a M icrosoft és a Világgazdasági Fórum.
K EN N ETH C U K IER a The E c o n o m is t sze r kesztője, a big data fejlődésének szakava tott tudósítója. Üzleti és közgazdasági tárgyú írásai egyebek közt a F o re ig n A ffa irs , a The N e w York T im es és a F in a n c ia l T im e s hasáb jain jelentek meg.
— .i
q
O
A
o
•—¥
—*
—*
O
—^
— 4 CD
A — AA A o ~ cr — A— J . o ' -A A O AA - cr-cr Qn■ = ? “T P? A— A-A o o A o o o . a. C D ' — 1■ ** -“* ■ -** o Ak o o o — — A — A A A — A — A A -A - 3 o -» o o o o o o o -A — A k Ak A -a o -A — A A o o Ak o AA A —A—A o A A — o o o o — — A
— * A o — a O o — A M ű n k — s .
CD
C_D CD
o -A A -A o o — A o o — A — A o o o — — A — A — A ■ A o o -A o A o o o O . o -A — A -A o — A-A o — A — — A o — A o —i — A — A o A A -A O — .A P A
o
— A — A
A
— A ~ s > A
A
A J.
A
o o o
Q
O
~-:i
o
— A— A« Ao O — A-A — A•A — A— A • o O o o o o -. A Ao — A— \ C O—
o A A A o o _A A o o -A -A
-A -A
a o —A o -A o o -A -A
o
-A
-A
-A
o
O
— A
— A Ak
—*
o o -A -A -A o — A -A -A
M ta lA A
° Megbüntethetnek-e minket olyasmiért, amit e! sem követtünk? © Hogyan kémkednek utánunk az okos elektromos mérőórák? © Milyen összefüggés van a hurrikánok és a félkész epres sütemény eladása között? • Milyen színű használt autót érdemes vásárolnunk? © Hogyan leplezhető De a sportban a bundázás?
A válaszokat a big data módszere, vagyis az óriási adattömeg rendszerezése és elemzése rejti, amely révén meghökkentő következtetésekre juthatunk. Nincsenek többé titkok: az adatok mindent elárulnak az életünkről. A big data forradalma a következő években megváltoztatja majd az üzleti világgal, az egészségüggyel, a politikával, az oktatással és az innovációval kapcsolatos gondolkodásmódunkat, és alkalmazása az élet egyre több területén elterjed. Helytelen felhasználása azonban új veszélyeket is hordoz: fenyegetheti például a személyiségi jogokat, sőt még az is előfordulhat, hogy valakit olyasmiért ítélnek el, amit el sem követett, egyszerűen azért, mert a big data képes előre jelezni a jövőbeli viselkedést.
O O
Ebben a kristálytiszta logikával felépített, rengeteg meglepő ismeretet tar talmazó könyvben két zseniális szakember m agyarázza el, mi is a big data, hogyan változtatja meg életünket, és mit tehetünk azért, hogy megvédjük magunkat a veszélyeitől.
O -A
o o
o
o “A
O A
o -A
o -A
-A ~A
A
A
O -A
-A
o A
Ö "A
o A
-A
-A
-A »A
"A
o -A
o -A
O A
o Ab A
— A
O A
O
_A
-A
o -A
O Ak
o -A
o -A
-A
..A
O
O o
O A o -A
o «■ A -A A Q o O o «A AJ.
AJ.
A
A
A
A Ak
Q Alt
A A
A A
A
o Ak
O 'O • A9> O
■** Ak
O
' **
Ó
O
O
Ö
— *
'*
Ak
a
’
O AJ.
Aj
A
O AJ.
O A.
A).
O "A — A Q
O G
Q ...*
...... — *
o
o
-» A O
-> CD A
o A* A
O A»
— * — &
o A.
CD A
O A» Ak
O — A
O
O A Ak
O A — A
— * Q A.
0 : G
.A
O A
-*
A
A
A
Ak
O
O
-»*
Q
O
O
AJ.
— k
A
Ak
O
-A
A,
-A
A
A
Ak
OO
Ak Ak
CD
a
CD
Ak
Ak
-.-a
Q:
AJ. A
O
O
O
Ak
A J.
.A
q
A
A
o — * A
O
Ak
O
A4 -A
A kC D
OO
-1
A
A
Ak-
CD
CD ö
CD CD "Aj -A Ak O
Ak
Aí.
Ak
Ak
Ak
«aj. Ak
OOO
AJ.
O
-A
-A
a^
CD
Ak
CD A«
Ak
-A
CD CD
-a - o Q .
Ö
O
A*
Ak
OA kO QA k O Q A. Q A
a
„a
O
o Ak -A
o Ak A
O Ak
O o
a
» a '3
a
-a
Oo
Q
Ak Ak
Ak Ak
O Ak
O Ak
Ak Ak
Ak
o Ak
o Ak
O
A
o Ak
o
o Ak o Ak o Ak Ak
O Ak
o o Ak A
Q AJk Ak
Ak
o
O
Ak
Ak
OOO
O Ak o A
o A
o A
Ak o Ak Ak
o Ak Ak
o Ak
o ■ A k
o o Ak
Q Ak
o o A
Ak
Ak
A
'A k o Ak o o o At AJ.
o A
A
o AJ.
Ak
A
o o .A S .
P Q
o o Ak Ak
—
Ak
O
c
Ö cp
Ak
C
A
o :: A '« m w n k o A A
CD Ak Ak
»A
A A
o A A
o A .Ak
AJ
o A.
A
O o A
.A
o Ak
o M m J .
A
A
O A
O A
o A
A A
Ak
O
A o A A o A o A A o A
«1