„Prawdziwą grozą napawała Policja Myśli (…). Nikt oczywiście nie wiedział, czy w danym momencie jest obserwowany. Snuto jedynie domysły, jak często i według jakich zasad Policja Myśli prowadzi inwigilację. Nie sposób też było wykluczyć, że przez cały czas nadzoruje wszystkich. Tak czy inaczej, mogła się włączyć w dowolny kanał, kiedy tylko chciała. Pozostawało więc żyć z założeniem – i żyło się, z nawyku, który przeszedł w odruch – iż każde słowo jest podsłuchiwane, a każdy ruch pilnie śledzony” – to, co 65 lat temu George Orwell opisał w swojej antyutopii „Rok 1984”, dziś stało się faktem. Z drobnym zastrzeżeniem – w odróżnieniu od mieszkańców orwellowskiej Oceanii my wciąż nie mamy nawyku życia w nieustannej inwigilacji. A powinniśmy.

Skrócić proces decyzyjny

Dziś policjantami myśli stały się komputery. Nieustannie zbierają, archiwizują i analizują każdą naszą aktywność w internecie (dosłownie każde kliknięcie lub wpisanie znaku z klawiatury), każdą transakcję finansową, każdą podpisaną przez nas umowę czy nawet naszą strategię w grach ściąganych np. na telefony. A od kiedy na rynku pojawiły się smartfony z funkcją geolokalizacji – każdy nasz ruch.

Z raportu Harvard Business Review Polska „Big Data: Przełom w zarządzaniu firmą” wynika, że w 2012 r. na świecie powstawało codziennie 2,5 eksabajta danych, a liczba ta podwaja się co 40 miesięcy. W internecie w każdej sekundzie przepływa dziś więcej danych, niż 20 lat temu zmagazynowano we wszystkich zasobach WWW. Na przykład amerykańska sieć sklepów Walmart – jak podlicza raport – gromadzi każdej godziny ponad 2,5 petabajta danych o transakcjach konsumentów. Petabajt to trylion bajtów, czyli ok. 20 mln szafek wypełnionych dokumentami. Eksabajt to jednostka tysiąc razy większa.

Było tylko kwestią czasu, kiedy ktoś wpadnie na pomysł, jak wykorzystać to, co sami, dobrowolnie, nieustannie i bezrefleksyjnie ujawniamy o sobie. Tak powstała koncepcja Big Data, czyli inteligentne wnioskowanie na podstawie dużej ilości różnorodnych i zmiennych danych. I choć to narzędzie wciąż stosunkowo nowe na rynku, badania efektywności jego komercyjnego wykorzystywania są obiecujące. Harvard Business Review Polska przytacza badanie Andrew McAffee’ego i Erika Brynjolfssona z Massachusetts Institute of Technology, z którego wynika, że firmy po wprowadzeniu do swojej działalności operacyjnej analizy wielkich zbiorów danych zwiększyły wskaźniki wydajności i rentowności o 5–6 proc. Z kolei raport McKinsey Global Institute i McKinsey’s Business Technology Office w czerwcu 2011 r. prognozował, że przedsiębiorcy, stosując rozwiązania Big Data, mogą zwiększyć marże nawet o ponad 60 proc. W rozwiniętych gospodarkach Europy rządowe instytucje mogą w ten sposób zaoszczędzić w sumie ok. 150 mld euro, poprawiając dzięki analizie dużych zbiorów danych skuteczność np. ściągania podatków czy ograniczając nadużycia w administracji.

>>> Polecamy: Inwigilacja w sieci pokazuje, że Orwell był optymistą

– Uruchomienie Big Data można porównać do powstania silników parowych. Kiedyś wszyscy wiedzieli, że istnieje para wodna, ale rozpływała się ona w powietrzu, nie dostarczała, oprócz ogrzania, większej wartości. Wreszcie ktoś wymyślił silnik parowy, wykorzystujący jej energię: powstały maszyny, pociągi, statki, nastąpił gwałtowny rozwój techniki. Dziś dane są jak para, a my jesteśmy świadkami tworzenia pierwszych bigdatowych silników. To kolejna technologiczna rewolucja – nie ma wątpliwości dr Andrzej Wodecki z Uniwersytetu Marii Curie-Skłodowskiej w Lublinie.

Dane w dzisiejszym świecie generowane są na trzech poziomach: gdy człowiek porozumiewa się z człowiekiem, człowiek kontaktuje się z maszyną i wreszcie maszyna z maszyną. I właśnie ten ostatni poziom – machine to machine – rozkwita, a sensory, które się ze sobą potrafią komunikować, zaczynają się pojawiać w każdej dziedzinie życia, ba, trafiają nawet do naszych organizmów. Na przykład w Stanach Zjednoczonych, gdzie na mobilne zdrowie wydaje się już rocznie ponad pół miliarda dolarów, firma Proteus Digital Health oferuje pacjentom tabletki z czipem, które zasilane są kwasami żołądkowymi. Połknięte, na bieżąco monitorują stan organizmu i przekazują do centrali informacje o tym, czy pacjent wziął odpowiednie leki. Firma przygotowuje się teraz do wprowadzenia leków z czipami, które z kolei będą informować o wchłanianiu substancji leczniczych.

– Monitorowanie naszego zachowania, preferencji czy gustów odbywa się już od dawna. Na przykład portal Flickr, gdzie ludzie z całego świata udostępniają swoje zdjęcia, na startowej stronie wyświetla te najpiękniejsze. Skąd wiadomo, które się podobają najbardziej? Z analizy oglądających – program zlicza kliknięcia, dodania do ulubionych, rekomendacje i komentarze, i fotki o najwyższych indeksach są ustawiane na pierwszej stronie. Dane z nieświadomego zachowania internautów przyczyniają się do podniesienia jakości serwisu. Podobnie działają porównywarki cen, które podpowiadają nie tylko, gdzie jest najtańsza oferta, lecz także które sklepy cieszyły się największą popularnością. Dzięki temu klient ma skrócony proces decyzyjny, co jest przydatne w świecie przeładowanym informacjami – opowiada dr Andrzej Wodecki.

Nie ma ucieczki

Z punktu widzenia biznesu koncepcja Big Data właściwie skazana jest na sukces. Podstawą strategii marketingu jest bowiem segmentacja rynku, czyli podział konsumentów na różne grupy, do których można trafić z konkretną, specjalnie dla nich sprofilowaną ofertą. – Najbardziej skuteczna, zapewniająca największy zysk jest strategia oddzielna dla każdego konsumenta. W tradycyjnym marketingu to jest nierealne, bo wiążą się z tym zbyt duże koszty. W internecie, przy wykorzystaniu segmentacji psychograficznej, wyprowadzaniu dla każdego z osobna specyficznych cech osobowościowych na podstawie tego, co ogląda, czy jak się w sieci zachowuje, jest to możliwe i przede wszystkim tanie – zauważa prof. Andrzej Falkowski, psycholog biznesu w Szkole Wyższej Psychologii Społecznej w Warszawie.

Podkreśla, że przed Big Data nie ma odwrotu. Nie można liczyć ani na prawo, które nie nadąża nad dynamicznymi zmianami technologii, ani na świadomość samych internautów, dla których – jak się wydaje – ochrona prywatności nie jest życiowym priorytetem. – To paradoks, że będąc krajem demokratycznym, gdzie wolność obywateli jest zapisana w konstytucji, zaczęła być ona drastycznie ograniczana. Następuje brutalna i skuteczna inwigilacja człowieka, znacznie głębsza niż w systemach totalitarnych. Świat Orwella to nic w porównaniu z dzisiejszą rzeczywistością – nie pozostawia jednak złudzeń prof. Falkowski.

– Sam się nierzadko dziwię, co internauci potrafią umieszczać w sieci. To młodzi ludzie, którzy nie pamiętają czasów komunistycznych, nie znają książki „Rok 1984”, a przecież niektórzy z nich niebawem staną się politykami, ważnymi urzędnikami, a to, co dziś wrzucą w sieć, kiedyś może być wykorzystane przeciwko nim. To są realne zagrożenia, jednak tej technologii nie da się zakopać. Potrzeba edukacji, świadomości tego, co robimy w internecie i jakie mogą być tego konsekwencje – zauważa Artur Kurasiński, bloger i współtwórca narzędzia do agregowania danych - Fokus smarter analytics.

Dodaje, że choć zbieranie danych o konsumentach firmy praktykują już od wielu lat, to wraz z pojawieniem się nowoczesnych technologii telekomunikacyjnych – serwisów społecznościowych czy smartfonów – praktyka ta wskoczyła na poziom globalny. Dziś można udokumentować życie każdego z nas bez naszego udziału ani nawet zgody. Zresztą większość z nas akceptuje utratę prywatności, bo ważniejsze jest dla nas swobodne korzystanie z dobrodziejstw internetu.

– Społeczne przyzwolenie na powszechne przetwarzanie danych nastąpiło po zamachu na World Trade Center w Nowym Jorku. Specjaliści są zgodni, że analizy te uchroniły nas przed kolejnymi tak spektakularnymi atakami. Świat się zmienił, poziom prywatności sprzed 10 lat już nie istnieje. W Londynie jest milion kamer, przeciętny londyńczyk jest fotografowany kilkaset razy dziennie. Internet pokazuje, czym się interesujesz, smartfon mówi, gdzie jesteś, karta płatnicza, co kupujesz, a programy lojalnościowe, co lubisz – wylicza Andrzej Garapich, prezes spółki Polskie Badania Internetu.

Kilka lat temu badania Jupiter Research wykazały, że tylko 40 proc. internautów kasuje z komputera pliki cookies, które pozwalają internetowym robotom śledzić naszą obecność w sieci. Po ostatniej zmianie prawa, które nakazuje informować internautę o tym, że dana strona instaluje takie pliki, odsetek ostrożnych z pewnością się zwiększył. Jednak nawet ci, którzy przy każdym odpaleniu komputera w ustawieniach przeglądarki kasują ciasteczka, żyją w złudnym poczuciu anonimowości. Pojawiły się bowiem nowe ich rodzaje, np. cookies fleszowe, których nie da się w ten sposób pozbyć. Albo takie, które automatycznie duplikują się, pozostawiając kopię usuwanego właśnie pliku. Specjaliści z Electronic Frontier Foundation ujawnili z kolei, że niezależnie od cookies prawie każda przeglądarka może zostać w sieci zidentyfikowana. Z danych EFF wynika, że ponad 80 proc. przeglądarek ma unikatowy identyfikator – fingerprint. Jej wersja i ustawienia, m.in. rozdzielczość, zainstalowane dodatki i wtyczki czy rodzaj czcionki, sprawiają, że przeglądarka nabiera unikalnych cech i programy szpiegujące mogą ją w jednoznaczny sposób za każdym razem rozpoznać. Bez znaczenia są przy tej metodzie zmienne numery IP, co niektórym wciąż wydaje się być wystarczającym zapewnieniem anonimowości.

Innymi słowy, im bardziej ingerujemy w ustawienia przeglądarki, by uchronić się przed ciasteczkami, tym łatwiej ją zidentyfikować. Z kolei używanie jej „fabrycznej” wersji oznacza pełną zgodę na cookies. Tak czy siak, przed Wielkim Bratem ucieczki nie ma.

Ocean danych

Pozostaje pytanie, w jaki sposób i jakie dane są o nas zbierane i co na ich podstawie można wywnioskować. Z technologicznego punktu widzenia – jak przekonuje Miłosz Zemanek, informatyk z branży Big Data – sama analiza danych jest banalnie prosta. W uproszczeniu wygląda to tak: firma X odpala specjalne oprogramowanie – roboty analizujące dane, które rozmnożone w milionach kopii przeszukują dyski w centrach danych, szukając i zbierając informację według określonych algorytmów. Jeśli program natknie się na poszukiwany fragment danych (wzorzec), ocenia jego przydatność, wstępnie analizuje i wysyła wynik na wyższy poziom – do węzłów. Tu pracują inne roboty, które według kolejnych algorytmów zbierają pozyskane wcześniej pojedyncze informacje, grupują je według zadanych zasad i przekazują do centrali.

– Podstawowe kody algorytmów umożliwiające skanowanie stron w poszukiwaniu konkretnych informacji są już napisane w 99 proc. Na tym etapie najczęściej programista tylko modyfikuje gotowe szablony, by sprecyzować, czego robot ma szukać. Prawdziwa zabawa zaczyna się z chwilą budowania algorytmu, który ma tak przetworzyć i powiązać zebrane dane, by otrzymać sensowne wnioski – wyjaśnia Miłosz Zemanek.

Chodzi o to, by z oceanu danych wyłowić te, które pozwolą na stworzenie profilu zachowań w określonym obszarze poszukiwań – wzorca powstałego na podstawie milionów prawdziwych osobowości. Gdy już mamy taki wzorzec, programy analityczne wynajdują kolejnych Kowalskich, którzy zachowują się zgodnie z algorytmem, czyli pasują do wzorca. I wtedy wyświetlają im odpowiednio sprofilowane reklamy.

– I to jest w tym fachu najtrudniejsze. Na rynku nie ma takiego zawodu, tu liczy się talent. Dlatego przy większych projektach marketingowych tworzy się całe grupy zadaniowe złożone z programistów, analityków, socjologów, psychologów i osób z doświadczeniem w danej branży czy stanowisku, którzy mają to coś, potrafią wczuć się w ludzką psychikę i przewidzieć zachowania. Takich specjalistów jest niewielu, w Polsce jesteśmy na razie na początku drogi Big Data – zaznacza Zemanek.

W 2006 r. największa wypożyczalnia filmów DVD na świecie – amerykański Netflix, który notabene ma niebawem wejść do Polski – ogłosiła konkurs wart milion dolarów na napisanie algorytmu, który poprawi o 10 proc. skuteczność rekomendacji filmów dla klienta. Z badań analityków Netflixa wynikało bowiem, że kto wypożyczy w tydzień za darmo pięć filmów, na 80 proc. wykupi abonament na kolejne. Dlatego tak ważny jest system jak najtrafniejszych podpowiedzi, co warto jeszcze obejrzeć. Konkurs wygrała w 2009 r. firma BellKor’s Pragmatic Chaos, zwiększając skuteczność podpowiedzi o 10,09 proc. Netflix chciał rozpisać drugą edycję konkursu, jednak zrezygnował, bo firmę oskarżono o naruszenie prywatności. Algorytmy podpowiedzi zostały tak precyzyjnie opracowane, że pozwalały identyfikować klientów na podstawie oglądanych przez nich filmów.

>>> Polecamy: Poznaj historię Netflixa, jednego z najlepszych startupów wszechczasów