W upowszechnionym także w Polsce żargonie informatyczno-futurystycznym mieliśmy już fore-casting (zautomatyzowane prognozowanie bazujące na aktualnych trendach rozwojowych), backcasting (analiza działań potrzebnych do zrealizowania się określonej przez nas, pożądanej przyszłości), a doczekaliśmy się teraz nowcastingu, czyli wykorzystania dużych zbiorów danych do oceny aktualnego stanu różnych zjawisk społecznych. Ten ostatni termin oznacza w istocie próbę uzupełnienia metodyki badania opinii publicznej w zakresie niektórych zjawisk trudnych do zmierzenia na drodze tradycyjnych sondaży.
Rozpatrzmy dla przykładu ważny nie tylko dla polityków pomiar średniego w społeczeństwie stanu aktualnego zestresowania obywateli spowodowanego ich życiową sytuacją. Oczywiście można dobrać odpowiednio reprezentatywną grupę osób i zadać im pytanie o skądinąd niełatwy do zdefiniowania poziom codziennego stresu. To jednak kłopotliwa i często mało wiarygodna metoda, także dlatego że ankietowani bazują głównie na swych minionych doświadczeniach, a nie na aktualnej fotografii swego stanu ducha. Do realizacji takich trudnych projektów podejmuje się od niedawna próby wykorzystania wielkich zbiorów danych dostarczanych przez portale społecznościowe.
Ogrom informacji możliwych do automatycznego przetworzenia jest oczywiście bardzo naturalnym źródłem pozyskiwania zintegrowanej wiedzy o społeczeństwie – pod warunkiem zaprojektowania i użycia skutecznych narzędzi do wydobywania tej wiedzy.
Dowodem na sensowność takich analiz okazał się projekt oceny nastrojów społecznych zrealizowany w Wielkiej Brytanii w okresie od lipca 2009 do stycznia 2012 r. Daty są istotne, okres ten przyniósł bowiem mieszkańcom Wielkiej Brytanii liczne kłopoty ekonomiczne i obfitował w wydarzenia społeczne o dużym ładunku emocjonalnym. Realizatorzy projektu obserwowali w tym okresie 9 milionów użytkowników Twittera, analizując co 3–5 minut wszystkie ich komunikaty. W sumie analizie poddano prawie pół miliarda wiadomości, przeszukiwanych pod kątem obecności w nich odpowiednio dobranych wyrażeń określających cztery stany emocjonalne – obawę (92 słowa), radość (224 słowa), złość (146 słów) i smutek (115 słów).
Reklama
Wyniki analizy okazały się bardzo ciekawe. Łatwa do przewidzenia była dominacja radości w okresie Bożego Narodzenia ze względu na powszechnie składane sobie życzenia zawierające w sobie słowa typu „happy” czy dominacja strachu w okresie święta Halloween (używanie wielu słów nawiązujących do oryginalnych korzeni tego święta), nietrudne jednak okazało się wyeliminowanie tych słów z wyszukiwarki i doprowadzenie sytuacji w tych okresach do normalności.
Bardziej pouczające było obserwowanie momentów pojawiania się nastrojów pesymistycznych. Zaobserwowano je na przykład w następstwie ogłoszenia przez ówczesnego premiera Gordona Browna wielkich cięć w wydatkach publicznych oraz w dniach poważnych ulicznych zamieszek w Londynie (dominacja stanu obawy) czy śmierci piosenkarki Amy Winehouse (smutek). Co ciekawe, wartości bezwzględne miar opisujących te stany były znacznie większe niż stan radości odnotowany w dniach ślubu w rodzinie królewskiej.
Niezwykły był sposób wizualizacji otrzymywanych wyników – realizatorzy stworzyli cyfrowy wizerunek ludzkiej twarzy reagującej na napływające zintegrowane dane. Można było w ten sposób oglądać na bieżąco twarz narodu wyrażającą wspólne emocje – naprawdę fascynujące doświadczenie!
Innym doświadczeniem tego projektu była analiza ognisk epidemii grypy – twitterowe uskarżanie się na typowe dla tej choroby symptomy pozwalały na bardzo dokładne ustalanie zmieniających się obszarów zachorowań, precyzyjnie potwierdzone później danymi ze statystyk instytucji ochrony zdrowia publicznego.
Trzeba pamiętać jednak o ograniczeniach takich metod. W przypadku analizy zachorowań wyniki nie mają na przykład waloru przewidywania rozwoju sytuacji, są bowiem tylko, skądinąd też przydatną, informacją dotyczącą stanu aktualnego. Innym poważnym problemem jest częsta niereprezentatywność środowisk aktywnych w portalach dla całej badanej populacji. W szczególności użytkownicy Twittera w badanych sprawach są z reguły młodsi (i przez to często bardziej liberalni) niż cała badana populacja. Choć i od tego bywają wyjątki – niedawne przemówienie prezydenta Obamy o stanie państwa odebrane było znacznie bardziej krytycznie wśród użytkowników Twittera niż w tradycyjnym sondażu bardziej zdawałoby się konserwatywnego całego społeczeństwa amerykańskiego.
Na podstawie powyższych i wielu już innych doświadczeń można stwierdzić bez obawy popełnienia błędu, że zastosowania analizy danych pozyskiwanych z portali społecznościowych prowadzą do ciekawych konkluzji o dużym potencjale zastosowań. Wielkim wyzwaniem będzie uwzględnienie w analizach zdjęć i materiałów wideo – prowadzone są w tym zakresie liczne prace. Przed nadmiernym optymizmem przestrzega jednak cała gama nietrudnych do wyobrażenia sobie możliwości wykorzystywania takich analiz w celach naruszających obywatelską prywatność czy wręcz szeroko rozumiane dobro publiczne. Te zagrożenia są wielkim wyzwaniem dla organów stanowiących prawo, instytucji regulujących rynki teleinformatyczne i w istocie dla każdego z nas, świadomie bądź nieświadomie biorącego udział w trwającym wielkim sieciowym eksperymencie.
>>> Korporacje przyniosły do Polski kolejną modę z Zachodu. Firmy przy rekrutowaniu pracownika korzystają z gier. Grywalizacja to łowienie talentów za pośrednictwem sieci i portali społecznościowych. Czytaj więcej.