AI uczy się z internetu. Wikimedia Commons to baza dla AI
Wikimedia Commons to repozytorium multimediów udostępniających grafikę, dźwięki i filmy na wolnej licencji. Platforma wykorzystuje tę samą technologię co Wikipedia, co oznacza, że każdy może ją edytować. Repozytorium gromadzi ponad 140 mln plików multimedialnych.
Prezes Instytutu Technologii Społeczno-Politycznych „Kybernetes” oraz członek Rady Konsultacyjnej ds. Odporności na Dezinformację Międzynarodową przy Ministrze Spraw Zagranicznych Marcin Żabiński przyznał w rozmowie z PAP, że Rosja używa Wikimedii Commons do swojej propagandy.
Rosyjskie materiały w bazie dla AI
Gdy np. wyszukuje się w repozytorium w języku angielskim hasło „aneksja Krymu”, większość źródeł jest pochodzenia rosyjskiego. Wśród 51 wyników wyszukiwania ponad 40 z nich pochodzi z oficjalnej strony internetowej Prezydenta Federacji Rosyjskiej lub rosyjskiej „Niezależnej Telewizji Sewastopol”. Ukazujące się w wyszukiwarce nagrania przedstawiają m.in. wiece poparcia dla przyłączenia Krymu do Rosji czy oskarżonego o zdradę stanu Denysa Berezowskiego, który pełniąc funkcję Dowódcy Marynarki Wojennej, złożył przysięgę wierności prorosyjskim władzom Krymu.
Z kolei w sekcji zawierającej grafiki dotyczące aneksji Krymu znajdują się m.in. hasła Putina dot. polityki krymskiej oraz zdjęcia z podpisania traktatu akcesyjnego o przyjęciu Krymu do Federacji Rosyjskiej.
W opinii Żabińskiego rosyjskie materiały są w tak dużej ilości publikowane na Wikimedia Commons, ponieważ medium to stanowi jedno z najistotniejszych źródeł pozyskiwania wiedzy przez sztuczną inteligencję. - Wikipedia i Wikimedia Commons stanowią jedno z najważniejszych źródeł dla trenowania, jak i dopytywania przez AI o wiedzę o realnym świecie — wyjaśnił.
Potwierdza to sama Fundacja Wikimedii na swojej stronie. Według nich od 2024 r. przepustowość wykorzystywana do pobierania treści multimedialnych na Wikimedii Commons wzrosła o 50 proc. Za wzrostem nie stały jednak media czy czytelnicy, a „zautomatyzowane programy, które przeszukują katalog obrazów na otwartej licencji Wikimedia Commons i przesyłają obrazy do modeli AI”.
Opis zdjęć to duża przestrzeń do nadużyć
Ekspert zwrócił też uwagę, że modele językowe nauczyły się obsługiwać nie tylko tekst, ale i multimedia takie jak audio, wideo czy obraz. – Obsługa warstwy obrazów była jednym z najistotniejszych kroków w ewolucji modeli językowych i aktualnie większość z nich jest multimodalna, czyli rozumie, a w zasadzie dekoduje to, co znajduje się m.in. na obrazach i w oparciu o to wnioskuje oraz generuje następne treści — dodał.
Żabiński zwrócił również uwagę na metadane, jakie zbiera Wikimedia Commons podczas dodawania multimediów. To m.in. informacje na temat tego, kto jest autorem danego pliku lub kiedy on powstał. - Dużo ciekawszą metainformacją jest krótki opis tego, co jest na zdjęciu. I to już jest bardzo duża przestrzeń do nadużyć, bo może wpływać na to, jak odbiorca lub model językowy ma interpretować plik — zaznaczył.
Żabiński ostrzegł, że w obrazach mogą być instrukcje i interpretacje wykorzystujące steganografię, czyli technikę dodawania ukrytych informacji. Są one bowiem ukryte dla ludzkiego wzroku, ale widoczne dla modeli językowych. - To mogą być instrukcje konkretnie nakazujące zmienić sposób analizy działania lub mające wywołać konkretne działanie po stronie modelu językowego — dodał.
PAP zwróciła się do amerykańskiej Fundacji Wikimedia z prośbą o stanowisko w tej sprawie, jednak do momentu publikacji nie otrzymała odpowiedzi.
Wikimedia Commons nie dostrzega problemu
Kwestię zarzucania Wikimedii Commons rosyjskimi materiałami skomentowało dla PAP Stowarzyszenie Wikimedia Polska. - Na podstawie przesłanych przykładów oraz konsultacji z aktywnymi wolontariuszami Wikimedia Commons nie widzimy podstaw, by mówić o udokumentowanej, skoordynowanej ingerencji rosyjskiej w Wikimedia Commons. Wzmożona obecność materiałów pochodzących z rosyjskich źródeł w przypadku haseł takich jak „annexation of Crimea” wynika przede wszystkim z dostępności licencyjnej tych materiałów — czytamy.
Chodzi o to, że część materiałów oficjalnej strony prezydenta Federacji Rosyjskiej jest publikowana na licencji Creative Commons Attribution 4.0 International, co oznacza, że mogą one być przesyłane do Wikimedia Commons, o ile spełniają także kryterium przydatności edukacyjnej. Stowarzyszenie zaznaczyło, że wiele innych fotografii nie jest udostępnianych na tak otwartych zasadach.
Zacytowany przez stowarzyszenie wolontariusz Commons działający pod nickiem [Cybularny] zwrócił uwagę, że „na Commons ładujemy te materiały zewnętrzne, które są udostępniane na akceptowalnej wolnej licencji, a skoro witryna prezydenta Federacji Rosyjskiej udostępnia wolne materiały, to my z nich korzystamy”. W odpowiedzi stowarzyszenia zaznaczono również, że Wikimedia Commons przechowuje pliki, które mogą być legalnie ponownie wykorzystywane i mają wartość edukacyjną, a to nie oznacza poparcia dla narracji instytucji, z której materiał pochodzi.
Rosyjska aktywność propagandowa będzie się nasilać
W opinii Żabińskiego, jeśli w wyszukiwaniach na Wikimedii Commons zanika np. aspekt strat moralnych, materialnych i cierpienia strony ukraińskiej, a silniej ukazywany jest wymiar geopolityczny, to relatywizuje się problem ofiar. Ekspert zauważył zarazem, że problem rosyjskiej aktywności na tym polu nie jest jeszcze szeroko uświadomiony ani w środowisku badaczy, ani wśród opinii publicznej, co sprawia, że nie są podejmowane wystarczające działania przeciwdziałające temu zjawisku. - Tymczasem skala aktywności rosyjskich podmiotów w repozytorium Wikimedii będzie się tylko nasilać, osiągając przytłaczające rozmiary — podkreślił ekspert.
W mediach pracuje od ćwierćwiecza. Absolwent Politechniki Warszawskiej. Pierwsze kroki w zawodzie stawiał w Agencji Informacyjnej Boss. Później były dzienniki ekonomiczne, Nowa Europa, Prawo i Gospodarka i Puls Biznesu. Z Inforem związany od 2008 r. Redaktor i wydawca strony głównej redakcji Grupy Infor (Forsal.pl, Dziennik.pl, GazetaPrawna.pl, Infor.pl, ZdrowieGO.pl). Zajmuje się tematyką motoryzacji, transportu, budownictwa, surowców, makroekonomii, a także technologii, demografii, pracy oraz polityki i bezpieczeństwa.
