Forsal logo

Rosyjskie materiały propagandowe w bazie dla AI? Eksperci biją na alarm

Ten tekst przeczytasz w 5 minut
dzisiaj, 11:14
Rosyjskie materiały propagandowe w bazie dla AI? Eksperci biją na alarm
Rosyjskie materiały propagandowe w bazie dla AI? Eksperci biją na alarm/GazetaPrawna.pl
Na Wikimedii Commons publikowana jest duża ilość materiałów propagandowych, m.in. dotyczących aneksji Krymu, których źródłem są rosyjskie media. Zdaniem eksperta Marcina Żabińskiego to celowe działanie, bo Wikimedia Commons to jedno z najważniejszych źródeł trenowania modeli językowych AI i pozyskiwania przez nie informacji o świecie.

AI uczy się z internetu. Wikimedia Commons to baza dla AI

Wikimedia Commons to repozytorium multimediów udostępniających grafikę, dźwięki i filmy na wolnej licencji. Platforma wykorzystuje tę samą technologię co Wikipedia, co oznacza, że każdy może ją edytować. Repozytorium gromadzi ponad 140 mln plików multimedialnych.

Prezes Instytutu Technologii Społeczno-Politycznych „Kybernetes” oraz członek Rady Konsultacyjnej ds. Odporności na Dezinformację Międzynarodową przy Ministrze Spraw Zagranicznych Marcin Żabiński przyznał w rozmowie z PAP, że Rosja używa Wikimedii Commons do swojej propagandy.

Rosyjskie materiały w bazie dla AI

Gdy np. wyszukuje się w repozytorium w języku angielskim hasło „aneksja Krymu”, większość źródeł jest pochodzenia rosyjskiego. Wśród 51 wyników wyszukiwania ponad 40 z nich pochodzi z oficjalnej strony internetowej Prezydenta Federacji Rosyjskiej lub rosyjskiej „Niezależnej Telewizji Sewastopol”. Ukazujące się w wyszukiwarce nagrania przedstawiają m.in. wiece poparcia dla przyłączenia Krymu do Rosji czy oskarżonego o zdradę stanu Denysa Berezowskiego, który pełniąc funkcję Dowódcy Marynarki Wojennej, złożył przysięgę wierności prorosyjskim władzom Krymu.

Z kolei w sekcji zawierającej grafiki dotyczące aneksji Krymu znajdują się m.in. hasła Putina dot. polityki krymskiej oraz zdjęcia z podpisania traktatu akcesyjnego o przyjęciu Krymu do Federacji Rosyjskiej.

W opinii Żabińskiego rosyjskie materiały są w tak dużej ilości publikowane na Wikimedia Commons, ponieważ medium to stanowi jedno z najistotniejszych źródeł pozyskiwania wiedzy przez sztuczną inteligencję. - Wikipedia i Wikimedia Commons stanowią jedno z najważniejszych źródeł dla trenowania, jak i dopytywania przez AI o wiedzę o realnym świecie — wyjaśnił.

Potwierdza to sama Fundacja Wikimedii na swojej stronie. Według nich od 2024 r. przepustowość wykorzystywana do pobierania treści multimedialnych na Wikimedii Commons wzrosła o 50 proc. Za wzrostem nie stały jednak media czy czytelnicy, a „zautomatyzowane programy, które przeszukują katalog obrazów na otwartej licencji Wikimedia Commons i przesyłają obrazy do modeli AI”.

Opis zdjęć to duża przestrzeń do nadużyć

Ekspert zwrócił też uwagę, że modele językowe nauczyły się obsługiwać nie tylko tekst, ale i multimedia takie jak audio, wideo czy obraz. – Obsługa warstwy obrazów była jednym z najistotniejszych kroków w ewolucji modeli językowych i aktualnie większość z nich jest multimodalna, czyli rozumie, a w zasadzie dekoduje to, co znajduje się m.in. na obrazach i w oparciu o to wnioskuje oraz generuje następne treści — dodał.

Żabiński zwrócił również uwagę na metadane, jakie zbiera Wikimedia Commons podczas dodawania multimediów. To m.in. informacje na temat tego, kto jest autorem danego pliku lub kiedy on powstał. - Dużo ciekawszą metainformacją jest krótki opis tego, co jest na zdjęciu. I to już jest bardzo duża przestrzeń do nadużyć, bo może wpływać na to, jak odbiorca lub model językowy ma interpretować plik — zaznaczył.

Żabiński ostrzegł, że w obrazach mogą być instrukcje i interpretacje wykorzystujące steganografię, czyli technikę dodawania ukrytych informacji. Są one bowiem ukryte dla ludzkiego wzroku, ale widoczne dla modeli językowych. - To mogą być instrukcje konkretnie nakazujące zmienić sposób analizy działania lub mające wywołać konkretne działanie po stronie modelu językowego — dodał.

PAP zwróciła się do amerykańskiej Fundacji Wikimedia z prośbą o stanowisko w tej sprawie, jednak do momentu publikacji nie otrzymała odpowiedzi.

Wikimedia Commons nie dostrzega problemu

Kwestię zarzucania Wikimedii Commons rosyjskimi materiałami skomentowało dla PAP Stowarzyszenie Wikimedia Polska. - Na podstawie przesłanych przykładów oraz konsultacji z aktywnymi wolontariuszami Wikimedia Commons nie widzimy podstaw, by mówić o udokumentowanej, skoordynowanej ingerencji rosyjskiej w Wikimedia Commons. Wzmożona obecność materiałów pochodzących z rosyjskich źródeł w przypadku haseł takich jak „annexation of Crimea” wynika przede wszystkim z dostępności licencyjnej tych materiałów — czytamy.

Chodzi o to, że część materiałów oficjalnej strony prezydenta Federacji Rosyjskiej jest publikowana na licencji Creative Commons Attribution 4.0 International, co oznacza, że mogą one być przesyłane do Wikimedia Commons, o ile spełniają także kryterium przydatności edukacyjnej. Stowarzyszenie zaznaczyło, że wiele innych fotografii nie jest udostępnianych na tak otwartych zasadach.

Zacytowany przez stowarzyszenie wolontariusz Commons działający pod nickiem [Cybularny] zwrócił uwagę, że „na Commons ładujemy te materiały zewnętrzne, które są udostępniane na akceptowalnej wolnej licencji, a skoro witryna prezydenta Federacji Rosyjskiej udostępnia wolne materiały, to my z nich korzystamy”. W odpowiedzi stowarzyszenia zaznaczono również, że Wikimedia Commons przechowuje pliki, które mogą być legalnie ponownie wykorzystywane i mają wartość edukacyjną, a to nie oznacza poparcia dla narracji instytucji, z której materiał pochodzi.

Rosyjska aktywność propagandowa będzie się nasilać

W opinii Żabińskiego, jeśli w wyszukiwaniach na Wikimedii Commons zanika np. aspekt strat moralnych, materialnych i cierpienia strony ukraińskiej, a silniej ukazywany jest wymiar geopolityczny, to relatywizuje się problem ofiar. Ekspert zauważył zarazem, że problem rosyjskiej aktywności na tym polu nie jest jeszcze szeroko uświadomiony ani w środowisku badaczy, ani wśród opinii publicznej, co sprawia, że nie są podejmowane wystarczające działania przeciwdziałające temu zjawisku. - Tymczasem skala aktywności rosyjskich podmiotów w repozytorium Wikimedii będzie się tylko nasilać, osiągając przytłaczające rozmiary — podkreślił ekspert.

Copyright
Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A. Kup licencję
Źródło: PAP
oprac. Tomasz Lipczyński

W mediach pracuje od ćwierćwiecza. Absolwent Politechniki Warszawskiej. Pierwsze kroki w zawodzie stawiał w Agencji Informacyjnej Boss. Później były dzienniki ekonomiczne, Nowa Europa, Prawo i Gospodarka i Puls Biznesu. Z Inforem związany od 2008 r. Redaktor i wydawca strony głównej redakcji Grupy Infor (Forsal.pl, Dziennik.pl, GazetaPrawna.pl, Infor.pl, ZdrowieGO.pl). Zajmuje się tematyką motoryzacji, transportu, budownictwa, surowców, makroekonomii, a także technologii, demografii, pracy oraz polityki i bezpieczeństwa.

Zobacz wszystkie artykuły tego autoraDroga ekspresowa przez Mazury. Wiadomo co dalej z nowym odcinkiem S16 »
Zapisz się na newsletter
Zapraszamy na newsletter Forsal.pl zawierający najważniejsze i najciekawsze informacje ze świata gospodarki, finansów i bezpieczeństwa.

Zapisując się na newsletter wyrażasz zgodę na otrzymywanie treści reklam również podmiotów trzecich

Administratorem danych osobowych jest INFOR PL S.A. Dane są przetwarzane w celu wysyłki newslettera. Po więcej informacji kliknij tutaj