Wyobraźmy sobie taką sytuację. Osoba niesłysząca przychodzi do urzędu załatwić kilka spraw. Siada przy specjalnym stanowisku, gdzie patrzy na nią oko kamery – i zaczyna do niej migać. Po drugiej stronie siedzi urzędnik, któremu komputer tłumaczy wykonywane rękoma znaki. Proces zachodzi też w drugą stronę; bez konieczności szkolenia personelu, bez umawiania tłumacza, po prostu sprawnie.
Taki scenariusz marzy się naukowcom z Politechniki Rzeszowskiej, konstruktorom Systemu Komunikacji Migowej (SyKoMi) – urządzenia zaprojektowanego z myślą o takich sytuacjach, gdzie bariera językowa uniemożliwia załatwienie najprostszych spraw i wiąże się często z poczuciem zniechęcenia i wykluczenia u osób komunikujących się językiem migowym. – Od ponad 20 lat zajmujemy się rozpoznawaniem gestów wykonywanych rękami. Chcieliśmy wreszcie wykorzystać to doświadczenie do budowy czegoś praktycznego – mówi prof. Marian Wysocki z podkarpackiej uczelni.
System składa się z kilku elementów: kamery rejestrującej ruchy wykonywane przez migającą osobę, dwóch monitorów i oprogramowania. Jego sercem są algorytmy uczenia maszynowego, należące do klasy rozwiązań z zakresu sztucznej inteligencji. Jak to działa? – Najprostsza metoda polega na tym, że na komputerze zapisane są wzorce – w tym wypadku „idealne” wypowiedzi w języku migowym. Kiedy komputer otrzyma nagranie wideo od użytkownika naszego systemu, porównuje je z każdym z tych wzorców i wylicza dla nich wartość, którą możemy nazwać „odległością”. Komputer zidentyfikuje wypowiedź użytkownika jako zapisaną w „najbliższym” wzorcu – tłumaczy dr inż. Tomasz Kapuściński z Politechniki Rzeszowskiej.
Tyle teorii; w praktyce jest to znacznie bardziej skomplikowane. Tak jak różne są charaktery pisma – w efekcie czego litery, chociaż nawiązują do jednego wzorca, wyglądają bardzo różnie, i jak różne są sposoby mówienia – mniej lub bardziej wyraźne – tak samo w różny sposób można migać. – Maszyna musi chociażby wiedzieć, kiedy zaczyna się wypowiedź w języku migowym, aby nie podjąć się interpretacji zwykłych ruchów ręką. Dlatego żeby nasz system zadziałał, osoba niesłysząca musi zacząć od trzymania rąk na kolanach – mówi dr inż. Joanna Marnik z politechniki.
Reklama
Dlatego na razie za pomocą urządzenia, którego prototyp już znajduje się w rzeszowskim urzędzie miejskim, można załatwić tylko kwestie związane z wydaniem dowodu osobistego, przy czym osoba niesłysząca musi wiedzieć, co ma zamigać. System nie rozpozna bowiem niezaprogramowanych w nim wypowiedzi. – Nie wynika to jednak z wad technologii, ale raczej z tego, że maszyna do uczenia się potrzebuje ogromnych ilości danych. W tym wypadku oznacza to setki godzin nagrań z użytkownikami języka migowego, jeśli oczywiście chcielibyśmy myśleć o czymś bardziej uniwersalnym – tłumaczy dr inż. Mariusz Oszust z rzeszowskiej uczelni. Skoncentrowanie się na jednym typie urzędowej usługi pozwoliło podkarpackim informatykom dopracować urządzenie.
Nie znaczy to jednak, że nie zastanawiają się nad tym, co dalej. Przede wszystkim chcą popracować nad samym silnikiem, czyli oprogramowaniem, dzięki któremu komputer uczy się języka. – Takich metod są dziesiątki i chcemy sprawdzić, czy któraś nie nadaje się do naszych celów lepiej niż inne. Urządzenie miałoby wtedy np. większą tolerancję dla błędów – mówi dr inż. Dawid Warchoł z Politechniki Rzeszowskiej.
Najdoskonalszy silnik do uczenia maszynowego wciąż będzie potrzebował jednak olbrzymiej ilości danych wejściowych. Z tego względu np. firma Waymo, należąca do Google’a, od dwóch lat prowadzi swój testowy program pojazdów autonomicznych w niewielkim fragmencie miasta Phoenix w stanie Arizona. Cel jest prosty: im więcej kilometrów samochody pokonają, tym większa będzie baza danych, z której będzie się uczyło sterujące nimi oprogramowanie. Pozostaje mieć nadzieję, że znajdą się fundusze, aby tysiące takich nagrań można było stworzyć również do uczenia SyKoMi.

Rozpoczynamy szóstą edycję konkursu „Eureka! DGP – odkrywamy polskie wynalazki”, do którego zaprosiliśmy polskie uczelnie, instytuty badawcze i jednostki naukowe PAN. Od dziś do 17 maja w Magazynie DGP będziemy opisywać wynalazki nominowane przez naszą redakcję do nagrody głównej, wybrane spośród 54 prac nadesłanych przez uczelnie i instytuty.

Rozstrzygnięcie konkursu nastąpi 22 maja podczas kongresu Impact w Krakowie. Nagrodą jest 30 tys. zł dla zespołu, który pracował nad zwycięskim wynalazkiem, ufundowane przez Mecenasa Polskiej Nauki – firmę Polpharma, oraz kampania promocyjna dla uczelni lub instytutu o wartości 50 tys. zł w mediach INFOR Biznes (wydawcy Dziennika Gazety Prawnej), ufundowana przez organizatora.