Taki scenariusz marzy się naukowcom z Politechniki Rzeszowskiej, konstruktorom Systemu Komunikacji Migowej (SyKoMi) – urządzenia zaprojektowanego z myślą o takich sytuacjach, gdzie bariera językowa uniemożliwia załatwienie najprostszych spraw i wiąże się często z poczuciem zniechęcenia i wykluczenia u osób komunikujących się językiem migowym. – Od ponad 20 lat zajmujemy się rozpoznawaniem gestów wykonywanych rękami. Chcieliśmy wreszcie wykorzystać to doświadczenie do budowy czegoś praktycznego – mówi prof. Marian Wysocki z podkarpackiej uczelni.

System składa się z kilku elementów: kamery rejestrującej ruchy wykonywane przez migającą osobę, dwóch monitorów i oprogramowania. Jego sercem są algorytmy uczenia maszynowego, należące do klasy rozwiązań z zakresu sztucznej inteligencji. Jak to działa? – Najprostsza metoda polega na tym, że na komputerze zapisane są wzorce – w tym wypadku „idealne” wypowiedzi w języku migowym. Kiedy komputer otrzyma nagranie wideo od użytkownika naszego systemu, porównuje je z każdym z tych wzorców i wylicza dla nich wartość, którą możemy nazwać „odległością”. Komputer zidentyfikuje wypowiedź użytkownika jako zapisaną w „najbliższym” wzorcu – tłumaczy dr inż. Tomasz Kapuściński z Politechniki Rzeszowskiej.

Tyle teorii; w praktyce jest to znacznie bardziej skomplikowane. Tak jak różne są charaktery pisma – w efekcie czego litery, chociaż nawiązują do jednego wzorca, wyglądają bardzo różnie, i jak różne są sposoby mówienia – mniej lub bardziej wyraźne – tak samo w różny sposób można migać. – Maszyna musi chociażby wiedzieć, kiedy zaczyna się wypowiedź w języku migowym, aby nie podjąć się interpretacji zwykłych ruchów ręką. Dlatego żeby nasz system zadziałał, osoba niesłysząca musi zacząć od trzymania rąk na kolanach – mówi dr inż. Joanna Marnik z politechniki.

Dlatego na razie za pomocą urządzenia, którego prototyp już znajduje się w rzeszowskim urzędzie miejskim, można załatwić tylko kwestie związane z wydaniem dowodu osobistego, przy czym osoba niesłysząca musi wiedzieć, co ma zamigać. System nie rozpozna bowiem niezaprogramowanych w nim wypowiedzi. – Nie wynika to jednak z wad technologii, ale raczej z tego, że maszyna do uczenia się potrzebuje ogromnych ilości danych. W tym wypadku oznacza to setki godzin nagrań z użytkownikami języka migowego, jeśli oczywiście chcielibyśmy myśleć o czymś bardziej uniwersalnym – tłumaczy dr inż. Mariusz Oszust z rzeszowskiej uczelni. Skoncentrowanie się na jednym typie urzędowej usługi pozwoliło podkarpackim informatykom dopracować urządzenie.

Nie znaczy to jednak, że nie zastanawiają się nad tym, co dalej. Przede wszystkim chcą popracować nad samym silnikiem, czyli oprogramowaniem, dzięki któremu komputer uczy się języka. – Takich metod są dziesiątki i chcemy sprawdzić, czy któraś nie nadaje się do naszych celów lepiej niż inne. Urządzenie miałoby wtedy np. większą tolerancję dla błędów – mówi dr inż. Dawid Warchoł z Politechniki Rzeszowskiej.

Najdoskonalszy silnik do uczenia maszynowego wciąż będzie potrzebował jednak olbrzymiej ilości danych wejściowych. Z tego względu np. firma Waymo, należąca do Google’a, od dwóch lat prowadzi swój testowy program pojazdów autonomicznych w niewielkim fragmencie miasta Phoenix w stanie Arizona. Cel jest prosty: im więcej kilometrów samochody pokonają, tym większa będzie baza danych, z której będzie się uczyło sterujące nimi oprogramowanie. Pozostaje mieć nadzieję, że znajdą się fundusze, aby tysiące takich nagrań można było stworzyć również do uczenia SyKoMi.

