Komputery rozpoznają naszą mowę i pismo. Czy nauczymy je języka migowego?

Ten tekst przeczytasz w 4 minuty
19 stycznia 2019, 12:23
Nauka języka migowego
Nauka języka migowego/ShutterStock
Wyobraźmy sobie taką sytuację. Osoba niesłysząca przychodzi do urzędu załatwić kilka spraw. Siada przy specjalnym stanowisku, gdzie patrzy na nią oko kamery – i zaczyna do niej migać. Po drugiej stronie siedzi urzędnik, któremu komputer tłumaczy wykonywane rękoma znaki. Proces zachodzi też w drugą stronę; bez konieczności szkolenia personelu, bez umawiania tłumacza, po prostu sprawnie.

Taki scenariusz marzy się naukowcom z Politechniki Rzeszowskiej, konstruktorom– urządzenia zaprojektowanego z myślą o takich sytuacjach, gdzie bariera językowa uniemożliwia załatwienie najprostszych spraw i wiąże się często z poczuciem zniechęcenia i wykluczenia u osób komunikujących się językiem migowym. – Od ponad 20 lat zajmujemy się rozpoznawaniem gestów wykonywanych rękami. Chcieliśmy wreszcie wykorzystać to doświadczenie do budowy czegoś praktycznego – mówi prof. Marian Wysocki z podkarpackiej uczelni.

System składa się z kilku elementów: kamery rejestrującej ruchy wykonywane przez migającą osobę, dwóch monitorów i oprogramowania. Jego sercem są algorytmy uczenia maszynowego, należące do klasy rozwiązań z zakresu sztucznej inteligencji. Jak to działa? – Najprostsza metoda polega na tym, że na komputerze zapisane są wzorce – w tym wypadku „idealne” wypowiedzi w języku migowym. Kiedy komputer otrzyma nagranie wideo od użytkownika naszego systemu, porównuje je z każdym z tych wzorców i wylicza dla nich wartość, którą możemy nazwać „odległością”. Komputer zidentyfikuje wypowiedź użytkownika jako zapisaną w „najbliższym” wzorcu – tłumaczy dr inż. Tomasz Kapuściński z Politechniki Rzeszowskiej.

>>> Czytaj też: Chiny jako pierwsze zmodyfikowały genetycznie człowieka. Co tak naprawdę się stało

Tyle teorii; w praktyce jest to znacznie bardziej skomplikowane. Tak jak różne są charaktery pisma – w efekcie czego litery, chociaż nawiązują do jednego wzorca, wyglądają bardzo różnie, i jak różne są sposoby mówienia – mniej lub bardziej wyraźne – tak samo w różny sposób można migać. – Maszyna musi chociażby wiedzieć, kiedy zaczyna się wypowiedź w języku migowym, aby nie podjąć się interpretacji zwykłych ruchów ręką. Dlatego żeby nasz system zadziałał, osoba niesłysząca musi zacząć od trzymania rąk na kolanach – mówi dr inż. Joanna Marnik z politechniki.

Dlatego na razie za pomocą urządzenia, którego prototyp już znajduje się w rzeszowskim urzędzie miejskim, można załatwić tylko kwestie związane z wydaniem dowodu osobistego, przy czym osoba niesłysząca musi wiedzieć, co ma zamigać. System nie rozpozna bowiem niezaprogramowanych w nim wypowiedzi. – Nie wynika to jednak z wad technologii, ale raczej z tego, że maszyna do uczenia się potrzebuje ogromnych ilości danych. W tym wypadku oznacza to setki godzin nagrań z użytkownikami języka migowego, jeśli oczywiście chcielibyśmy myśleć o czymś bardziej uniwersalnym – tłumaczy dr inż. Mariusz Oszust z rzeszowskiej uczelni. Skoncentrowanie się na jednym typie urzędowej usługi pozwoliło podkarpackim informatykom dopracować urządzenie.

Nie znaczy to jednak, że nie zastanawiają się nad tym, co dalej. Przede wszystkim chcą popracować nad samym silnikiem, czyli oprogramowaniem, dzięki któremu komputer uczy się języka. – Takich metod są dziesiątki i chcemy sprawdzić, czy któraś nie nadaje się do naszych celów lepiej niż inne. Urządzenie miałoby wtedy np. większą tolerancję dla błędów – mówi dr inż. Dawid Warchoł z Politechniki Rzeszowskiej.

Najdoskonalszy silnik do uczenia maszynowego wciąż będzie potrzebował jednak olbrzymiej ilości danych wejściowych. Z tego względu np. firma Waymo, należąca do Googlea, od dwóch lat prowadzi swój testowy program pojazdów autonomicznych w niewielkim fragmencie miasta Phoenix w stanie Arizona. Cel jest prosty: im więcej kilometrów samochody pokonają, tym większa będzie baza danych, z której będzie się uczyło sterujące nimi oprogramowanie. Pozostaje mieć nadzieję, że znajdą się fundusze, aby tysiące takich nagrań można było stworzyć również do uczenia SyKoMi.

>>> Czytaj też: Eurostat: W 2017 r. Polska przeznaczyła 1,03 proc. PKB na badania i rozwój

Copyright
Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A. Kup licencję
Źródło: MAGAZYN DGP
Zapisz się na newsletter
Zapraszamy na newsletter Forsal.pl zawierający najważniejsze i najciekawsze informacje ze świata gospodarki, finansów i bezpieczeństwa.

Zapisując się na newsletter wyrażasz zgodę na otrzymywanie treści reklam również podmiotów trzecich

Administratorem danych osobowych jest INFOR PL S.A. Dane są przetwarzane w celu wysyłki newslettera. Po więcej informacji kliknij tutaj