Jak powiedział rzecznik OpenAI, firma publikuje wyniki testów pierwszych wersji demonstracyjnych modelu zamiany tekstu na mowę o nazwie Voice Engine, którą dotychczas udostępniono tylko około 10 programistom.

Początkowo firma planowała udostępnić narzędzie aż 100 programistom, jednak po otrzymaniu opinii od zainteresowanych stron, takich jak decydenci, eksperci branżowi, nauczyciele i twórcy, firma zdecydowała się ograniczyć dostęp do oprogramowania.

„Wiemy, że generowanie mowy przypominającej głosy ludzi wiąże się z poważnym ryzykiem, o którym szczególnie warto pamiętać w roku wyborczym” – napisała firma w piątkowym poście na blogu. „Współpracujemy z partnerami amerykańskimi i międzynarodowymi z przedstawicieli rządów, mediów, rozrywki, edukacji, społeczeństwa obywatelskiego i spoza nich, aby mieć pewność, że podczas prac uwzględnimy ich opinie”.

Reklama

Fałszowanie głosu

Do fałszowania głosu wykorzystano już inną technologię sztucznej inteligencji. W styczniu fałszywa, ale realistycznie brzmiąca rozmowa telefoniczna rzekomo od prezydenta Joe Bidena zachęcała mieszkańców New Hampshire, aby nie głosowali w prawyborach. To wzbudziło poważne obawy, że sztuczna inteligencja może być użyta do dezinformacji i może mieć w pływ na wynik wyborów.

W przeciwieństwie do poprzednich działań OpenAI związanych z generowaniem treści audio, Voice Engine może tworzyć mowę brzmiącą jak mowa poszczególnych osób, wraz z ich specyficzną barwą, rytmem i intonacją.

Aby odtworzyć głos wybranej osoby, oprogramowanie potrzebuje jedynie 15-sekundowego nagrania dźwięku mówiącej osoby.

Podczas demonstracji narzędzia Bloomberg wysłuchał klipu, w którym dyrektor generalny OpenAI, Sam Altman, krótko zaprezentował działanie technologii głosem wygenerowanym przez sztuczną inteligencję, który był nie do odróżnienia od jego rzeczywistej mowy.

„Jeśli masz odpowiednią konfigurację dźwięku, będzie to w zasadzie głos ludzkiego kalibru” – powiedział Jeff Harris, kierownik produktu w OpenAI.

Harris dostrzega też zagrożenie, jakie niesie ze sobą możliwość kopiowania ludzkich głosów. „Oczywiście umiejętność naprawdę dokładnego naśladowania ludzkiej mowy wiąże się z pewnymi względami bezpieczeństwa”.

Uwierzytelnianie głosowe już cię nie ochroni

OpenAI ma nadzieję, że premiera nowego oprogramowania wymusi wzmocnienie odporności społeczeństwa na wyzwania, jakie niosą ze sobą bardziej zaawansowane technologie sztucznej inteligencji.

Doskonałym przykładem takiego zagrożenia jest uwierzytelnianie głosowe. Dlatego firma wezwała banki do stopniowego wycofywania uwierzytelniania głosowego jako środka bezpieczeństwa dostępu do kont bankowych i poufnych informacji.

Według OpenAI potrzebna jest także szeroka edukacja publiczna na temat zwodniczych treści AI oraz dalszy rozwój technik wykrywania, czy treści audio są prawdziwe, czy wygenerowane przez sztuczną inteligencję.

Dobre zastosowania

Norman Prince Neurosciences Institute, jeden z partnerów OpenAI korzystających z tego narzędzia w ramach systemu non-profit Lifespan zajmującego się opieką zdrowotną, wykorzystuje tę technologię, aby pomóc pacjentom odzyskać głos.

Na przykład narzędzie to wykorzystano do przywrócenia głosu młodej pacjentce, która utraciła zdolność wyraźnego mówienia z powodu guza mózgu, poprzez odtworzenie jej mowy z wcześniejszego nagrania na potrzeby projektu szkolnego – czytamy w firmowym poście na blogu.

Niestandardowy model mowy OpenAI może również tłumaczyć generowany dźwięk na różne języki. Dzięki temu jest przydatny dla firm z branży audio, takich jak Spotify Technology. Spotify wykorzystało już tę technologię w swoim własnym programie pilotażowym do tłumaczenia podcastów.

OpenAI zachwalało także inne korzystne zastosowania tej technologii, takie jak tworzenie szerszej gamy głosów w treściach edukacyjnych dla dzieci.

Warunki korzystania

W programie testowym OpenAI wymaga od swoich partnerów wyrażenia zgody na zasady użytkowania, uzyskania zgody pierwotnego mówcy przed użyciem głosu oraz ujawnienia słuchaczom, że głosy, które słyszą, są generowane przez sztuczną inteligencję.

Firma instaluje także niesłyszalny dźwiękowy znak wodny, pozwalający rozróżnić, czy utwór dźwiękowy został utworzony za pomocą jej narzędzia.

Przed podjęciem decyzji, czy udostępnić tę funkcję szerzej, OpenAI oświadczyło, że prosi o opinie zewnętrznych ekspertów. „Ważne jest, aby ludzie na całym świecie rozumieli, dokąd zmierza ta technologia, niezależnie od tego, czy ostatecznie sami ją wdrożymy na szeroką skalę, czy nie” – stwierdziła firma w poście na blogu.