Czy to zjawisko jest w jakiś sposób uregulowane prawnie? A jeśli tak, to czy regulacje te są wystarczające by chronić autora? Bo przecież głos jest nie tylko elementem wizerunku, ale unikalną cechą biometryczną, służącą identyfikacji. Dlatego też powinien być chroniony podobnie jak dane osobowe.

Postęp w rozwoju sztucznej inteligencji sprawia, że oszustwa na bazie głosu (podszywanie się pod inne osoby) stają się coraz powszechniejsze i są przedmiotem wyłudzeń finansowych, ataków politycznych, kradzieży danych lub też nieuczciwej promocji. Pamiętacie podrobiony głos Prezydenta USA Joe Bidena wykorzystany w automatycznych połączeniach telefonicznych zniechęcających do udziału w prawyborach, albo użycie fakowego głosu Taylor Swift w reklamie, wyłudzającej dane pod przykrywką rozdawania garnków? To są przykłady jak szybko  i skutecznie można wykorzystać technologie w nieuczciwym celu. Niestety skala tego typu nadużyc będzie tylko rosła.

Coraz częściej motyw wykorzystania głosu pojawia się też w produkcjach filmowych. Mowa o kultowym Top Gun Maverick, gdzie zsyntezowano głos Val Kilmera. Podobnie dzieje się w najnowszym sezonie polskiego serialu Rojst, w którym Filip Pławiak (młody Kociołek) mówi głosem  Piotra Fronczewskiego (Kociołek). Efekt konwersji głosu, czyli zabieg, z którym mamy tu do czynienia nie jest już żadnym wyzwaniem w dobie inwazji AI. O ile aspekt ten został z pewnością uregulowany na potrzeby produkcji Rojst, pojawia się pytanie o wykorzystywanie w filmach syntezowanego głosu aktorów po ich śmierci. W obszarze syntezy głosu interesujące jest również aspekt podejścia producentów do wskaźników spójności biometrycznej.

Dysponując odpowiednimi narzędziami pokusiliśmy się o porównanie biometryczne głosów Fronczewskiego i Pławiaka. Wyniki analizy  pokazują, że ich głosy biometrycznie NIE są spójne (Pławiak wypowiedź vs Fronczewski VP  – tylko 15% zgodności, Fronczewski wypowiedź vs Pławiak VP – 11%), ale co ciekawe nie dostrzega się tych różnic na poziomie ucha. W naszym odbiorze głosy Pławiaka i Fronczewskiego są wręcz identyczne. I o to w konsekwencji tutaj chodzi.

Dla obu postaci płeć oraz narodowość zostały rozpoznane z minimalną niepewnością (wynik prawie 100%). Została również wykryta różnica wieku między postaciami, oszacowana  na 20 lat.
Badanie przeprowadzono w naszym laboratorium cyfrowego przetwarzania sygnałów, do tego celu użyliśmy 25 sekund łącznych wypowiedzi obu postaci, złożonych z kilku fragmentów ich oryginalnej mowy, na bazie oryginalnej ścieżki filmowej.

Wnioski płynące z tego eksperymentu wskazują na fakt jak pomocna i skuteczna może być biometria w identyfikowaniu osoby mówiącej, oceny prawdziwości jej głosu a w konsekwencji wykrywaniu nadużyć na  bazie głosu. Czy to wystarczy by w przyszłości ograniczyć wykorzystywanie w nieuczciwy sposób głosu znanych osób? I co najważniejsze, czy jesteśmy w stanie uregulować rynek tak, aby zadbać o głos znanych osób po ich śmierci? 

Czym jest dostępność? 

Dostępność (z ang.accessibility) to szerokie pojęcie, opisujące stopień, w jakim dany system może być używany przez możliwie dużą grupę ludzi. 

To właściwość środowiska (przestrzeni fizycznej, rzeczywistości cyfrowej, systemów informacyjno-komunikacyjnych, produktów czy usług), która pozwala osobom z trudnościami funkcjonalnymi (fizycznymi, poznawczymi) na korzystanie z niego na zasadzie równości z innymi. 

Regulacje w Polsce – Dyrektywy WCGA2.0 i WCAG2.1 

Z  myślą o osobach z niepełnosprawnościami został stworzony standard WCAG 2.0  (Web Content Accessibility Guidelines) – obszerny zbiór rekomendacji na temat dostępności treści internetowych – jest to 12 wytycznych definiujących cechy poszczególnych elementów treści w Internecie, które mają wpływ na ich dostępność. Dotyczy to  sklepów online, klientów pocztowych oraz aplikacji mobilnych. 

WCAG2.1 to rozszerzony standard WCAG 2.0 o dodatkowych 17 wytycznych związanych z udostępnianiem treści na urządzeniach mobilnych. m.in. możliwość oglądania obrazu na urządzeniach mobilnych w orientacji pionowej i poziomej, dopasowanie treści strony do okna urządzenia, bez konieczności przewijania obrazu, stosowanie odpowiednich odstępów między liniami, stosowanie odpowiedniego współczynnika kontrastu czy możliwość wyłączenia animacji po interakcji.

Póki co, do obligatoryjnego stosowania tych Dyrektyw są zobowiązane instytucje publiczne, ale myśląc o upowszechnieniu rozwiązań, powinniśmy zadbać o to, aby nowopowstałe produkty/usługi w jak największym stopniu spełniały te wymagania. 

Co oznacza dostępność dla nas jako firmy?

Dostępność dla nas jest jedną z głównych 4 wartości (obok innowacyjności, współpracy, bezpieczeństwa), do której przykładamy ogromną rolę podczas projektowania rozwiązań  z zakresu biometrii głosowej i ulepszania systemów tego rodzaju. Rozwijamy nasze technologie z myślą o jej powszechności, o osobach, którym brakuje wiedzy lub ich wiedza na temat zagrożeń w sieci jest znikoma. Tworząc rozwiązania już na etapie prac badawczych dbamy o to, aby jak najwięcej osób mogło z nich korzystać, priorytetowo traktując osoby nie w pełni sprawne np. z ograniczonymi możliwościami widzenia. Staramy się w ten sposób niwelować różnice, mówiąc wprost przeciwdziałać  wykluczeniu cyfrowemu. Wierzymy, że takie podejście  zdecydowanie podnosi jakość i komfort życia osób z niepełnosprawnościami. Jak podaje GUS w Polsce takich osób (zarejestrowanych prawnie) jest ponad 3 mln, co stanowi 10% całego społeczeństwa.

Komunikator głosowy Vesper 

Obecnie pracujemy nad nowym, innowacyjnym rozwiązaniem do komunikacji za pomocą głosu. Jego zaletą będzie wysoka jego dostępność właśnie dla osób z niepełnosprawnościami. Z racji na fakt, że rozwiązanie udostępnione zostanie również na urządzeniach mobilnych przy projektowaniu  bazować będziemy na standardzie WCAG2.1. Produkt cechować się będzie czytelnym i domyślnym interfejsem, zapewniającym prostą i intuicyjną obsługę oraz dużą elastycznością w użytkowaniu. Komunikator głosowy zapewni użytkownikom m.in. możliwość czytelnego przybliżania tekstu czy zastosowania opisów alternatywnych. Warto podkreślić, że żaden z istniejących na rynku komunikatorów nie posiada takich funkcjonalności.

Projekt jest realizowany dzięki dotacji Unii Europejskiej.

więcej o projekcie Vesper