Wykorzystywanie głosu znanych osób

Czy to zjawisko jest w jakiś sposób uregulowane prawnie? A jeśli tak, to czy regulacje te są wystarczające by chronić autora? Bo przecież głos jest nie tylko elementem wizerunku, ale unikalną cechą biometryczną, służącą identyfikacji. Dlatego też powinien być chroniony podobnie jak dane osobowe.

Postęp w rozwoju sztucznej inteligencji sprawia, że oszustwa na bazie głosu (podszywanie się pod inne osoby) stają się coraz powszechniejsze i są przedmiotem wyłudzeń finansowych, ataków politycznych, kradzieży danych lub też nieuczciwej promocji. Pamiętacie podrobiony głos Prezydenta USA Joe Bidena wykorzystany w automatycznych połączeniach telefonicznych zniechęcających do udziału w prawyborach, albo użycie fakowego głosu Taylor Swift w reklamie, wyłudzającej dane pod przykrywką rozdawania garnków? To są przykłady jak szybko i skutecznie można wykorzystać technologie w nieuczciwym celu. Niestety skala tego typu nadużyc będzie tylko rosła.

Coraz częściej motyw wykorzystania głosu pojawia się też w produkcjach filmowych. Mowa o kultowym Top Gun Maverick, gdzie zsyntezowano głos Val Kilmera. Podobnie dzieje się w najnowszym sezonie polskiego serialu Rojst, w którym Filip Pławiak (młody Kociołek) mówi głosem Piotra Fronczewskiego (Kociołek). Efekt konwersji głosu, czyli zabieg, z którym mamy tu do czynienia nie jest już żadnym wyzwaniem w dobie inwazji AI. O ile aspekt ten został z pewnością uregulowany na potrzeby produkcji Rojst, pojawia się pytanie o wykorzystywanie w filmach syntezowanego głosu aktorów po ich śmierci. W obszarze syntezy głosu interesujące jest również aspekt podejścia producentów do wskaźników spójności biometrycznej.

Dysponując odpowiednimi narzędziami pokusiliśmy się o porównanie biometryczne głosów Fronczewskiego i Pławiaka. Wyniki analizy pokazują, że ich głosy biometrycznie NIE są spójne (Pławiak wypowiedź vs Fronczewski VP - tylko 15% zgodności, Fronczewski wypowiedź vs Pławiak VP - 11%), ale co ciekawe nie dostrzega się tych różnic na poziomie ucha. W naszym odbiorze głosy Pławiaka i Fronczewskiego są wręcz identyczne. I o to w konsekwencji tutaj chodzi.

Dla obu postaci płeć oraz narodowość zostały rozpoznane z minimalną niepewnością (wynik prawie 100%). Została również wykryta różnica wieku między postaciami, oszacowana na 20 lat.
Badanie przeprowadzono w naszym laboratorium cyfrowego przetwarzania sygnałów, do tego celu użyliśmy 25 sekund łącznych wypowiedzi obu postaci, złożonych z kilku fragmentów ich oryginalnej mowy, na bazie oryginalnej ścieżki filmowej.

Wnioski płynące z tego eksperymentu wskazują na fakt jak pomocna i skuteczna może być biometria w identyfikowaniu osoby mówiącej, oceny prawdziwości jej głosu a w konsekwencji wykrywaniu nadużyć na bazie głosu. Czy to wystarczy by w przyszłości ograniczyć wykorzystywanie w nieuczciwy sposób głosu znanych osób? I co najważniejsze, czy jesteśmy w stanie uregulować rynek tak, aby zadbać o głos znanych osób po ich śmierci?