Czy to zjawisko jest w jakiś sposób uregulowane prawnie? A jeśli tak, to czy regulacje te są wystarczające by chronić autora? Bo przecież głos jest nie tylko elementem wizerunku, ale unikalną cechą biometryczną, służącą identyfikacji. Dlatego też powinien być chroniony podobnie jak dane osobowe.

Postęp w rozwoju sztucznej inteligencji sprawia, że oszustwa na bazie głosu (podszywanie się pod inne osoby) stają się coraz powszechniejsze i są przedmiotem wyłudzeń finansowych, ataków politycznych, kradzieży danych lub też nieuczciwej promocji. Pamiętacie podrobiony głos Prezydenta USA Joe Bidena wykorzystany w automatycznych połączeniach telefonicznych zniechęcających do udziału w prawyborach, albo użycie fakowego głosu Taylor Swift w reklamie, wyłudzającej dane pod przykrywką rozdawania garnków? To są przykłady jak szybko  i skutecznie można wykorzystać technologie w nieuczciwym celu. Niestety skala tego typu nadużyc będzie tylko rosła.

Coraz częściej motyw wykorzystania głosu pojawia się też w produkcjach filmowych. Mowa o kultowym Top Gun Maverick, gdzie zsyntezowano głos Val Kilmera. Podobnie dzieje się w najnowszym sezonie polskiego serialu Rojst, w którym Filip Pławiak (młody Kociołek) mówi głosem  Piotra Fronczewskiego (Kociołek). Efekt konwersji głosu, czyli zabieg, z którym mamy tu do czynienia nie jest już żadnym wyzwaniem w dobie inwazji AI. O ile aspekt ten został z pewnością uregulowany na potrzeby produkcji Rojst, pojawia się pytanie o wykorzystywanie w filmach syntezowanego głosu aktorów po ich śmierci. W obszarze syntezy głosu interesujące jest również aspekt podejścia producentów do wskaźników spójności biometrycznej.

Dysponując odpowiednimi narzędziami pokusiliśmy się o porównanie biometryczne głosów Fronczewskiego i Pławiaka. Wyniki analizy  pokazują, że ich głosy biometrycznie NIE są spójne (Pławiak wypowiedź vs Fronczewski VP  – tylko 15% zgodności, Fronczewski wypowiedź vs Pławiak VP – 11%), ale co ciekawe nie dostrzega się tych różnic na poziomie ucha. W naszym odbiorze głosy Pławiaka i Fronczewskiego są wręcz identyczne. I o to w konsekwencji tutaj chodzi.

Dla obu postaci płeć oraz narodowość zostały rozpoznane z minimalną niepewnością (wynik prawie 100%). Została również wykryta różnica wieku między postaciami, oszacowana  na 20 lat.
Badanie przeprowadzono w naszym laboratorium cyfrowego przetwarzania sygnałów, do tego celu użyliśmy 25 sekund łącznych wypowiedzi obu postaci, złożonych z kilku fragmentów ich oryginalnej mowy, na bazie oryginalnej ścieżki filmowej.

Wnioski płynące z tego eksperymentu wskazują na fakt jak pomocna i skuteczna może być biometria w identyfikowaniu osoby mówiącej, oceny prawdziwości jej głosu a w konsekwencji wykrywaniu nadużyć na  bazie głosu. Czy to wystarczy by w przyszłości ograniczyć wykorzystywanie w nieuczciwy sposób głosu znanych osób? I co najważniejsze, czy jesteśmy w stanie uregulować rynek tak, aby zadbać o głos znanych osób po ich śmierci? 

Czym jest dostępność? 

Dostępność (z ang.accessibility) to szerokie pojęcie, opisujące stopień, w jakim dany system może być używany przez możliwie dużą grupę ludzi. 

To właściwość środowiska (przestrzeni fizycznej, rzeczywistości cyfrowej, systemów informacyjno-komunikacyjnych, produktów czy usług), która pozwala osobom z trudnościami funkcjonalnymi (fizycznymi, poznawczymi) na korzystanie z niego na zasadzie równości z innymi. 

Regulacje w Polsce – Dyrektywy WCGA2.0 i WCAG2.1 

Z  myślą o osobach z niepełnosprawnościami został stworzony standard WCAG 2.0  (Web Content Accessibility Guidelines) – obszerny zbiór rekomendacji na temat dostępności treści internetowych – jest to 12 wytycznych definiujących cechy poszczególnych elementów treści w Internecie, które mają wpływ na ich dostępność. Dotyczy to  sklepów online, klientów pocztowych oraz aplikacji mobilnych. 

WCAG2.1 to rozszerzony standard WCAG 2.0 o dodatkowych 17 wytycznych związanych z udostępnianiem treści na urządzeniach mobilnych. m.in. możliwość oglądania obrazu na urządzeniach mobilnych w orientacji pionowej i poziomej, dopasowanie treści strony do okna urządzenia, bez konieczności przewijania obrazu, stosowanie odpowiednich odstępów między liniami, stosowanie odpowiedniego współczynnika kontrastu czy możliwość wyłączenia animacji po interakcji.

Póki co, do obligatoryjnego stosowania tych Dyrektyw są zobowiązane instytucje publiczne, ale myśląc o upowszechnieniu rozwiązań, powinniśmy zadbać o to, aby nowopowstałe produkty/usługi w jak największym stopniu spełniały te wymagania. 

Co oznacza dostępność dla nas jako firmy?

Dostępność dla nas jest jedną z głównych 4 wartości (obok innowacyjności, współpracy, bezpieczeństwa), do której przykładamy ogromną rolę podczas projektowania rozwiązań  z zakresu biometrii głosowej i ulepszania systemów tego rodzaju. Rozwijamy nasze technologie z myślą o jej powszechności, o osobach, którym brakuje wiedzy lub ich wiedza na temat zagrożeń w sieci jest znikoma. Tworząc rozwiązania już na etapie prac badawczych dbamy o to, aby jak najwięcej osób mogło z nich korzystać, priorytetowo traktując osoby nie w pełni sprawne np. z ograniczonymi możliwościami widzenia. Staramy się w ten sposób niwelować różnice, mówiąc wprost przeciwdziałać  wykluczeniu cyfrowemu. Wierzymy, że takie podejście  zdecydowanie podnosi jakość i komfort życia osób z niepełnosprawnościami. Jak podaje GUS w Polsce takich osób (zarejestrowanych prawnie) jest ponad 3 mln, co stanowi 10% całego społeczeństwa.

Komunikator głosowy Vesper 

Obecnie pracujemy nad nowym, innowacyjnym rozwiązaniem do komunikacji za pomocą głosu. Jego zaletą będzie wysoka jego dostępność właśnie dla osób z niepełnosprawnościami. Z racji na fakt, że rozwiązanie udostępnione zostanie również na urządzeniach mobilnych przy projektowaniu  bazować będziemy na standardzie WCAG2.1. Produkt cechować się będzie czytelnym i domyślnym interfejsem, zapewniającym prostą i intuicyjną obsługę oraz dużą elastycznością w użytkowaniu. Komunikator głosowy zapewni użytkownikom m.in. możliwość czytelnego przybliżania tekstu czy zastosowania opisów alternatywnych. Warto podkreślić, że żaden z istniejących na rynku komunikatorów nie posiada takich funkcjonalności.

Projekt jest realizowany dzięki dotacji Unii Europejskiej.

więcej o projekcie Vesper

Czy to możliwe? Eksperyment badawczy otwiera nowe możliwości w tym zakresie. 

Naukowcy z Wielkiej Brytanii stworzyli zbiór danych zawierający ruchy fizyczne generujące dźwięki mowy. Zbiór ten może posłużyć w przyszłości do opracowania systemów rozpoznawania mowy syntetyzujących głosy osób z wadami wymowy. Może to przyczynić się także do opracowania nowej metody rozpoznawania cichej mowy a nawet nowej biometrii behawioralnej. 

Oznacza to, że w niedalekiej przyszłości  urządzenia sterowane głosem, np. smartfony, będą prawdopodobnie mogły czytać z ruchu warg użytkowników i być wykorzystywane do uwierzytelniania aplikacji bankowych i innych wrażliwych aplikacji poprzez identyfikację unikalnej mimiki użytkownika. Innymi słowy, uwierzytelnienie osoby mogłoby się odbywać na podstawie ruchów jej warg i twarzy.

W niniejszym eksperymencie bazę danych zbudowano na podstawie czytania z ruchu warg i analizy ruchów twarzy. Aby uchwycić ruch skóry twarzy, języka oraz krtani uczestników badania podczas mówienia użyte zostały dane z radarów z falą ciągłą. Naukowcy wykorzystali między innymi system wykrywania spekli laserowych z superszybką kamerą do uchwycenia wibracji na powierzchni skóry a także kamerę Kinect V2 do odczytania zmian kształtu ust podczas formowania różnych dźwięków.

Baza danych, utworzona na podstawie analizy 400 minut mowy zostanie udostępniona badaczom bezpłatnie, w celu dalszego rozwoju technologii.

W skład grupy badawczej weszli naukowcy z Uniwersytetu w Dundee i University College London. W eksperymencie wykorzystano też technologię z Centrum Komunikacji, Wyczuwania i Obrazowania na Uniwersytecie w Glasgow.

szczegóły 

Walka z przestępczością może stać się bardziej skuteczna dzięki biometrii głosowej.

Już wkrótce na rynek trafi produkt firmy Phonexia do porównywania głosu w obszarze informatyki śledczej. Voice Inspector 5.1, bo to o nim mowa, został zaprojektowany specjalnie dla ekspertów właśnie tego obszaru.
Oprogramowanie jest w stanie zidentyfikować osobę już na podstawie 3 sekund mowy i oferuje taką samą dokładność porównywania głosu niezależnie od języka. Nowa oferta oprogramowania spełnia międzynarodowe standardy dopuszczalności sądowej, zgodnie z wytycznymi Europejskiej Sieci Instytutów Kryminalistycznych (ENFSI).

Produkt zawiera również zestaw technologii wspomagających, jak np. bazującą na rozpoznawaniu głosu diaryzację mówców umożliwiającą oznakowanie indywidualnych mowców i wydzielenie ich z monofonicznego strumienia audio, moduł rozpoznawania fonemów do identyfikowania podobnych wzorców dźwiękowych w nagraniach, wykrywanie obecności głosu a także spektrogram do analizy plików audio. 

Phonexia działa w ramach wspieranego przez Unię Europejską  konsorcjum Roxanne, które  współpracuje  z organami ścigania przy dochodzeniach dotyczących siatek przestępczych poprzez dostarczanie danych z zakresu biometrii głosowej. Projekt został dofinansowany w ramach unijnego programu „Horyzont 2020″.

Więcej
https://www.biometricupdate.com/202401/phonexia-launches-voice-biometrics-product-for-forensic-investigations

Rok 2024 rozpoczęliśmy od uruchomienia nowego projektu badawczo-rozwojowego, na który otrzymaliśmy dotację Unii Europejskiej pod nazwą „Vesper – bezpieczna platforma komunikacji głosowej z integracją usług biometrycznych”. Celem tego projektu jest opracowanie i wdrożenie na rynek innowacyjnego komunikatora głosowego o unikalnych cechach funkcjonalnych.  Czym będzie wyróżniał się komunikator głosowy Vesper?

Oprócz silnego szyfrowania transmisji komunikator będzie posiadał zintegrowaną technologię biometrii głosowej oraz dwie unikalne funkcjonalności opracowane w ramach prac badawczo-rozwojowych tego projektu tj. technologię weryfikacji prawdziwości źródła emisji strumienia głosowego dalekiego końca oraz technologię augmentacji strumienia głosowego odbieranego w urządzeniu bliskiego końca. Warto podkreślić, że takich cech funkcjonalnych nie posiadają żadne, istniejące obecnie na rynku komunikatory typu Skype czy Teams.

Opracowane w ramach projektu technologie mają na celu zabezpieczyć użytkownika przed atakami prezentacji oraz uniemożliwić wykorzystanie głosu rozmówcy do skutecznej realizacji deep fake przy użyciu technik syntezy głosu.

Dodatkowo zaimplementowane w komunikatorze Vesper 2 z 3 technologii tj. technologia weryfikacji prawdziwości źródła emisji strumienia głosowego dalekiego końca oraz technologia augmentacji strumienia głosowego odbieranego w urządzeniu bliskiego końca będą również przedmiotem samodzielnej komercjalizacji w ramach udzielanych licencji.

Zaletą komunikatora będzie również jego wysoka dostępność dla osób z niepełnosprawnościami, przygotowana według standardu WCAG2.1. Produkt cechować się będzie czytelnym i domyślnym interfejsem, zapewniającym prostą i intuicyjną obsługę oraz dużą elastycznością w użytkowaniu.

Rynkiem docelowym dla wprowadzanych produktów jest międzynarodowy rynek szyfrowanej komunikacji mobilnej. Głównymi odbiorcami komunikatora Vesper będą przedsiębiorstwa wymagające bezpiecznej komunikacji głosowej, administracja itp. Odbiorcami dwóch technologii będących wynikami projektu będą przede wszystkim producenci oraz dostawcy systemów komunikacji głosowej i pokrewnych, dla których takie technologie będą stanowić wartość dodaną podnoszącą bezpieczeństwo ich użytkowników.

Projekt ruszył 1 stycznia 2024  i potrwa 2,5 roku. Jest to już czwarty projekt BiometrIQ realizowany z funduszy unijnych.

=>Wartość projektu: 7 217 514,00

=>Wysokość wkładu Funduszy Europejskich: 4 779 500,00

=> Numer projektu: FENG.01.01-IP.02-0769/23

VoiceDNA, to nowoczesny produkt do biometrycznego uwierzytekniania głosowego, służący również do analizy głosu i obsługi klienta audio, oferowany przez wietnamski startup Namitech, zwany również jako Nami Technology.

Firma Namitech z siedzibą w Ho Chi Minh przekonuje, że VoiceDNA jest ponad dwukrotnie szybszy niż biometria Nuance, zarówno pod względem rejestracji, jak i weryfikacji tożsamości. Oprogramowanie można zaimplementować do weryfikacji zależnej i niezależnej od tekstu, a skuteczność wykrywania ataków prezentacji sięga 95%. Na swój dalszy rozwój startup właśnie pozyskał 2 mln dolarów.

Więcej https://www.biometricupdate.com/202310/vietnamese-voice-biometrics-startup-namitech-secures-2m-funding

Porównywalnym  do „Voice DNA” jest autorskie rozwiązanie od BiometrIQ – VoiceToken, które zapewnia silne, dwustopniowe uwierzytelnianie głosowe o bardzo wysokiej skuteczności sięgającej niemalże 99%, również w przypadku ataków na bazie syntezy mowy. Do zweryfikowania tożsamości wystarczy już kilkanaście sekund.

Interesujący przypadek zastosowania biometrii głosowej w medycynie. Biometria głosu przywraca pacjentowi zdolność do generowania mowy. Po udarze mózgu pacjentka (Ania), która straciła całkowicie mowę może mówić własnym głosem, korzystając z biometrycznego awatara kontrolowanego przez jej umysł.

Jest to możliwe dzięki specjalnemu implantowi, wszczepionemu na powierzchnię mózgu, który wykorzystuje biometrię głosu i twarzy do generowania danych dotyczących mowy i emocji na podstawie sygnałów mózgowych. Algorytm sztucznej inteligencji wytrenowany na nagraniu przemówienia ślubnego pacjentki generuje jej nowy głos. Tłumaczy sygnały mózgowe, gdy pacjentka próbuje mówić lub o czymś myśleć.
Awatar Ani jest animowany na siatce graficznej przy użyciu sygnałów emocji wyrażających szczęście, smutek i zaskoczenie.

Twórcami implantu są naukowcy z Uniwersytetu Kalifornijskiego w San Francisco oraz Berkeley.

Więcej szczegółów
https://www.biometricupdate.com/202309/voice-biometrics-restore-patients-ability-to-generate-speech

Ile samochód powinien wiedzieć o swoim kierowcy? Odpowiedź na to pytanie możemy poznać już wkrótce dzięki współpracy dwóch firm Qualcomm i SoundHound, nawiązanej w celu opracowania i przetestowania sztucznej inteligencji SoundHound Chat dla motoryzacji. Pierwszy, dostępny asystent głosowy z generatywnymi możliwościami AI zostanie dodany do pojazdu koncepcyjnego Snapdragon Digital Chassis. Asystent głosowy będzie mógł na przykład znaleźć przepis, dodać potrzebne składniki do cyfrowego koszyka i przygotować je do odbioru w lokalnym sklepie spożywczym kierowcy o określonej godzinie.

O ile dostawcy usług AI uważają, że megaplatformy zwiększają wygodę i zmienią sposób, w jaki ludzie żyją to badacze prywatności nazywają je „maszynami pochłaniającymi dane”, które mają niezrównaną moc oglądania, słuchania i gromadzenia informacji o tym, co robią i dokąd jeżdżą samochodem. Tak wynika z badań organizacji odpowiedzialnych za ochronę prywatności w zakresie gromadzenia i wykorzystywania danych przez marki motoryzacyjne.


https://www.biometricupdate.com/202309/your-car-is-a-good-listener-maybe-too-good

Twórcy gier, chcąc poprawić wrażenia graczy, dokładają wszelkich starań, aby projektować immersyjne środowiska. Kluczowym elementem tej immersji jest integracja płynnych metod płatności, które pozwalają graczom kupować przedmioty w grze, ulepszać swoje postacie lub uzyskiwać dostęp do
treści premium bez zakłócania przebiegu gry. 

Już teraz skanery linii papilarnych i systemy rozpoznawania twarzy są powszechne i stanowią bezpieczną i wygodną alternatywę dla tradycyjnych systemów oraz stosowania haseł i kodów PIN. Dzięki temu fani gier mogą nieprzerwanie korzystać z gry dzięki biometrycznej autentykacji na dowolnym jej etapie. Jednak zastosowanie biometrii behawioralnej w branży gier pozwoli pójść krok dalej – rozpoznawanie osób będzie możliwe na podstawie ich unikalnych zachowań. Mogą to być wzorce pisania lub ruchy myszy. Oznacza to, że naturalna interakcja użytkownika z interfejsem gry stworzy unikalny podpis behawioralny, który, może zostać wykorzystany do uwierzytelnienia użytkownika w kolejnych sesjach gry.

Więcej https://www.biometricupdate.com/202308/the-intersection-of-gaming-and-biometrics-a-look-to-the-future

Na rynku pojawił się nowo opatentowany zestaw algorytmów ALX firmy Daon w zakresie weryfikacji głosu, twarzy i dokumentów. Technologia ta ma usprawnić wykrywanie fałszerstw głosowych, wspomaganych głównie przez sztuczną inteligencję. 
https://www.biometricupdate.com/202306/daon-adds-algorithms-to-improve-deepfake-detection-for-voice-and-face-biometrics

BiometrIQ również w ramach jednego z projektów badawczych  pracuje nad pakietem rozwiązań, które mają zwiększyć bezpieczeństwo systemów biometrycznych i chronić przed atakami bazującymi na kradzieży głosu. Dzięki autorskiemu rozwiązaniu możliwe będzie określenie prawdziwości źródła głosu z prawdopodobieństwem sięgającym 99%. szczegóły w poniższym artykule na blogu.
https://biometriq.pl/biometria-vs-deepfake-glosowy-jak-chronic-twoj-glos/