Czym wyróżniają się skuteczne systemy biometrii głosowej? O przewadze jednych systemów nad innymi decydują cztery poniższe wskaźniki:
1. Wskaźnik dokładności, oznacza on, że skuteczność systemów biometrycznych powinna oscylować w zakresie 95–99%.

2. FAR (False Acceptance Rate), wskaźnik określający jak często system błędnie akceptuje osobę nieuprawnioną (np. kogoś, kto podszywa się pod użytkownika) jako prawidłowego użytkownika. W najdokładniejszych systemach wskaźnik ten wynosi mniej niż 1%. Im jest niższy tym system jest bezpieczniejszy i trudno się pod niego podszyć.

3. FRR (False Rejection Rate), wskaźnik pokazuje fałszywe odrzucenia, czyli to, ile razy system odrzuca prawdziwego użytkownika, choć powinien go zaakceptować. Tutaj idealne wartości mieszczą się poniżej 3%.

4. EER (Equal Error Rate). Punkt, w którym FAR jest równe FRR, wskaźnik ten jest często stosowany do porównywania jakości systemów biometrycznych.

Do najbardziej skutecznych systemów zalicza się powszechnie systemy Phonexia oraz ID R&D, ze względu na ich wybitne wyniki w testach porównawczych.

My w swoich pracach badawczych korzystamy głównie z silników Phonexia, ale też używamy innych takich jak Kaldi (X-vector) czy ECAPA. Chodzi o jak najszersze testowanie algorytmów w różnorodnym środowisku. Bezpieczeństwo jest tutaj nadrzędnym priorytetem.

W analizach biometrycznych już samo nagranie a dokładnie mówiąc jego jakość decyduje o skuteczności rozpoznania mówcy przez system biometryczny. Warto, więc przypomnieć od czego zależy jakość takiego nagrania (sygnału audio). A więc na jakość sygnału audio mają wpływ przede wszystkim:

👉 warunki akustyczne – poziom szumów, pogłos oraz SNR (stosunek sygnału do szumów)
👉 jakość mowy – naturalność głosu, jego głośność, spójność artykulacji
👉 urządzenia rejestrujące
👉 czas nagrania
👉 parametry techniczne takie jak częstotliwość czy rozdzielczość.

Śmiało można jednak powiedzieć, że głównym czynnikiem determinującym jakość jest SNR.
SNR (ang. Signal-to-Noise Ratio) oznacza stosunek sygnału do szumu – czyli jest to miara jakości sygnału w stosunku do poziomu zakłóceń. Wysoki wskaźnik oznacza czysty dźwięk, bez zakłóceń tła, co przekłada się na wysoką skuteczność identyfikacji mowy przez algorytmy i dokładniejsze analizy.

Bardzo ważnym czynnikiem jest również czas nagrania. Systemy biometryczne potrzebują minimalnej długości próbki głosu, aby wyodrębnić cechy charakterystyczne. Za krótkie nagranie ( 1–2 sekundowe) może nie wystarczyć do wiarygodnej identyfikacji. Długie nagranie z kolei nie zwiększa jakości wprost – ale umożliwia lepsze wyodrębnienie fragmentów czystych i powtarzalnych, co poprawia skuteczność.

A zatem optymalna długość nagrania waha się od kilku do kilkunastu sekund wypowiedzi.

Z kolei jakość mowy to nie tylko czystość nagrania, ale także naturalność, kontrola głośności i konsekwentna artykulacja. Te elementy wpływają na wiarygodność próbek głosu i skuteczność algorytmów rozpoznawania. Pamiętajmy, że skrajne wartości (zbyt cicho / zbyt głośno) mogą utrudniać analizę.





Pojawił się otwarty benchmark do oceny systemów wykrywania deepfake i zmanipulowanych treści multimedialnych. Ma on na celu pomoc w ocenie i ulepszaniu algorytmów wykrywania treści audio, wideo i graficznych generowanych przez sztuczną inteligencję.

Udostępniony zbiór danych zawiera ponad 50 000 próbek rzeczywistych, generowanych i manipulowanych przez sztuczną inteligencję treści audiowizualnych – deepfake’ów i mediów syntetycznych – opatrzonych adnotacjami z rzeczywistych przypadków użycia. Ataki adwersarskie pozwalają na testowanie odporności modelu.

Co ważne, licencja jest udzielana wyłącznie w celach ewaluacyjnych i nie jest przeznaczona do celów szkoleniowych ani komercyjnych.

To wspólna inicjatywa Good Lab firmy Microsoft, Laboratorium Bezpieczeństwa i Sztucznej Inteligencji Uniwersytetu Northwestern oraz organizacji non-profit WITNESS.

Czy zachęci badaczy do korzystania i dzielenia się własnymi analizami?

więcej https://www.biometricupdate.com/202507/new-microsoft-benchmark-for-evaluating-deepfake-detection-prioritizes-breadth

Na rynku pojawiła się nowa forma płatności za pomocą inteligentnych okularów! Transakcji można dokonać za pomocą skanów kodów QR i poleceń głosowych. Inteligentne okulary firmy Alipay, stworzone we współpracy z chińskim producentem smartfonów Meizu są zasilane przez technologię uwierzytelniania głosu i rozpoznawania intencji. Meizu ze swojej strony zapewnia wyświetlacz falowodu optycznego, redukcję szumów głosu i technologię przechwytywania oraz skanowanie kodu za pomocą kamery.


Firma przeprowadziła właśnie swoją pierwszą transakcję płatniczą z wykorzystaniem portfela elektronicznego z wbudowanymi inteligentnymi okularami za pośrednictwem AlipayHK w Hongkongu.

Jak twierdzi spółka Alipay realizowanie transakcji poprzez proste spojrzenie na produkt lub gest w jego kierunku będzie stawało się coraz powszechniejsze w nadchodzących latach.

Ant Group planuje udostępnić nową funkcję globalnym partnerom Alipay+ w 2025 r.
Alipay+ to transgraniczne rozwiązanie płatności mobilnych firmy, które umożliwia firmom akceptowanie portfeli mobilnych z różnych krajów, w tym Line Pay i GrabPay. Usługa obecnie łączy ponad 1,7 miliarda kont użytkowników w 36 portfelach mobilnych.

więcej w artykule źródłowym https://www.biometricupdate.com/202506/alipay-introduces-smart-glasses-payment-with-voice-authentication

Co myślicie o takiej formie zapłaty? Czy ta usługa może zrewolucjonizować rynek? Czy widzicie zastosowanie jej w codziennym życiu?

Czy bot może być szczery? Czy może wyrazić skruchę kiedy przeprasza? Takie pytania zadają sobie badacze w kontekście możliwego wykorzystania AI w obsłudze skarg.

Mowa tu o zautomatyzowaniu całego procesu. O ile jego obsługa wydaje się nie być problematyczna to najtrudniejszym wyzwaniem może okazać się pokazanie przez bota emocji, w tym przypadku przeprosin.

Badania sugerują, że kiedy ludzie oczekują przeprosin, liczą na szczerą skruchę i autentyczność. Ważna jest też spontaniczność, a to są już typowe cechy ludzkie, z którymi nie zawsze idealnie poradzi sobie maszyna. Na ile więc przepraszająca sztuczna AI może być wiarygodna?

Więcej w artykule https://www.biometricupdate.com/202505/apologetic-intelligence-should-bots-handle-complaints

Z ang. „voice stream augmentation” to technika polegająca na wzmacnianiu lub modyfikowaniu strumienia głosowego w czasie rzeczywistym w celu poprawy zmiany jego jakości. W skrócie chodzi tu o wykorzystanie urządzeń elektronicznych typu mikrofony, głośniki, wzmacniacze lub algorytmów programowych do zmiany charakterystyki dźwięku, np. barwy głosu.

Nie trudno więc się domyślić, że augmentację stosuje się w systemach rozpoznawania mowy, w grach, a nawet w sztucznej inteligencji, gdzie pozwala ona na generowanie sztucznych głosów i poprawę ich naturalności.

Obecnie w jednym z projektów tworzymy autorski silnik augmentacji strumienia głosowego. Ma on na celu wspomagać wykrywanie nieuprawnionego wykorzystania głosu w komunikatorze do dalszej syntezy/ konwersji nie powodując przy tym degradacji dźwięku słyszanego z poziomu ludzkiego ucha. Wszystko po to, aby zapobiec kradzieży głosu i zapewnić jak najskuteczniejsze działanie usługi.

Okazuje się, że deepfake audio może być groźniejszy niż wideo! Wg raportu Pindrop w ciągu dwóch lat 2023-2024 nastąpił wzrost liczby tego rodzaju deepfake’ów (audio) aż o 760 %.


W dobie nasilających się ataków samoświadomość wydaje się być tutaj kluczową barierą ochronną człowieka przed tego typu zagrożeniami. Chodzi o:

●  ograniczone zaufanie do asystentów głosowych,
● znajomość socjotechnik stosowanych przez oszustów,
● kontrolę nad treściami publikowanymi przez siebie w necie.

W rozwiązaniach systemowych oczywistym jest stosowanie zaawansowanych technologii biometrycznych i metodologii do wykrywania deepfake’ków w czasie rzeczywistym.

Na przykład Pindrop jako jedną z możliwości wykorzystuje technikę zwaną akustycznym odciskiem palca. Polega ona na utworzeniu cyfrowego podpisu dla każdego głosu w oparciu o jego właściwości akustyczne, takie jak wysokość, ton i kadencja. Podpisy te są następnie wykorzystywane do porównywania i dopasowywania głosów w różnych połączeniach i interakcjach. Większą dawkę wiedzy o deepfake’ach znajdziecie w podkaście z udziałem Vijay Balasubramaniyan,CEO Pindrop. Link poniżej
https://www.biometricupdate.com/202504/biometric-update-podcast-digs-into-deepfakes-with-pindrop-ceo

Dla przypomnienia Pindrop to firma z siedzibą w Atlancie, USA. Rozwiązania tej firmy wyznaczają drogę ku przyszłości komunikacji głosowej, ustanawiając standardy tożsamości, bezpieczeństwa i zaufania w przypadku każdej interakcji głosowej. Więcej na pindrop.com

Wystawa upłynęła pod znakiem wszechobecnej AI. Wiele firm zaprezentowało swoje najnowsze osiągnięcia w konstruowaniu systemów komunikujących się autonomicznie z ludźmi. Ogromne zainteresowanie wzbudził humanoidalny robot Ameca (Etisalat) wchodzący w interakcję ze swoimi rozmówcami. Stoiska z interaktywnymi agentami (Amdocs) oferowały wręcz nieprawdopodobną jakość obrazu oraz mowy generowanej przez systemy.

Google zaprezentowało Gemini Live, stanowiący odpowiedź na tryb głosowy ChatGPT. Gemini Live posiada funkcję Share Screen With Live, która pozwala podejmować Gemini intrakcję z obrazem wyświetlanym na ekranie telefonu. Deutsche Telekom wskazał możliwy kierunek rozwoju telefonów zamieniając cały telefon w chatbota. Telefon nie ma żadnych aplikacji i jest personalnym asystentem komunikującym się głosowo z użytkownikiem. Podstawą rozwiązania jest cyfrowy asystent z AI Perplexity ale ma być on otwarty również na m.in. Google Cloud AI, ElevenLabs, oraz Picsart. Południowokoreański startup Newnal zaprezentował nowy system operacyjny dla telefonów komórkowych, który wykorzystuje historyczne oraz bieżące dane użytkownika do stworzenia spersonalizowanego asystenta AI który ma docelowo stać się awatarem AI zachowującym się tak jak użytkownik.

Wszystkie wymienione jak również wiele innych rozwiązań łączy wykorzystanie technologii głosowych do dwustronnej komunikacji. Kierunek wskazany na MWC 2025 jest jasny – nasze działania będą wspierane przez awatary i boty komunikujące się z nami autonomicznie. Możliwość szybkiego, maszynowego potwierdzenia tego z kim rozmawiamy staje się wobec tego jeszcze ważniejsza niż kiedykolwiek wcześniej gdyż jakość autonomicznych systemów komunikacji głosowej nie daje gwarancji prawidłowej weryfikacji mówcy przez człowieka.

Fot. Andrzej Tymecki

 


Jak skutecznie wykrywać oszustwa na bazie głosu? Jak odróżnić głos prawdziwy od fejkowego, czyli np. tego wygenerowanego na bazie AI? Odpowiedź jest prosta. Do tego są potrzebne zaawansowane narzędzia z zakresu biometrii głosowej i szereg analiz. Publikujemy tu dwa przykłady, które jakiś czas temu poddaliśmy analizie w naszym laboratorium i dzięki autorskiemu algorytmowi oceniliśmy z bardzo dużym prawdopodobieństwem czy głos jest prawdziwy lub fałszywy oraz w jakim stopniu jest on spójny z głosem danej osoby.

Analizy dotyczą:

● rozpoznania głosu jednego z rosyjskich pranksterów Prezydenta Dudy udającego Prezydenta Macrona

● oceny zbieżności głosów aktorów Piotra Fronczewskiego i Filipa Pławiaka w filmie Rojst. Panowie grają w produkcji odpowiednio tę samą osobę (Kociołek) w wieku dorosłym oraz w młodości.

Dzielimy się z Wami wnioskami z tych eksperymentów.

Porównanie biometryczne głosów Fronczewskiego i Pławiaka.

Do tego celu użyliśmy 25 sekund łącznych wypowiedzi obu postaci, złożonych z kilku fragmentów ich oryginalnej mowy, na bazie oryginalnej ścieżki filmowej. Jaką uzyskaliśmy zgodność?
Wyniki analizy  pokazały, że głosy biometrycznie aktorów NIE są spójne. Pławiak wypowiedź vs Fronczewski VP  – tylko 15% zgodności, Fronczewski wypowiedź vs Pławiak VP – 11%, ale co ciekawe nie dostrzega się tych różnic na poziomie ucha. W naszym odbiorze głosy Pławiaka i Fronczewskiego są wręcz identyczne. I o to w konsekwencji tutaj chodzi.

Dla obu postaci płeć oraz narodowość zostały rozpoznane z minimalną niepewnością (wynik prawie 100%). Została również wykryta różnica wieku między postaciami, oszacowana  na 20 lat.

Analiza głosów rosyjskich pranksterów Władimira Kuzniecowa (Vovan) i Aleksieja Stoljarowa (Lexus) podszywających się pod Prezydenta Macrona.


W tym przypadku poddaliśmy analizie biometrycznej nagrania z głosami pranksterów i porównaliśmy je z głosem prawdziwego Macrona (w wersji zarówno polskiej jak i angielskiej). Wszystkie próbki głosu w postaci pojedynczych nagrań pobraliśmy z domeny publicznej You Tube. Naszym celem było potwierdzenie skuteczności systemów biometrycznych dla tej konkretnej sytuacji – identyfikację oszustwa.

Okazało się, że głos jednego z pranksterów „Lexusa” jest w niewiele ponad 50% spójny z głosem Prezydenta Francji natomiast aż w 97 % zgodny z głosem fałszywego prezydenta. Głos drugiego – „Vovana” nie wykazał żadnych podobieństw (0%) do fake’owego prezydenta.

 To jednoznacznie dowodzi, że dzięki biometrycznej analizie udało się nam:

● wykryć fakt,  i to zaledwie po upływie 1 minuty,  że w rozmowie brał udział fałszywy prezydent
● zidentyfikować  tożsamość fikcyjnego prezydenta (Lexus)
● potwierdzić, że domena publiczna jest bardzo dobrym źródłem próbek głosu, który może być wykorzystany nie zawsze w szczytnych celach  
● wzmocnić tezę, że najskuteczniejsze ataki to te z wykorzystaniem socjotechnik, a w tym przypadku był nią wybór odpowiedniego czasu, w którym Prezydent miał do czynienia z wzmożonym stresem (upadek rakiety). 

To tylko wybrane przykłady zastosowania specjalistycznych narzędzi biometrycznych do potwierdzania tożsamości osób. Implementowane w przyszłości mogą pomagać w wykrywaniu nadużyć na bazie głosu.

Zarejestrowano aż 230 milionów skradzionych tradycyjnych haseł mimo spełnionych standardowych wymagań dotyczących ich złożoności (min. 8 znaków, 1 wielka litera, 1 cyfra, i znak specjalny), podaje Specops Breached Password Report z 2025 r. To oznacza, że poziom tradycyjnych zabezpieczeń jest niewystarczający i potrzeba skuteczniejszych narzędzi do ochrony. Czy hasło biometryczne może okazać się bezpieczniejszym hasłem? Jak najbardziej tak!

Biometria jest bowiem jednym z bezpieczniejszych sposobów logowania gdyż bazuje na cechach biometrycznych osób takich jak twarz, źrenica oka czy głos. Identyfikatory biometryczne są unikalne dla danej osoby i stanowią wyróżnik na tle innych.

Wyższość biometrii polega wiec na jej niezrównanej dokładności i wygodzie. W przeciwieństwie do tradycyjnych metod, takich jak hasła czy PIN-y, które można łatwo zapomnieć lub ukraść, identyfikatory biometryczne są nierozerwalnie związane z człowiekiem. To nieodłączne powiązanie między osobami i ich cechami biometrycznymi znacznie utrudnia nieupoważnionym osobom podszywanie się pod inną osobę.


Przykładem bezpiecznego logowania z użyciem biometrii może być VoiceToken od BiometrIQ, czyli narzędzie do uwierzytelniania za pomocą głosu, które zapewnia bardzo silną, dwustopniową autentykację. Przypominamy jak ona się odbywa.


Podczas wypowiadania słów weryfikowane są jednocześnie zgodność odczytanych słów (pierwszy stopień) z wzorcem jak również biometryczna zgodność głosu mówcy z jego VoicePrintem (drugi stopień).
Niezmiernie wysokie bezpieczeństwo zapewnia algorytm wyboru słów do odczytania ograniczający niemalże do zera możliwość odgadnięcia sekwencji słów, która wyświetli się na ekranie. Mechanizm Speech To Text (STT) w połączeniu z innowacyjnym silnikiem biometrycznym gwarantują wysoką skuteczność, nawet w przypadku ataków na bazie syntezy mowy. Więcej o VoiceToken

Jesteście gotowi na zmiany?