Dobiega końca 1 etap projektu Vesper. Uruchomiliśmy wersją testową komunikatora z zaimplementowanym modułem detekcji prawdziwości źródła strumienia głosowego dalekiego końca. Testy są prowadzone na 3 różnych środowiskach Win, Android oraz iOS. Otrzymane wyniki są zgodne z KPI projektu. Pracujemy aby wskaźniki jakościowe spełniały nie tylko min. projektowe, ale o ile to możliwe przewyższały założone cele. Naszym priorytetem jest przygotowanie produktu, odpowiadającego potrzebom użytkowników w celu budowania ich pozytywnych doświadczeń.

Eksperymenty prowadzimy na bazie 40 mówców, dla 20 sekundowych nagrań, testując każde nagranie dla 5 kanałów, otrzymując ponad 171 500 embedingów. Przygotowana w ten sposób liczba konfiguracji nagrań ma pomóc osiągnąć docelowe parametry czym potwierdzimy skuteczność naszego komunikatora.

Komunikator Vesper ma być odpowiedzią na nasilające się problemy związane z cyberbezpieczeństwem i kradzieżą tożsamości.

Więcej o projekcie https://biometriq.pl/vesper-bezpieczna-platforma-komunikacji-glosowej-z-integracja-uslug-biometrycznych/

Wystawa upłynęła pod znakiem wszechobecnej AI. Wiele firm zaprezentowało swoje najnowsze osiągnięcia w konstruowaniu systemów komunikujących się autonomicznie z ludźmi. Ogromne zainteresowanie wzbudził humanoidalny robot Ameca (Etisalat) wchodzący w interakcję ze swoimi rozmówcami. Stoiska z interaktywnymi agentami (Amdocs) oferowały wręcz nieprawdopodobną jakość obrazu oraz mowy generowanej przez systemy.

Google zaprezentowało Gemini Live, stanowiący odpowiedź na tryb głosowy ChatGPT. Gemini Live posiada funkcję Share Screen With Live, która pozwala podejmować Gemini intrakcję z obrazem wyświetlanym na ekranie telefonu. Deutsche Telekom wskazał możliwy kierunek rozwoju telefonów zamieniając cały telefon w chatbota. Telefon nie ma żadnych aplikacji i jest personalnym asystentem komunikującym się głosowo z użytkownikiem. Podstawą rozwiązania jest cyfrowy asystent z AI Perplexity ale ma być on otwarty również na m.in. Google Cloud AI, ElevenLabs, oraz Picsart. Południowokoreański startup Newnal zaprezentował nowy system operacyjny dla telefonów komórkowych, który wykorzystuje historyczne oraz bieżące dane użytkownika do stworzenia spersonalizowanego asystenta AI który ma docelowo stać się awatarem AI zachowującym się tak jak użytkownik.

Wszystkie wymienione jak również wiele innych rozwiązań łączy wykorzystanie technologii głosowych do dwustronnej komunikacji. Kierunek wskazany na MWC 2025 jest jasny – nasze działania będą wspierane przez awatary i boty komunikujące się z nami autonomicznie. Możliwość szybkiego, maszynowego potwierdzenia tego z kim rozmawiamy staje się wobec tego jeszcze ważniejsza niż kiedykolwiek wcześniej gdyż jakość autonomicznych systemów komunikacji głosowej nie daje gwarancji prawidłowej weryfikacji mówcy przez człowieka.

Fot. Andrzej Tymecki