Hlasová biometrie. Technologie, které se neubrání ani nejlepší imitátoři

Brněnská společnost Phonexia patří mezi ukázkové příklady úspěšného univerzitního spin-offu. V roce 2006 ji založili vědci z Vysokého učení technického a dnes je z ní rychle rostoucí poskytovatel hlasové biometrie a analytiky řeči. Její marketingový ředitel Miroslav Jirků v rozhovoru pro Roklen24 vysvětluje, proč mají technologie založené na rozpoznávání řeči světlou budoucnost.

Na jaké technologie se vaše společnost zaměřuje?

Vyvíjíme dva produkty a každý se skládá z několika technologií. Tím první je hlasová biometrie, což je rozpoznání řečníka a jeho vybraných atributů podle hlasu. Dokážeme rozpoznat, zda se jedná o určitou konkrétní osobu, identifikovat pohlaví a jazyk, a dokážeme taky odhadnout věk dané osoby.

Druhým produktem je řečová analytika, kde je důležitý obsah řeči. Z audionahrávky, ať se už jedná například o telefonický hovor nebo záznam z mikrofonu, vytvoříme přepis do textu.

V hlasové biometrii jde tedy o to, kdo mluví, v řečové analytice se soustředíme na obsah řečeného. Oba produkty se dají libovolně kombinovat.

Jaké je jejich konkrétní využití?

Řečová analytika často nachází využití v call centrech finančních institucí, mobilních operátorů nebo cestovních kanceláří. Mezi klienty máme i poskytovatele energií.

Naše technologie pomáhají ve zlepšování kvality jejich služeb, především jde o přepis rozhovorů a jejich následnou analýzu. Konkrétně jde například o identifikaci stížností zákazníků, sledování dodržování skriptu, nalezení příležitostí pro upselling a získání dalších užitečných informací, které supervizor v call centru nemá šanci slyšet. Záznamů rozhovorů je totiž tolik, že v praxi je možné manuálně poslechnout jen asi 1-3 procenta z nich. Naše technologie je umožňuje automatizovaně analyzovat všechny.

Díky tomu si tak společnosti třeba můžou lépe všímat nebezpečných trendů. V analytikách například vidíte zvýšenou frekvenci slov nějakého konkurenčního produktu. Daná firma tak může snadno zjistit, že jí někdo ukrajuje z jejího koláče a který konkrétní konkurent se kterým produktem to je.

Naše produkty také pomáhají rychlejšímu učení operátorů. Dá se například poznat, jak dlouhé mezery operátor v rozhovoru dělá. To může znamenat, že nezná odpověď. Díky přepisu systém pozná, jakého tématu se otázka zákazníka týká a může v reálném čase operátorovi zobrazovat podpůrné informace na monitoru. Řečová analytika navíc dokáže určit, jestli operátor nemluví moc rychle nebo jestli klientovi neskáče do řeči.

Jsou nějaké další oblasti, ve kterých se hlasová biometrie dá použít?

Ano, hlasová biometrie slouží například k prevenci proti podvodům u tzv. mikropůjček sjednávaných po telefonu. Poskytovatelé mikropůjček mohou využít hlasovou biometrii jako detekci takových žádostí, u kterých se volající se stejným hlasem opakovaně představuje pod více než jednou identitou. Další oblastí je autentifikace volajícího v bankách. Banka tak může nabídnout pohodlnější ověření po telefonu, namísto aby vyžadovala číslo smlouvy nebo jiný identifikační údaj, který zákazník zpravidla neví.

Ve veřejném sektoru pak naše technologie pomáhají forenzním expertům a kriminalistům při vyšetřování trestných činů. Ti mohou využít porovnávání hlasových nahrávek obžalovaných s pachateli trestných činů.

Dokáže se vaše technologie vypořádat s tím, kdy má někdo dočasně změněný hlas například kvůli nemoci? Anebo pokud se někdo snaží mluvit jinak, aby se mohl vydávat za někoho jiného?

Ano, dokáže. Matematický model vytvořený z vašeho hlasu je v podstatě charakteristika vašeho hlasového ústrojí. Takže když se třeba budete snažit mluvit vyšším hlasem, změníte tím pouze jeden z několika stovek parametrů.

I když někoho imitujete, je to pro naše systémy shoda s imitovanou osobou maximálně v řádu jednotek procent. Naopak, jestliže se jedná o stejného řečníka, je shoda většinou více než 95 procent. I ti nejlepší imitátoři se dostávají maximálně na desetiprocentní shodu. Oni totiž nedokáží imitovat hlasové ústrojí. Oni umí napodobit jen některé charakteristiky, které jsou člověku dobře slyšitelné, a tedy zapamatovatelné.

Kde jsou vaše hlavní trhy?

Skrze naše partnery máme projekty ve více než šedesáti zemích. Našimi hlavními trhy jsou Evropa, jihovýchodní Asie, severní Amerika, velmi slibně se nám vyvíjí i jižní Amerika. Nejsilnější jsme samozřejmě v České republice, což je náš domovský trh.

Kdo patří mezi vaše zákazníky?

K našim koncovým zákazníkům patří například O₂, T-Mobile, Škoda Auto nebo třeba Bundeskriminalamt – německá obdoba FBI.

Jaká je vlastně pozice vaší společnosti vůči službám jako Amazon Alexa nebo hlasové ovládání Google? Jsou to Vaši konkurenti, nebo se na trhu naopak vůbec nestřetáváte?

Prakticky se nestřetáváme. Tyto společnosti hlasovou biometrii komerčně nenabízejí. Pokud jde o přepis řeči, Google ho má jako cloudové řešení. Nicméně sektor, do kterého dodáváme my, preferuje řešení „on premise”. To znamená, že procesování, záznam a přepis se ukládá na serverech klienta. A obzvlášť s nástupem GDPR finanční instituce nechtějí sdílet přepisy klientských rozhovorů včetně citlivých osobních údajů s nějakými třetími stranami, například s Googlem.

Když už jste zmínil Asii, zde se nacházejí země se složitými jazyky, jako například čínština nebo japonština. Hraje nějak obtížnost jazyka roli v identifikaci hlasu?

Dokážeme identifikovat řečníka mluvícího kterýmkoli jazykem, i čínsky. Dokonce i pokud by byl hlasový otisk pořízen třeba v češtině a mluvčí později mluvil anglicky, s identifikací nebude problém. Hlasová biometrie totiž poskytuje informaci o fyziologii řečníka, o jeho hlasovém ústrojí.

Naším dalším produktem je přepis řeči do textu a tady už hraje jazyk naprosto zásadní roli. Některé jazyky umíme, jiné zatím ne. Každý jazyk se pro přepis trénuje zvlášť.

Je nějaká minimální požadovaná délka audiovzorku, aby se s ním dalo pracovat?

Ano. Na vytvoření spolehlivého hlasového otisku je ideální délka třicet sekund. Při vyšetřování ale tak dlouhý vzorek často nemáte, a tak s kratší nahrávkou klesá spolehlivost automatizované identifikace řečníka.

Jak je to vlastně s hlasovým otiskem jednovaječných dvojčat? I ta mají rozdílné otisky prstů. Je to stejné i s hlasem?

Když se narodí, mají zřejmě zaměnitelný hlasový otisk. Ale jak se jejich fyziologie mění s věkem, začnou se jejich hlasové otisky rozcházet. Jedno z nich si například projde nemocí, zatímco to druhé ne. Pravděpodobně budou mít jinak rostlé zuby, jedno může mít odstraněné mandle, jedno může později začít kouřit, zatímco to druhé ne. A to se už bavíme o jejich dospělosti. Nicméně toto rozcházení pravděpodobně začne už v dřívějším věku, třeba v pubertě.

Četl jsem, že jste na 99,99 procentech přesnosti detekce hlasu. Dá se dostat na sto procent, případně už jste tam jste? Pokud ne, co tomu brání?

Tato technologie je založena na statistických modelech, a tak je třeba počítat s určitou statistickou odchylkou. Těch sto procent je v podstatě v praxi nereálné. Ke stoprocentní přesnosti detekce hlasu by mohlo dojít pouze za naprosto ideálních podmínek, ty ale nikdy nenastanou.

Stoprocentní přesnost v podstatě ani není cílem. Spíš jde o to, že systémy hlasové biometrie dokáží být čím dál přesnější v běžných, tedy neideálních podmínkách.

Jak byste laikovi vysvětlil fungování hlubokých neuronových sítí (Deep Neural Networks – DNN), které používáte v hlasové biometrii?

Jedná se o výpočetní model, ve kterém je předobrazem biologická struktura, jak ji známe z přírody. Sítě mají schopnost se učit a následně situaci samy vyhodnocovat.

Mluvíme-li o hlasové biometrii, systém se trénuje na stovkách sad nahrávek, kde u každé z nich je řečník známý. Na těchto sadách se učí, které parametry jsou při porovnávání klíčové. Poté je systém sám schopen poznat vzorky hlasu od stejného řečníka, aniž by mu to někdo řekl.

Podobným způsobem se systémy trénují na přepis řeči do textu. Když to hodně zjednoduším, systém se natrénuje na zhruba stovce hodin audiozáznamu řeči. Tento záznam musí být anotovaný (řeč musí být přepsaná do textu). Systém se z toho sám naučí, co a jak zní, a pak dokáže udělat přepis sám. Toto učení dnes probíhá především díky neuronovým sítím.

Loni vám obrat vzrostl o 90 procent na 49,33 milionu korun. Očekáváte podobně rychlý růst i letos?

Ano, očekáváme.

Jak vlastně funguje spolupráce s vašimi partnery?

My dodáváme základní technologie – platformu, která umí přepis řeči, rozpoznání řečníka, jeho věku a pohlaví a rozpozná použitou řeč. Naši partneři pak některé nebo všechny z těchto technologií integrují do komplexního řešení pro konkrétního koncového zákazníka.

Kdo jsou vaši hlavní partneři?

Je jich mnoho, u nás jsou to například společnosti Dimension Data, Comdata Group, Tovek nebo Retia.

V čem spočívá technologie Deep Embeddings, kterou jste představili letos na jaře?

Je to technologie, která jako první na světě využívá výhradně hluboké neuronové sítě pro identifikaci a ověření mluvčího. Důležité je to slovo „výhradně“.

Díky tomu se našemu vývoji podařilo vytvořit systém, který je dvakrát rychlejší a 2,4krát přesnější a má sedmkrát nižší nároky na operační paměť počítače. Navíc má velký potenciál na další zlepšování.

Kde vidíte budoucnost řečových technologií?

Jsme velmi optimističtí ohledně budoucnosti řečových technologií. Hlas je totiž pro člověka ten nejpřirozenější komunikační prostředek.

Věřím, že se hlasová analytika v kombinaci s hlasovou biometrií bude rozšiřovat v call centrech. V hovorech se zákazníky se totiž skrývá obrovské množství cenných dat, ale většina call center je systematicky neanalyzuje. Další oblastí budou virtuální osobní asistenti ovládaní hlasem. Ti najdou svoje využití v kancelářích, domácnostech, ale třeba i v Průmyslu 4.0. Také se dá očekávat, že dojde k rozšíření tzv. voicebotů, tedy mluvících chatbotů. Když jako zákazník budete volat do call centra banky nebo třeba do restaurace, nebude s vámi mluvit živý operátor, ale právě voicebot.

Co se týká Internetu věcí, bude existovat řada malých zařízení ovládaných hlasem, ke kterým klávesnice už ani nepůjde připojit. Hlasové ovládání tak bude často jediná možnost.

Miroslav Jirků působí řadu let na marketingových pozicích v různých úspěšných společnostech, jako například AVAST, AVG nebo Kentico Software. Do společnosti Phonexia nastoupil na pozici viceprezidenta pro marketing v říjnu 2017.

Hlasová biometrie. Technologie, které se neubrání ani nejlepší imitátoři

Nejčtenější

Úroková sazba je schopna ruinovat životy i kariéry

Berka&Peterka: Koupit eura teď, nebo počkat?

Může situace v Izraeli negativně ovlivnit korunu?

Jak vznikla krize komerčních nemovitostí a jak ovlivní banky?

Chaotické první čtvrtletí na trzích. Ne vše je zalité sluncem

Akciové portfolio Tomáše Vranky: Čas přidat bitcoin?

Newsletter

Hlasová biometrie. Technologie, které se neubrání ani nejlepší imitátoři

Nejčtenější

Úroková sazba je schopna ruinovat životy i kariéry

Berka&Peterka: Koupit eura teď, nebo počkat?

Může situace v Izraeli negativně ovlivnit korunu?

Jak vznikla krize komerčních nemovitostí a jak ovlivní banky?

Chaotické první čtvrtletí na trzích. Ne vše je zalité sluncem

Akciové portfolio Tomáše Vranky: Čas přidat bitcoin?

Newsletter

Buďte vždy v obraze! Přihlaste se k odběru newsletteru ještě dnes