Alina de la Microsoft, Carmen de la Amazon, Watson de la IBM… Iată ce e în spatele acestor nume

Probabil ai visat și tu la o lume în care să poți dicta totul mașinăriilor din jurul tău și să le controlezi complet prin voce, așa cum ai văzut în filmele SF. Avem acum tehnologii avansate care recunosc vocea umană, dar, din păcate, ele sunt axate pe limba engleză.

Ei bine, dacă folosești Microsoft Azure, află că tocmai s-a lansat Alina, robotul text-to-speech și speech-to-text în limba română. Alina îți stă la dispoziție dacă ai de transformat un fragment de text scris în fișier audio sau invers.

Alina de la Microsoft

Revistabiz.ro enumeră câteva posibile scenarii în care Alina de la Microsoft ar putea „juca”:

  • interacțiunea bazată pe voce cu asistenți digitali și roboți conversaționali;
  • preluarea mai eficientă a cererilor și reclamațiilor într-un call-center;
  • diseminarea de informații cu caracter public în instituții publice;
  • creșterea gradului de accesibilitate la informație pentru persoane cu deficiențe de vedere;
  • manipularea vocală a echipamentelor industriale.

Serviciile din categoriile text-to-speech și speech-to-text sunt disponibile în Microsoft Azure sub forma unor interfețe de programare (API) care pot fi integrate în orice fel de aplicații informatice. Partea de machine learning, cea mai dificilă și consumatoare de resurse computaționale, este gestionată integral de Microsoft Azure.

Carmen de la Amazon

Și Amazon are un „roboțel” care face voce din text și care poate transforma voce în text. După ce vă creați un cont nou la Amazon Web Services, mergeți la secțiunea de sintetizare de voce. Tastați sau lipiți textul în fereastră, alegeți limba și regiunea, alegeți o voce, apoi click pe „Listen to speech”. Dacă totul este în regulă, puteți descărca fișierul audio generat.

Serviciul pe Web pentru limba română, numit Carmen, are o singură versiune – voce de femeie, în timp ce unele limbi au variațiuni; de exemplu, în engleză, există diverse accente și diverse voci de femei și bărbați.

Am testat-o și noi pe Carmen, punând-o să citească începutul din „Scufița Roșie” și iată ce a ieșit:

Carmen poate fi folosită și în diverse scopuri profesionale. Ascultați-o aici ca voce peste un clip video educativ:

API de la Google

Google n-a dat un nume de persoană serviciului său de sintetizare vocală, așa că, în glumă, i-am dat noi numele API, abreviere despre care am scris mai sus. Pe baza unui API furnizat de Google, programatorii pot integra serviciul de voce în diverse aplicații externe.

Ca și celelalte aplicații de sinteză de voce, și cea de la Amazon se bazează pe codul SSML (Speech Synthesis Markup Language). Dacă marchezi textul tău cu anumite „etichete”, îi poți spune mașinii să pronunțe un cuvânt într-un mod anume, să pună accentul altfel sau să facă o anumită pauză între cuvinte.

Aplicația de la Google este mai greu de folosit, dar utilizatorii neexperimentați o pot testa într-o pagină demo. Din păcate, româna nu este printre limbile pe care să o recunoască acest motor de sintetizare a vocii.

Watson de la IBM

În versiunea gratuită a serviciului IBM Watson, poți sintetiza 10.000 de caractere de text pe lună, așa că ai grijă ce texte alegi! După epuizarea caracterelor incluse, tariful este de 0,0169 euro pe o mie de caractere. Serviciul este disponibil pentru cinci limbi, plus engleza care are două versiuni și spaniola cu trei. Din păcate, nici aici româna n-a fost băgată în seamă.

Iată un exemplu de voce sintetizată de Watson în portugheză:

IBM Watson Text to Speech oferă cel puțin o voce feminină pentru fiecare limbă. Fiecare voce folosește cadența și intonația potrivite dialectului respectiv.


În afară de aceste servicii, mai există și alte opțiuni pe care le puteți explora în această pagină.

Foto: Bokskapet (Pixabay)

George Hari Popescu:
Leave a Comment

Acest website foloseste cookie-uri