Limba Masina: cum Siri preia vocea ta?
Makradar De Tehnologie / / December 19, 2019
Google, Apple, Microsoft, chiar și Amazon sunt în curs de dezvoltare în mod activ serviciile de voce. Proaspăt coapte pe iOS 7 este același Siri, numai noi funcții și... vocea. Vă întrebați cum este acest proces? Ca calculatoare sunt predate de vorbire? acest adevarata arta.
Pentru fiecare dintre vocile Siri - actorul. După ce și-a încheiat rolul său în articulația, lucrarea abia a început... Vocea omului își continuă călătoria. Povestea acestei călătorii, atât de om și de robot - una dintre cele mai complexe procese tehnologice, care nu a putut fi efectuată în urmă cu zece ani.
Hai să ne facem cunoștință cu directorul de design și dezvoltare de voce Nuance, este una dintre cele mai mari companii independente din lume, care se ocupă de recunoaștere a vorbirii și a textului în vorbire. Brant Ward (J. Brant Ward) folosit pentru a fi un compozitor, compune partidul pentru cvartete de coarde la sintetizatoare, iar acum el compune folosind voci sintetice. El lucrează în industria de discursul de sinteză în Silicon Valley de peste un deceniu.
Text de vorbire - o industrie foarte competitivă, iar angajații săi este foarte secretos. Deși lumea și consideră că Nuance creează vocea lui Siri pentru, Ward și colegul său David Vasquez (David Vazquez) evita un răspuns direct. Cu toate acestea, au fost de acord să explice, cel puțin în termeni generali, modul în care procesul de creare a unei uimitoare voturi mașină.
Inutil să spun, nu este nevoie să articuleze și să scrie fiecare cuvânt din dicționar. Dar când este vorba de cerere, care ar trebui citit nici o veste în buletinul informativ sau a găsi ceva pentru tine pe internet, este pur și simplu obligat să vorbească fiecare cuvânt în dicționar.
Cele mai multe dintre propunerile sunt selectate pe un „fonetică avere“ - adică, ele conțin mai multe combinații diferite de foneme. „Adevărul este că, mai multe date pe care le avem, cu atât mai realist rezultatul va fi“, - spune Ward.
După textul este înregistrat actor de voce viu (un proces plictisitor, care poate dura mai multe luni), începe o muncă foarte grea. Cuvintele și propoziții sunt analizate, împărțite pe categorii și înregistrate într-o bază de date de mari dimensiuni. În această lucrare complexă a implicat o echipă de lingviști dedicate, precum și utiliza software-ul propriu lingvistic.
Când toate se face acest lucru, unitatea de Nuance pentru a traduce text în vorbire creează cuvinte biți și expresii pe care actorul poate de fapt, n-am rostit, dar sună foarte asemănător cu discursul actorului, deoarece punct de vedere tehnic este vocea actor.
Procesul de vorbire este inconștient. Noi o facem fără să se gândească despre modul în care are loc acest proces: situația în care este limba noastră, care relațiile sunt construite între foneme, și așa mai departe - să ușor și eficient exprima idei complexe și emoții. Dar pentru că computerul a luat sunetul vocilor umane, trebuie să se ia în considerare toți acești factori. Ca un profesor de lingvistică, este sarcina „Titanic“.
Nu trebuie să se gândească: „Eu vorbesc cu un computer.“ Tu, în general, nu trebuie să se gândească la asta.
„Copiii mei interacționează cu Siri, ca și cum ar fi fost o creatură vie... Ei nu simt diferenta,“ - spune Ward.
Până în prezent, și prietenia dintre oameni și roboți - cum ar fi oameni. Mulți oameni ar dori, dacă Siri poate recunoaște starea emoțională a vorbitorului, și într-un fel reacționează la acesta (de exemplu, includ un mod de voce liniștitor). Imaginați-vă - pentru a vorbi cu robot, care este moral te mângâi pe cap. Poate, Nuance este deja gândesc la asta ...