Gravar la veu ara i fer-la servir en un futur
Enviat per FLASHTICSALUT 01/10/2009
L'ús i el desenvolupament de les noves tecnologies ajuda a fer front a les conseqüències de diferents malalties, com per exemple la pèrdua progressiva de la parla. Anteriorment a que desaparegui la capacitat de modular sons de forma intel·ligible, és possible registrar la pròpia veu a fi de fer-la servir en el futur.
Aquest article realitza una descripció global de l'estat de l'art en relació amb la síntesi de veu i incorpora les principals referències disponibles al sector. Ofereix a més, una sèrie de recomanacions per optimitzar el registre d'un banc de veus destinades a tothom qui bé per necessitat, bé per interès, necessiti o vulgui aprofundir en l'esmentat àmbit de coneixement.
Font: ACNR_Advances in Clinical Neuroscience & Rehabilitation
L’ús i desenvolupament de noves tecnologies ajuda a fer front a les conseqüències de diferents malalties, com per exemple la pèrdua progressiva de la parla. Anteriorment a que desaparegui la capacitat de modular sons de forma intel·ligible és possible registrar la nostra veu per utilitzar-la en el futur. De les diferents tipologies de síntesi de veu, la més bàsica consisteix a reproduir frases registrades amb anterioritat. Tanmateix, aquesta aproximació limita la informació reproduïble a la capacitat d’emmagatzemament i a allò prèviament hagi quedat registrat.
Una segona opció, més versàtil, és el denominat enfocament concatenatiu. Com el seu nom indica, consisteix a unir o enllaçar uns sons amb d’altres per a reproduir qualsevol paraula desitjada en l’idioma en el qual s’hagi realitzat l’enregistrament inicial. Comparada amb el registre per frases, aquesta modalitat aconsegueixi una parla més natural i intel·ligible. Entre els productes que usen aquesta tecnologia podem destacar ModelTalker: es tracta d’un programari gratuït de síntesi de veu dissenyat per beneficiar totes aquelles persones que estiguin perdent o hagin perdut ja la seva capacitat per parlar. D’aquesta manera, poden comunicarse mitjançant una versió sintètica de la seva pròpia veu, o bé a través de la veu sintètica disponible al banc de veus que millor els representi. La veu sintètica generada és virtualment il·limitada, pot generar qualsevol expressió, incloent paraules o frases que no hagin estat prèviament enregistrades.
La tercera aproximació a la síntesi vocal es basa en els denominats models de Markov. Destaca per oferir una entonació més robòtica, però que globalment genera expressions més consistents que el mètode per concatenació. De la mateixa manera els paràmetres que constitueixen la veu resultant són molt més fàcils de manipular, i en conseqüència, pot ajustar-se més fàcilment a la veu i necessitats de l’usuari. Un altre avantatge d’aquesta tècnica és que la quantitat de dades necessàries per a produir un resultat de qualitat són considerablement inferiors a la resta —7 minuts de discurs continuat, unes cent expressions, són suficients.
Una altra línia d’investigació que promet resultats esperançadors l’està desenvolupant actualment el CAST (Clinical Applications of Speech Technology) de la Universitat de Sheffield. Aquest grup de treball investiga com emmagatzemar i reproduir posteriorment veus quan el procés de deteriorament de la veu de la persona ja ha començat. L’algoritme, en aquest cas, manté els elements que caracteritzen i identifiquen la veu del parlant mentre que els trets que han quedat més afectats per la malaltia se substitueixen per altres de qualitat suficient. Com pot entreveure’s, les aplicacions són múltiples i esperançadors per a totes les persones afectades per les malalties que produeixen la pèrdua de la capacitat de parlar.
Referència bibliogràfica
S. Creer, P. Green, S. Cunningham (Maig-Juny 2009) Voice Banking. ACNR_Advances in Clinical Neuroscience & Rehabilitation, Volum 9, Nombre 2. [accés 24 d’agost de 2009]. Disponible a: http://www.acnr.co.uk/may_june_09/ACNRMJ09_rehab_voice.pdf