Sunday, September 8, 2024
Actualitat

Aina presenta el primer model de síntesi de veu en les principals variants de la llengua

El projecte ofereix interpretació de text a veu en català central, nord-occidental, balear i valencià

El projecte Aina d’intel·ligència artificial i tecnologies del llenguatge ha presentat, coincidint amb la diada de Sant Jordi, el primer model de síntesi de veu en les principals variants dialectals del català. L’eina, que porta el nom de Matxa, és la primera solució tecnològica publicada com a model lingüístic en obert que ofereix interpretació de text a veu (Text To Speech/TTS) en català central, nord-occidental, balear i valencià.

El projecte suposa un avenç en la diversitat dialectal de la llengua catalana en la síntesi de veu i un pas endavant en termes de rendiment i qualitat, ja que manté la naturalitat i les característiques de les veus escollides per entrenar-lo. Segons assenyala al web d’Aina l’investigador del BSC, especialitzat en veu, Baybars Külebi, es tracta “d’un recurs innovador que posa a disposició de tothom recursos digitals que tenen en consideració la pluralitat del català”.

Matxa està disponible en línia a Hugging Face, la comunitat d’intel·ligència artificial amb recursos de codi obert, des d’on pot ser posat a prova i executat. La tecnologia desenvolupada per la Unitat de Tecnologies del Llenguatge del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) s’entrena amb diferents datasets o conjunts de dades, entre els quals es troba el Festcat, l’OpenSLR69 o el recentment creat Frescat que inclou enregistraments en quatre variants dialectals i 8 parlants diferents.

El projecte es basa en la combinació de les arquitectures Matcha-TTS i Vocos que destaquen per la seva novetat i temps d’execució molt baixos a través de xarxes neuronals. El sistema de dialectes ha estat configurat i entrenat a través del nou superordinador MareNostrum 5 i FinisTerrae III del Centro de Supercomputación de Galicia (CESGA).

El nou conjunt de dades Frescat és pioner en l’àmbit dels recursos digitals en català, ja que incorpora fins a vuit parlants amb diferents característiques. En total, dues veus per a cada un dels principals dialectes. El dataset es farà públic en les pròximes setmanes perquè els usuaris se’l puguin descarregar i fer-ne ús. De moment, es poden fer proves del model a través de la demo pública de Matxa.

El projecte Aina, impulsat i finançat per la Generalitat de Catalunya, té com a objectiu situar el català en el món digital al mateix nivell que altres llengües globals com ara l’anglès perquè les empreses que creen aplicacions basades en intel·ligència artificial, com ara assistents de veu, traductors automàtics, agents conversacionals, etc, puguin fer-ho fàcilment en català. Aina, a través del BSC, ja treballa amb empreses i institucions per oferir solucions específiques de la mà de les eines d’intel·ligència artificial desenvolupades al centre.

Leave a Reply

Your email address will not be published. Required fields are marked *

Verified by ExactMetrics