L’Aina impulsarà la llengua al món digital
El govern de Catalunya engega un projecte per garantir la comunicació en català amb les màquines
El govern català ha presentat aquest dijous l’Aina, un projecte que pretén situar el català en el món digital al mateix nivell que altres llengües globals com ara l’anglès. El projecte, que té un pressupost de 15,5 milions d’euros i es finançarà amb els fons europeus NextGenerationEU, arrencarà amb una aportació inicial del Departament de Polítiques Digitals de 250.000 euros i tindrà com a primer objectiu crear un corpus lingüístic perquè les empreses que creen aplicacions basades en intel·ligència artificial, com ara assistents de veu, traductors automàtics, agents conversacionals, etc, puguin fer-ho fàcilment en català, segons ha explicat el conseller de Polítiques Digitals, Jordi Puigneró.
El Centre de Supercomputació de Barcelona (BSC), la instal·lació on hi ha el superordinador Mare Nostrum, ja disposa d’un primer corpus textual del català de 1.770 milions de paraules, reunides en 95 milions de frases, amb les diferents variants dialectals i de registre. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (webs, arxius…), netejar-los i esborrar duplicitats. La Generalitat de Catalunya ha proveït tota la informació de les seves pàgines web i del Diari Oficial de la Generalitat (DOGC), fet que ha suposat el 33% de tots els continguts descarregats. La Corporació Catalana de Mitjans Audiovisuals aportarà, a més, tot el seu repositori documental.
Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè aprenguin el català i generin models de la llengua, de la parla i per a la traducció. Aquests models seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel·ligència artificial com assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres. Tots els models que crearà el BSC estaran a disposició de totes les empreses o entitats que les vulguin fer servir, ja que es publicaran en obert.
Les tecnologies de veu són presents en activitats de la vida quotidiana com les ordres de veu al telèfon mòbil, la interacció amb assistents virtuals i les les indicacions del navegador GPS, i cada cop ho seran més en accions com parlar amb electrodomèstics o el cotxe. El català encara està molt per darrere en aquest àmbit respecte de llengües com l’anglès, el castellà i el francès. Actualment, hi ha diversos projectes en marxa per facilitar que les màquines entenguin el català com el Common Voice, de Softcatalà i Mozilla.
El nou projecte de la Generalitat ha estat batejat amb el nom d’Aina en homenatge a la filòloga menorquina Aina Moll, primera directora general de Política Lingüística de la Generalitat de Catalunya del 1980 al 1988 i artífex de la campanya El català, cosa de tots, que tenia com a cara visible el personatge de la Norma.