El català supera les 3.000 hores de talls de veu a Common Voice i és la segona llengua amb més enregistraments
Plataforma per la Llengua impulsarà una campanya per fer augmentar el nombre de gravacions per a la intel·ligència artificial
El català ha superat ja les 3.000 hores de talls de veu enregistrades al repositori digital de Common Voice i ja és a només 200 hores de substituir l’anglès com la llengua amb més hores gravades en aquest projecte impulsat per Mozilla Foundation. El català ja ocupava la segona posició des de fa uns mesos i ara també ha passat per davant del ruandès en nombre d’hores validades. Plataforma per la Llengua ha anunciat que s’implicarà a partir d’ara en la recollida de veus per facilitar que les empreses incorporin el català com a llengua de reconeixement i reproducció de veus en els electrodomèstics i en altres objectes d’ús quotidià amb intel·ligència artificial.
Common Voice és un projecte digital que vol aplegar un repositori de talls de veu de totes les llengües del món a partir de la col·laboració de voluntaris que facin una aportació de veu o validin l’enregistrament d’altres usuaris. Aquesta base de dades lliure està segmentada per gènere, edat i variant dialectal, i permet descarregar les veus a qui vulgui desenvolupar i millorar programaris de reconeixement de parla, com ara robots domèstics o assistents de veu.
La descàrrega de veus es pot fer de manera gratuïta i en llicència CC0, l’oferiment al domini públic sense drets d’explotació. Common Voice, que ja compta amb 136 llengües, va ser creat l’any 2017 per Mozilla Foundation i ha estat impulsat als territoris de parla catalana per Softcatalà. Posteriorment, el 2020, es va integrar com a eix de treball del projecte Aina, una iniciativa de la Generalitat de Catalunya i el Barcelona Supercomputing Center, amb la col·laboració del Govern de les Illes Balears, que el va fer créixer de manera significativa.
Amb l’objectiu de fer créixer encara més el català a Common Voice, Plataforma per la Llengua impulsarà una campanya per aconseguir moltes més donacions de veu i fer que, a curt termini, el català assoleixi la primera posició en la classificació de llengües amb més hores enregistrades. Per tal d’aconseguir prou representació d’aquells dialectes, gèneres i grups d’edat infrarepresentats fins ara a la base de dades, la campanya combinarà una forta activitat digital amb actes presencials de recollida de veu que facilitaran que les persones més allunyades del món digital també puguin participar-hi. Això permetrà, per exemple, augmentar el percentatge de veus de gent gran a la base de dades.
Els detalls de la campanya es faran públics aviat, però ja es pot anunciar que arrencarà el divendres 14 d’abril al Palau Blaugrana, en el marc del partit de l’Eurolliga de bàsquet Barça-València, i que continuarà amb un segon gran acte durant el partit de lliga entre el Barça i el Reial Madrid. Per al primer partit, l’entitat disposarà d’algunes entrades amb descompte per als seus socis.