Thursday, November 21, 2024
Actualitat

El català supera l’anglès en hores enregistrades i validades a Common Voice

Softcatalà demana més col·laboració de dones, joves, gent gran i parlants de diferents variants dialectals per millorar el reconeixement de la llengua dels assistents de veu

El català s’ha convertit en la llengua amb més hores enregistrades i validades al repositori digital Common Voice, segons ha anunciat Softcatalà. El català ja té més de 3.500 hores enregistrades i 2.649 de validades i passa al davant de l’anglès en recursos digitals en aquesta base de dades que aplega talls de veu de totes les llengües del món a partir de la col·laboració de voluntaris per nodrir els programaris de reconeixement de veu i aconseguir, així, que els usuaris puguin interactuar amb robots o assistents de veu en la seva llengua. Just al darrere del català hi ha el ruandès i, a continuació, el castellà. En total, els talls de veu en català han generat 70,65 GB de dades.

Amb aquestes xifres, se supera amb escreix l’objectiu inicial d’obtenir 1.000 hores d’enregistraments de veu per desenvolupar tecnologies lingüístiques de veu per al català. L’objectiu final -diu Softcatalà- és arribar a 10.000 hores de talls de veu.

Softcatalà assenyala que, gràcies als avenços dels darrers anys en les tecnologies de la llengua, ja no calen 10.000 hores de dades de veu i text alineat per aconseguir “excel·lents resultats” en models de reconeixement de veu, però tenir un corpus encara més gran de dades sí que ajuda per desenvolupar tecnologies de la parla com l’AudioPaLM, de Google i el model Whisper d’OpenAI, que fan servir dades de Common Voice. 

L’entitat explica que el 2023 més de vint articles científics van fer servir aquestes dades per fer estudis i recerca en tecnologies de la llengua i que hi ha molts més projectes que se’n serveixen, però no se’n sap el nombre perquè, com que les dades tenen llicència CC0, tothom pot utilitzar-les sense haver de citar-ne la font.

Per millorar els resultats de totes aquestes eines, Softcatalà recorda que cal més varietat en els tipus d’àudios (converses, xerrades, diàlegs…) que amb Common Voice no es poden cobrir perquè està pensant per a frases curtes. En el cas del català hi ha, a més, una sobrerepresentació de parlants homes de mitjana edat de l’àrea metropolitana de Barcelona i un dèficit de veus femenines, joves, velles, i de parlants valencians, balears, rossellonesos i nord-occidentals.

Per al 2024, l’entitat s’ha proposat arribar a les  300 hores d’enregistrament de veu de la varietat valenciana, a 100 hores de la balear, 200 hores de la nord-occidental i 100 hores de rossellonès. Pel que fa als segments de població, l’objectiu és tenir 300 hores de veus joves (menys de 30 anys) 1.000 de veus femenines i 300 de veus d’edat avançada (més de 70 anys).

El nombre de talls de veu en català a Common Voice ha arribat a la primera posició del rànquing de llengües gràcies a l’impuls del projecte Aina, de les Secretaries de Política Lingüística i Polítiques Digitals de la Generalitat de Catalunya, del govern de les Illes Balears, del projecte Vives i d’entitats com Òmnium Cultural i Plataforma per la Llengua.

Qui vulgui col·laborar en el projecte pot donar veu o validar talls a través d’aquest web.

Foto: R. G. A.

Leave a Reply

Your email address will not be published. Required fields are marked *

Verified by ExactMetrics