L’aranès s’incorpora al projecte Aina
L’Institut d’Estudi Aranesi cedirà dades de veu, text i metadades al Barcelona Supercomputing Center per desenvolupar models lingüístics en occità
El projecte Aina d’impuls al català en les tecnologies de reconeixement de veu incorporarà, per primer cop, l’aranès a la seva base de dades amb l’objectiu d’estendre a l’occità el pla perquè les màquines entenguin i parlin les llengües de Catalunya. L’Institut d’Estudi Aranesi (IEA-AALL) cedirà dades de veu, text i metadades al Barcelona Supercomputing Center (BSC-CNS) que serviran perquè Aina desenvolupi models lingüístics en la llengua occitana pròpia de l’Aran coordinat amb la Unitat de Tecnologies del Llenguatge del centre.
La col·laboració preveu que el BSC pugui preprocessar les dades per tal d’integrar-les al corpus d’Aina. Les dades que hi ha disponibles a Hugging Face són fonamentals per a l’entrenament dels models i de les Tecnologies del Llenguatge (TL). Serà a través d’aquest recursos que Aina desenvoluparà model lingüístics també en aranès.
El president de l’IEA-AALO, Jèp de Montoya, ha qualificat l’acord de “pas que pot comportar un avenç important per al desenvolupament de tecnologies en llengua occitana que puguin facilitar l’estudi i anàlisi lingüístic així com una major difusió i foment de la llengua a través d’aplicacions de redacció de textos o correcció automàtica, entre altres”.
El Projecte Aina es proposa esdevenir una eina clau per a l’impuls de llengües amb pocs recursos digitals com l’occità. Els sistemes d’intel·ligència artificial ofereixen una possibilitat única d’enfortir la presència d’aquestes llengües en l’àmbit digital.
De forma paral·lela a la col·laboració entre l’IEA-AALO i el BSC-CNS, la cooperativa Col·lectivaT, amb la col·laboració dels la Universitat de Lleida (UdL) i el suport financer de la Generalitat, està recollint ’enregistraments de veu en aranès de participants de diverses edats, registres i accents. Els impulsors del projecte Araina s’han proposat tenir almenys cent hores de gravació per poder crear els primers prototips de sistemes de la parla. Tot aquest procés de recopilació es realitza a través de la plataforma oberta Common Voice de Mozilla, com es fa amb el projecte Aina.
Foto: Barcelona Supercomputing Center