InicioSOCIEDADEl entrenamiento del LLM estatal (ALIA) solo cuenta con un 20% de...

El entrenamiento del LLM estatal (ALIA) solo cuenta con un 20% de datos en castellano y lenguas cooficiales

Publicada el


El volumen de datos en castellano y lenguas cooficiales del Estado que se ha utilizado para el entrenamiento del modelo de lenguaje (LLM, ‘large language model’, en inglés) de inteligencia artificial (IA) impulsado por el Gobierno, denominado ALIA, tan solo alcanza el 20%, mientras que el 80% restante lo conforman distintos idiomas, con predominio del inglés (39,31%).

En concreto, el 16,12% de los datos de entrenamiento del LLM están en castellano, mientras que el catalán alcanza el 1,97% y el resto hasta alcanzar el 20% lo conforman el gallego y el euskera, según figura en la documentación publicada.

En concreto, el corpus de preentrenamiento de ALIA comprende datos de 35 idiomas europeos y 92 lenguajes de programación.

A pesar de ello, fuentes del Ministerio para la Transformación Digital y de la Función Pública han defendido que ALIA está entrenado con un mayor porcentaje de datos en castellano y lenguas cooficiales que el resto de modelos comerciales.

En ese sentido, desde la cartera que dirige Óscar López se busca elevar el peso del castellano y de las lenguas cooficiales del Estado en este LLM, el cual sigue en desarrollo y con el que se busca que la «IA piense en castellano».

NO BUSCA COMPETIR CON CHATGPT

Por otro lado, desde la cartera de Transformación Digital apuntan que el objetivo de ALIA no es competir con ChatGPT o aplicaciones similares.

«Uno de los principales valores que creemos que tiene el modelo, y que además es claro que es una de las tendencias en 2025, no es tanto ser un chat grande y competir con lo que es evidente que no podemos competir –y no pretendemos competir– (en referencia a ChatGPT), sino la especialización en los pequeños modelos de lenguaje», han subrayado fuentes del ministerio.

De hecho, ya están marcha dos proyectos para aplicar ALIA en el ámbito público, en concreto, un ‘chatbot’ interno para la Agencia Tributaria y otro, denominado ‘Cardiomentor’, ligado al sector sanitario y dirigido al ámbito de la atención primaria para el diagnóstico precoz de insuficiencias cardíacas mediante el «análisis avanzado de datos».

En esa línea, el Gobierno está trabajando para que cada ministerio tenga, al menos, un caso de uso concreto basado en ALIA, una iniciativa que se enmarca en la estrategia nacional de inteligencia artificial.

Además, las fuentes de Transformación Digital también matizan que la inversión realizada hasta el momento en ALIA asciende a tres millones de euros, si bien el presupuesto para la palanca tres de la estrategia nacional de IA asciende a 10,2 millones de euros y contempla otros aspectos.

últimas noticias

Arde un alpendre con paja seca próximo a una granja de más de 400 vacas en Pol (Lugo)

Un incendio en un alpendre con paja seca, próximo a una explotación ganadera con...

El PPdeG reprocha al Gobierno que «dé largas» a las bases de la UME y de la BRIF en Galicia

El PPdeG ha reprochado al Gobierno central que "dé largas" a la petición de...

El Colegio de Médicos de A Coruña rinde homenaje póstumo a José Pedrouzo y alerta sobre la crisis de la profesión

El Colegio Oficial de Médicos de la Provincia de A Coruña ha reunido este...

Rural.- Rodríguez anuncia que el Gobierno va a incrementar las ayudas de vivienda a jóvenes en el medio rural

La ministra de Vivienda y Agenda Urbana, Isabel Rodríguez, ha anunciado que el Gobierno...

MÁS NOTICIAS

El Colegio de Médicos de A Coruña rinde homenaje póstumo a José Pedrouzo y alerta sobre la crisis de la profesión

El Colegio Oficial de Médicos de la Provincia de A Coruña ha reunido este...

Medio centenar de vecinos de Sanabria protesta en Vigo por la supresión de paradas de AVE: «Pedimos lo que nos quitaron»

Medio centenar de vecinos de Sanabria (Zamora) han protestado en la tarde de este...

La gran senda del litoral unirá Galicia desde Ribadeo hasta A Guarda con 1.300 kilómetros transitables y ‘app’ propia

La gran senda del litoral impulsada por la Xunta, al amparo de las competencias...