Por favor active JavaScript para poder aprovechar la funcionalidad completa de GMX.

Investigadores africanos crean el mayor conjunto de datos de lenguas indígenas del continente

Investigadores africanos crean el mayor conjunto de datos de lenguas indígenas del continente

Investigadores africanos crearon lo que se considera el mayor conjunto de datos de lenguas indígenas del continente, con el objetivo de garantizar que millones de personas no queden excluidas de los avances en inteligencia artificial, como los chatbots.

Aunque África alberga más de una cuarta parte de las lenguas del mundo, la mayoría de ellas no están presentes en el desarrollo de la IA.

La mayoría de las herramientas, como ChatGPT, se entrenan principalmente con inglés, idiomas europeos y chino, que se benefician de la gran cantidad de texto en línea.

Sin embargo, muchas lenguas africanas se hablan con más frecuencia que se escriben, lo que deja poco material para entrenar a los sistemas de IA y limita su utilidad para los hablantes de todo el continente.

El profesor Vukosi Marivate, profesor de la Universidad de Pretoria, declaró a la BBC:

'Pensamos en nuestros propios idiomas, soñamos con ellos e interpretamos el mundo a través de ellos. Si la tecnología no refleja eso, todo un grupo corre el riesgo de quedar rezagado. Estamos viviendo esta revolución de la IA, imaginando todo lo que se puede hacer con ella. Ahora imaginemos que hay una parte de la población que simplemente no tiene ese acceso porque toda la información está en inglés'.

El proyecto African Next Voices reunió a lingüistas e informáticos para desarrollar conjuntos de datos compatibles con IA en 18 idiomas africanos, con planes de expansión en el futuro.

Durante dos años, el equipo registró 9 mil horas de habla en Kenia, Nigeria y Sudáfrica, abarcando escenarios de agricultura, salud y educación.

La recopilación incluyó kikuyu y dholuo en Kenia, hausa y yoruba en Nigeria, e isizulú y tshivenda en Sudáfrica.

El profesor Marivate añadió:

'Se necesita una base sólida para empezar, y eso es lo que es African Next Voices. A partir de ahí, la gente construirá y añadirá sus propias innovaciones'.

La lingüista computacional keniana Lilian Wanzare afirmó:

'Recopilamos voces de diferentes regiones, edades y orígenes para que sea lo más inclusivo posible. Las grandes tecnológicas no siempre pueden ver esos matices'.

El proyecto contó con el apoyo de una subvención de 2.2 millones de dólares, unas 1.6 millones de libras de la Fundación Gates.

Sus datos serán de libre acceso, lo que permitirá a los desarrolladores crear herramientas que traduzcan, transcriban y respondan en idiomas africanos.

Para el agricultor Kelebogile Mosime, quien gestiona un huerto de 21 hectáreas en Rustenburg, Sudáfrica, la IA en idiomas locales ya marca la diferencia.

Utiliza AI-Farmer, una aplicación que reconoce sesotho, isiZulu y afrikáans, para ayudar con los problemas de los cultivos.

Dijo:

'A diario, veo los beneficios de poder usar mi lengua materna, el setswana, en la aplicación. Cuando tengo problemas en la granja, pregunto cualquier cosa y obtengo una respuesta útil. Para alguien que vive en zonas rurales como yo y no está expuesto a la tecnología, es útil. Puedo preguntar sobre diferentes opciones para el control de insectos; también me ha sido útil para diagnosticar plantas enfermas'.

Pelomoni Moila, directora ejecutiva de la startup sudafricana Lelapa AI, también declaró:

'El inglés es el idioma de las oportunidades. Para muchos sudafricanos que no lo hablan, no solo es un inconveniente, sino que puede significar la pérdida de servicios esenciales como la atención médica, la banca o incluso el apoyo del gobierno. El idioma puede ser una gran barrera. Nosotros decimos que no debería serlo'.

La profesora Marivate añadió:

'El idioma es el acceso a la imaginación. No se trata solo de palabras: es historia, cultura, conocimiento. Si no se incluyen las lenguas indígenas, perdemos más que datos; perdemos maneras de ver y comprender el mundo'.

Contenido patrocinado

Artículos relacionados