-
TemáticasAmérica latinaDiversidad, equidad e inclusiónInteligencia Artificial
-
SectorOtrosTecnologías de la Información y la Comunicación
-
PaísesGlobal
La Inteligencia Artificial ofrece un futuro de oportunidades, pero ¿está preparada para la diversidad lingüística del mundo? ¿Representa la IA la pluralidad cultural y está preparada para responder ante ella?
En LLYC, nos hemos unido a Microsoft y al BID Lab para estudiar el desempeño de la IA en lenguas indígenas americanas y trazar una hoja de ruta hacia la inclusión digital. Nuestro estudio conjunto “El desempeño de la inteligencia artificial en el uso de lenguas indígenas americanas” pone a prueba cinco de los modelos de IA más extendidos, evaluando su rendimiento en siete lenguas originarias del continente: Quechua, Guaraní, Aymara, Náhuatl, Tupi Guaraní, Mapuche y Maya Quiché.
La brecha cultural de la IA

Los resultados del estudio muestran una preocupante brecha en el desempeño de la IA con las lenguas indígenas. De forma sistemática, la calidad de las respuestas en estos idiomas es significativamente inferior en comparación con lenguas más extendidas y conocidas por la Inteligencia Artificial, como el español. Entre los resultados, sobre los que estuvimos comentando en tertulia junto a Microsoft y el BID Lab en la quinta temporada del podcast Esto es lo que AI, destacan los siguientes:
- Tan sólo en el 54% de los casos, ante preguntas formuladas en lenguas originarias, la respuesta es aparentemente correcta. Y cuando así lo es, en realidad esta respuesta es 4 veces más corta, y obtiene un 2.4/10 en cuanto a corrección en la expresión y un 2.3/10 en comprensión de la pregunta.
- Si nos adentramos en las diferentes lenguas, el Quechua se posiciona como el mejor de los casos en rendimiento promedio, quedándose aún así lejos del aprobado, con una puntuación de 3.72/10. Lo mismo ocurre con el Guaraní que, a pesar de ser una lengua hablada o entendida por la mayor parte de los paraguayos y extendida tanto en urbes como en zonas rurales, se acerca al aprobado ( 2.77/10)
- El sesgo cultural apreciado en las respuestas frente a preguntas realizadas en lenguas indígenas está desviado hacia la cultura hegemónica occidental. Incluso en el caso del Quechua (la lengua que mejor comportamiento muestra en este apartado) su inclusión se sitúa por debajo de 2.3/10.
- Existe una altísima correlación ( 84%) entre el volumen de contenidos digitales disponibles en una lengua y el rendimiento que la IA muestra en esa lengua. La baja presencia de textos escritos y otros recursos en lenguas indígenas en Internet dificulta significativamente la comprensión y expresión de la IA en estas lenguas.
EL PROPÓSITO: PROMOVER LA INCLUSIÓN Y FACILITAR EL ACCESO

Cuando arrancamos esta colaboración, el propósito estaba claro por las tres partes. En la era de la inteligencia artificial, resulta más importante que nunca asegurarnos de que la IA nos ofrece las mismas oportunidades a todos.
Y es que la IA no solo podría llegar a reflejar la pluralidad del mundo en el que vivimos, evitando el efecto burbuja y sus consecuencias, si no que podría acercar el acceso a servicios públicos, sanidad o educación a culturas más aisladas, a través de la traducción automática, los asistentes de voz o sencillamente a través del acceso a la información.
Sin embargo, una IA ineficaz aumenta la brecha y la exclusión. Además, si los modelos siguen siendo entrenados con datos mayoritariamente occidentales, corren el riesgo de malinterpretar y exotizar los elementos culturales.
“Desde BID Lab, a través del programa fAIr LAC, promovemos el desarrollo de soluciones de inteligencia artificial que respondan a los contextos reales de América Latina y el Caribe. Este estudio nos permite identificar brechas y oportunidades para avanzar hacia tecnologías más accesibles y relevantes para nuestras comunidades”. César Buenadicha, Jefe a.i de la División de Ecosystem Building y Acceleration de BID Lab.
Aprendizajes desde dentro
En cuanto arrancamos el proceso, se volvió una obviedad que la IA enfrenta serias limitaciones a la hora de comprender el humor, así como de representar las diferentes culturas sin sesgos occidentales.
LA IA Y EL HUMOR
Entre todos los experimentos asociados al humor, realizamos ejercicios en torno a la generación de chistes cortos, una tarea para la que las respuestas en idiomas como el español se basaron en juegos de palabras y estructuras de chistes convencionales. Sin embargo, en quechua la IA tendió a relatar anécdotas inacabadas, a menudo asociadas con el ámbito rural, la infancia o la pobreza, con una fuerte tendencia a incluir moralejas. En guaraní, el humor se asoció con la picardía, como el robo o la mentira.
Para evitar tener una muestra reducida, y presuponiendo que quizá el término chiste pudiera no ser del todo comprensible en determinados idiomas, se realizaron experimentos en torno a la descripción de cómo nos hacen reir profesionales que buscan hacernos reir.
Por ejemplo, al preguntarle a los diferentes modelos cómo los payasos nos hacen reír, las respuestas en castellano incluyeron conceptos como “entretenimiento,” “trucos divertidos” y “parodia”. Sin embargo, en quechua las respuestas fueron más sesgadas, con frases como “hacen cosas ridículas de las que la gente se burla” o “usan maquillajes donde se confunde lo masculino y lo femenino”.
Los resultados generales mostraron que la IA en lenguas indígenas es más proclive a reproducir sesgos a través del humor y muestra dificultades para conectar el humor con su contexto.
SESGOS CULTURALES
Durante la exploratoria surgió mucho debate sobre la diferencia entre el sesgo extrínseco (prejuicios propios del pensamiento occidental) y el sesgo intrínseco (propio de los datos de entrenamiento y, por tanto, originales de la lengua indígena). Por eso, determinamos que un sesgo es relevante cuando traslada una imagen arquetípica que perpetúa sesgos culturales. Un comportamiento que vimos a menudo durante el proceso en casos como el origen de fenómenos naturales o las creencias religiosas.
- Mitos versus ciencia: Al explicar fenómenos naturales, las IAs que usan lenguas predominantes se basan en explicaciones científicas y documentadas. En cambio, al interactuar en lenguas indígenas, la IA explica estos fenómenos a través de mitos y creencias locales, asociando la lengua con la cultura de sus datos de entrenamiento, ofreciendo explicaciones relativas a la”Pachamama” o el “Inti Raymi”.
- Creencias religiosas: Cuando se le preguntó a la IA sobre sus creencias en idiomas predominantes, respondió que era un modelo artificial y, por tanto, agnóstica. En la mayoría de las lenguas indígenas, la IA declaró abiertamente sus creencias, asociadas a la cultura indígena, y cuestionó las creencias occidentales.
LA IMPORTANCIA DE LOS DATOS ABIERTOS
El 40% de las lenguas del mundo están en peligro de extinción, y menos del 2% tienen presencia en internet. Esto revela un gran reto, ya que nuestro estudio confirma que existe una alta correlación entre la calidad de la IA y el volumen de contenido digital disponible en una lengua.
Por eso, durante la elaboración del plan de acción relativo a esta investigación, pautamos acciones como fomentar la creación de contenido digital a través de influencers, digitalizar archivos físicos, impulsar la creación de diccionarios y acuerdos para la convergencia dialectal…
LA LABOR DE COORDINACIÓN
La elaboración de este estudio en el tiempo récord que demanda la actualidad de cambios constantes de la IA, ha requerido una extensa labor de coordinación entre las tres partes. Además, estamos muy agradecidos a los intérpretes y academias que participaron en el proyecto, como parte fundamental para evaluar el desempeño de la IA en las diferentes lenguas.
UNA HOJA DE RUTA CLARA HACIA LA INCLUSIÓN
Dado el propósito del informe, desde Microsoft, el BID Lab y LLYC siempre entendimos la labor de investigación como un punto de partida para generar una hoja de ruta concreta que promoviese una IA más inclusiva y que abriese la conversación sobre las diferentes vías para hacerlo. Por eso, como una de las partes principales de la colaboración, generamos un plan de acción articulado en 21 estrategias para promover la inclusión tecnológica. Entre las más comentadas durante la elaboración del estudio, se encuentran:
- Impulsar la comunicación digital: Fomentar la creación de contenido digital en lenguas indígenas a través de influencers y plataformas de contenido.
- Preservar y ampliar el contenido existente: Digitalizar archivos físicos y asegurar la conservación de los recursos digitales para evitar que se pierdan por falta de soporte.
- Normalizar el uso de las lenguas: Impulsar acuerdos para la convergencia dialectal y la formación de expertos locales en lingüística y tecnología.
- Impulsar herramientas habilitadoras: Desarrollar sistemas de conversión de voz-texto y traductores automáticos que faciliten el acceso y la creación de contenidos.
- Crear un consorcio internacional compuesto de organizaciones nacionales e internacionales, instituciones dedicadas a la protección cultural y compañías de tecnología interesadas en acelerar el uso de la IA para acortar las brechas lingüísticas.
- Aprovechar los programas gubernamentales de apoyo indígena y las iniciativas de las Big Tech para que desarrollen tecnologías de IA conversacional en lenguas originarias.
- Ampliar la conectividad: Impulsar programas de cobertura de internet y formación digital en las comunidades indígenas para aumentar el efecto red y la generación de contenido.
“Nuestros clientes a nivel mundial exigen relevancia lingüística y cultural en los productos y servicios basados en IA que ofrecemos. En Microsoft, nuestro objetivo es poner a las personas primero. Nos comprometemos a abordar, en colaboración con gobiernos, académicos, sociedad civil y organizaciones multilaterales, como el BID, las brechas indicadas para lograr dicha meta”. Daniel Korn, director de Políticas e Innovación en IA para Microsoft Américas
La IA tiene un potencial inmenso para conectar y dar voz a las diferentes comunidades. Sin embargo, para que sea una herramienta de inclusión, es fundamental un esfuerzo coordinado de todos los actores del ecosistema para asegurar que su desarrollo sea equitativo y representativo. Para profundizar en el informe, accede al resumen ejecutivo o escucha la tertulia en nuestro podcast.