América Latina presentó su propia versión de modelo de lenguaje de gran escala: Latam GPT, una iniciativa impulsada desde Chile que busca reducir la dependencia de los grandes desarrollos comerciales y fortalecer la soberanía tecnológica en el continente. El proyecto propone una estrategia regional basada en tres pilares: pertinencia, representatividad y soberanía tecnológica, con el objetivo de entrenar inteligencia artificial desde y para el contexto latinoamericano y caribeño.

La iniciativa es coordinada por el Centro Nacional de Inteligencia Artificial (CENIA) de Chile y reúne a distintas entidades académicas y técnicas de la región. Más que un producto aislado, se presenta como una infraestructura abierta para democratizar el desarrollo de IA en educación, gestión pública e innovación productiva.

Por qué surge Latam GPT: sesgos y falta de representación

Uno de los argumentos centrales del proyecto es que los modelos globales se entrenan mayoritariamente con datos del llamado “Norte Global”, lo que genera sesgos culturales, lingüísticos y contextuales. Según sus desarrolladores, en esos modelos el español representa apenas alrededor del 4% de los datos. El portugués entre un 2% y un 3%, lo que deja subrepresentada a una región con más de 650 millones de habitantes.

En ese marco, Latam GPT busca integrar datos que reflejen la cultura, los idiomas y las identidades propias de América Latina y el Caribe. La iniciativa apunta no solo a reducir sesgos de género o diversidad, sino también a mejorar la comprensión histórica, social y política del continente dentro de los sistemas de IA.

Durante la presentación del proyecto, el presidente de Chile, Gabriel Boric, sostuvo: “El lenguaje de hoy día, nos guste o no, está muy determinado por la inteligencia artificial. Entonces no tenemos que temerle, no tenemos que verla solo como amenaza, tenemos que verla como oportunidad”.

Modelo abierto y bien público

Latam GPT fue concebido como un modelo abierto y como un bien público regional. Esto implica que universidades, gobiernos, startups y comunidades podrán utilizar la base tecnológica para desarrollar soluciones propias sobre una arquitectura común, transparente y trazable.

El proyecto no se limita a crear un modelo de lenguaje (LLM), sino que incluye la generación de capacidades habilitantes. Formación de talento regional, creación de corpus de datos propios, desarrollo de benchmarks y evaluaciones adaptadas al contexto latinoamericano. Además de infraestructura y conocimiento técnico compartido.

Desde el equipo impulsor destacan que la condición de modelo abierto permitirá que organizaciones puedan “educarlo” con sus propios manuales. También normativas o marcos regulatorios, lo que podría aportar mayor control sobre la seguridad de la información en sectores estratégicos.

Cómo fue entrenado y qué cobertura regional tiene

En su primera versión (1.0), Latam GPT fue desarrollado sobre el modelo base LLaMA 3.1 70B, al que se le aplicó una técnica de entrenamiento adicional (CPT) para incorporar conocimiento específico de la región.

Según el proyecto, el modelo fue entrenado con una proporción de datos sobre América Latina significativamente superior a la de otros desarrollos actuales. En esta etapa inicial, se incorporó información proveniente de 20 países de América Latina y el Caribe, con procesos de curaduría y balanceo de datos.

Entre los países con mayor aporte de información se encuentran Brasil, México, Colombia y Argentina, además de contribuciones desde España. Las áreas temáticas prioritarias incluyen política, economía, educación, ciencias duras, humanidades, comunicación, salud, artes, deportes y, de forma incipiente, contenidos vinculados a pueblos originarios.

Rendimiento y proyección

Los propios desarrolladores reconocen que Latam GPT 1.0 no es directamente comparable con modelos comerciales que cuentan con inversiones de gran escala. En algunos benchmarks su rendimiento es inferior. Pero sostienen que el objetivo inicial no es competir en potencia bruta sino sentar las bases técnicas y organizativas para un desarrollo regional sostenible.

Desde el proyecto señalan que las capacidades generadas —en infraestructura, manejo de datos y articulación regional— permitirán que futuras versiones puedan alcanzar niveles equivalentes a modelos más avanzados. Y manteniendo un mejor desempeño en tareas relacionadas con el contexto latinoamericano.

En un escenario donde la inteligencia artificial gana influencia en educación, gestión pública y producción de conocimiento, Latam GPT se presenta como un intento de que la región no solo consuma tecnología, sino que también participe activamente en cómo se entrena y define el lenguaje del futuro.