Lattice: Cómo entrenamos un modelo de IA para entender a México y LATAM

Las soluciones de inteligencia artificial más conocidas fueron entrenadas con datos en inglés, estructuras legales ajenas y referencias culturales distantes. En Sintérgica, decidimos ir más allá de traducir: quisimos crear un modelo que piensa en español latinoamericano y responde con el contexto que importa a empresas, gobiernos y universidades de nuestra región. Así nació Lattice.
Este artículo presenta el recorrido técnico y estratégico que nos llevó a entrenar una IA profesional, contextual y soberana para México y LATAM.
1. ¿Por qué no basta con traducir?
Modelos como GPT-4 o Gemini fueron entrenados en su mayoría con corpus en inglés, contenidos de países del norte global y formatos regulatorios distintos a los nuestros. Esto tiene consecuencias prácticas:
- No comprenden términos como RFC, LFPDPPP o INEGI.
- Fallan al responder sobre leyes locales o contexto político-social.
- Confunden el tono formal en español con traducciones literales sin fluidez.
2. El punto de partida: modelos base open-source
Para garantizar escalabilidad y eficiencia, partimos de dos arquitecturas MoE de código abierto con gran rendimiento:
- DeepSeek V3 → estructura liviana, ideal para generación rápida.
- DeepSeek R1 → mayor profundidad lógica, excelente para análisis y razonamiento.
Ambos modelos fueron seleccionados por su capacidad para ser auditables, personalizables y eficientes en hardware accesible en LATAM.
3. Nuestro enfoque: fine-tuning con propósito
A diferencia del pre-entrenamiento masivo, optamos por un proceso de fine-tuning multi-objetivo, donde el modelo aprende no solo a generar texto, sino a entender patrones específicos del español latinoamericano.
¿Cómo lo hicimos?
- Curación de datasets: Reunimos más de 9 000 millones de tokens en español de México y Latinoamérica, incluyendo:
- Normativas legales locales (DOF, leyes estatales)
- Documentación técnica de gobiernos y universidades
- Contenido profesional de sectores clave (salud, energía, finanzas)
- Reducción de sesgos culturales: Filtramos contenido para evitar anglicismos irrelevantes y reforzar expresiones y estructuras propias de la región.
- Evaluaciones humanas: Hicimos pruebas cualitativas con especialistas jurídicos, educadores y funcionarios públicos para ajustar respuestas según tono, formalidad y contexto.
4. De un solo modelo a una familia especializada
Tras validar los resultados, optamos por dividir Lattice en tres modelos especializados, destilando sus capacidades para distintas tareas:
Variante | Especialidad | Uso ideal |
Flow | Generación ágil y eficiente | Soporte, redacción de informes, contenido |
Skoll | Razonamiento y análisis complejo | Datos financieros, legales, evaluaciones |
Minerva | Recuperación aumentada (RAG) | Consulta de documentos, leyes, bases internas |
Esto permite ejecutar solo lo necesario en cada caso, optimizando el rendimiento en servidores locales o nubes privadas.
5. Optimización para LATAM: más allá del idioma
- Compatibilidad regulatoria: entrenamiento con documentos reales de LFPDPPP, SFP, SAT, y otras instituciones clave.
- Compresión para despliegues locales: modelos diseñados para ejecutarse en VPC o infraestructura on-premise con recursos limitados.
- Evaluación con métricas propias: diseñamos benchmarks para evaluar tareas típicas en español latinoamericano, como análisis de normativas o interpretación de oficios oficiales.
6. ¿Qué sigue para Lattice?
Estamos construyendo la siguiente versión de Lattice con objetivos ambiciosos:
- Lattice 2.0 (Q4 2025): mejoras en comprensión técnica y entrenamiento por sector.
- Vertical packs para salud, educación, jurídico y finanzas.
- Entrenamiento colaborativo con universidades aliadas en LATAM.
- Desarrollo de una arquitectura propia para desligarnos completamente de cualquier base externa.
Lattice no es solo un modelo adaptado al idioma: es una IA profesional pensada, entrenada y optimizada para responder a las necesidades reales de México y Latinoamérica. Con una base contextual sólida, despliegue privado y eficiencia computacional, se posiciona como el primer paso hacia la soberanía tecnológica regional en inteligencia artificial.
Referencias
- DeepSeek Open Models: https://github.com/deepseek-ai
- Diario Oficial de la Federación (MX): https://www.dof.gob.mx/
- INEGI, LFPDPPP y datos públicos usados bajo licencia abierta.
- Sintérgica internal benchmarks, 2025.