Lattice: Cómo entrenamos un modelo de IA para entender a México y LATAM

Las soluciones de inteligencia artificial más conocidas fueron entrenadas con datos en inglés, estructuras legales ajenas y referencias culturales distantes. En Sintérgica, decidimos ir más allá de traducir: quisimos crear un modelo que piensa en español latinoamericano y responde con el contexto que importa a empresas, gobiernos y universidades de nuestra región. Así nació Lattice.

Este artículo presenta el recorrido técnico y estratégico que nos llevó a entrenar una IA profesional, contextual y soberana para México y LATAM.


1. ¿Por qué no basta con traducir?

Modelos como GPT-4 o Gemini fueron entrenados en su mayoría con corpus en inglés, contenidos de países del norte global y formatos regulatorios distintos a los nuestros. Esto tiene consecuencias prácticas:

  • No comprenden términos como RFC, LFPDPPP o INEGI.
  • Fallan al responder sobre leyes locales o contexto político-social.
  • Confunden el tono formal en español con traducciones literales sin fluidez.

2. El punto de partida: modelos base open-source

Para garantizar escalabilidad y eficiencia, partimos de dos arquitecturas MoE de código abierto con gran rendimiento:

  • DeepSeek V3 → estructura liviana, ideal para generación rápida.
  • DeepSeek R1 → mayor profundidad lógica, excelente para análisis y razonamiento.

Ambos modelos fueron seleccionados por su capacidad para ser auditables, personalizables y eficientes en hardware accesible en LATAM.


3. Nuestro enfoque: fine-tuning con propósito

A diferencia del pre-entrenamiento masivo, optamos por un proceso de fine-tuning multi-objetivo, donde el modelo aprende no solo a generar texto, sino a entender patrones específicos del español latinoamericano.

¿Cómo lo hicimos?

  • Curación de datasets: Reunimos más de 9 000 millones de tokens en español de México y Latinoamérica, incluyendo:
    • Normativas legales locales (DOF, leyes estatales)
    • Documentación técnica de gobiernos y universidades
    • Contenido profesional de sectores clave (salud, energía, finanzas)
  • Reducción de sesgos culturales: Filtramos contenido para evitar anglicismos irrelevantes y reforzar expresiones y estructuras propias de la región.
  • Evaluaciones humanas: Hicimos pruebas cualitativas con especialistas jurídicos, educadores y funcionarios públicos para ajustar respuestas según tono, formalidad y contexto.

4. De un solo modelo a una familia especializada

Tras validar los resultados, optamos por dividir Lattice en tres modelos especializados, destilando sus capacidades para distintas tareas:

VarianteEspecialidadUso ideal
FlowGeneración ágil y eficienteSoporte, redacción de informes, contenido
SkollRazonamiento y análisis complejoDatos financieros, legales, evaluaciones
MinervaRecuperación aumentada (RAG)Consulta de documentos, leyes, bases internas

Esto permite ejecutar solo lo necesario en cada caso, optimizando el rendimiento en servidores locales o nubes privadas.


5. Optimización para LATAM: más allá del idioma

  • Compatibilidad regulatoria: entrenamiento con documentos reales de LFPDPPP, SFP, SAT, y otras instituciones clave.
  • Compresión para despliegues locales: modelos diseñados para ejecutarse en VPC o infraestructura on-premise con recursos limitados.
  • Evaluación con métricas propias: diseñamos benchmarks para evaluar tareas típicas en español latinoamericano, como análisis de normativas o interpretación de oficios oficiales.

6. ¿Qué sigue para Lattice?

Estamos construyendo la siguiente versión de Lattice con objetivos ambiciosos:

  • Lattice 2.0 (Q4 2025): mejoras en comprensión técnica y entrenamiento por sector.
  • Vertical packs para salud, educación, jurídico y finanzas.
  • Entrenamiento colaborativo con universidades aliadas en LATAM.
  • Desarrollo de una arquitectura propia para desligarnos completamente de cualquier base externa.

Lattice no es solo un modelo adaptado al idioma: es una IA profesional pensada, entrenada y optimizada para responder a las necesidades reales de México y Latinoamérica. Con una base contextual sólida, despliegue privado y eficiencia computacional, se posiciona como el primer paso hacia la soberanía tecnológica regional en inteligencia artificial.


Referencias

  1. DeepSeek Open Models: https://github.com/deepseek-ai
  2. Diario Oficial de la Federación (MX): https://www.dof.gob.mx/
  3. INEGI, LFPDPPP y datos públicos usados bajo licencia abierta.
  4. Sintérgica internal benchmarks, 2025.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  • Nosotros
  • Turing
  • Investigacion
  • Blog