Nathan Lambert

ref · 28 Mayo, 2026 08:53

Doctor en robótica formado en Berkeley que se convirtió en líder de post-entrenamiento en el Instituto Allen para la IA, cuyo trabajo en modelos de código abierto, su libro sobre RLHF y el boletín Interconnects lo han convertido en una de las voces públicas más accesibles sobre el alineamiento y el post-entrenamiento de LLM.

Perfil


Nacionalidad	Estadounidense
Institución(es) actual(es)	Instituto Allen para la IA — Ai2 (Investigador Científico Senior, Líder de Post-Entrenamiento)
Áreas de investigación	RLHF, Post-entrenamiento, Modelos de Lenguaje Abiertos, Aprendizaje por Refuerzo Basado en Modelos, Control de Robótica
Asesor de doctorado	Kristofer S.J. Pister; Roberto Calandra (co-asesor, Meta AI Research)
Tesis doctoral	Synergy of Prediction and Control in Model-based Reinforcement Learning (UC Berkeley, 2022)
Sitio web	natolambert.com
Blog	interconnects.ai — Más de 60 000 suscriptores
X / Twitter	@natolambert
GitHub	natolambert
Google Scholar	Nathan Lambert

Resumen

Nathan Lambert es un investigador estadounidense de aprendizaje automático cuya carrera ha evolucionado desde el control de microrrobótica en Berkeley hasta convertirse en una de las figuras más destacadas en el post-entrenamiento de LLM de código abierto. Como líder de post-entrenamiento en el Instituto Allen para la IA (Ai2), ha sido una fuerza impulsora detrás de OLMo —uno de los primeros modelos de lenguaje preentrenados completamente abiertos— y la serie de recetas de post-entrenamiento Tülu, que demostró que un pequeño equipo abierto podía igualar la calidad de seguimiento de instrucciones del post-entrenamiento propietario de Meta en el mismo modelo base. Paralelamente, Lambert dirige Interconnects, un boletín de Substack que ha crecido a más de 60 000 suscriptores y sirve como uno de los comentarios públicos más técnicamente fundamentados del campo sobre la investigación de LLM, las políticas y el debate entre modelos abiertos y cerrados. Es el único autor del RLHF Book, un volumen impreso próximo a publicarse de rlhfbook.com que ha circulado como un documento gratuito en arXiv y es ampliamente utilizado como referencia por los profesionales.

Primeros años y educación

Lambert completó sus estudios de pregrado y los primeros años de posgrado en ingeniería eléctrica y ciencias de la computación. Realizó su doctorado en UC Berkeley en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, trabajando en el Laboratorio de Microsistemas Autónomos de Berkeley bajo la supervisión del profesor Kristofer Pister y con la co-asesoría de Roberto Calandra de Meta AI Research. Su tesis, Synergy of Prediction and Control in Model-based Reinforcement Learning (2022), se sitúa en la intersección del RL basado en modelos y el control de microrrobótica, una combinación inusual que le proporcionó experiencia temprana tanto con los fundamentos teóricos del RL como con las demandas de ingeniería de los sistemas físicos reales. Durante su doctorado, realizó prácticas en Facebook AI Research y DeepMind, ambas en RL basado en modelos para control, y recibió el Premio Demetri Angelakos Memorial Achievement Award for Altruism de EECS de UC Berkeley por sus esfuerzos para mejorar las normas comunitarias y ser mentor de estudiantes más jóvenes.

Carrera

UC Berkeley — Doctorado (2018–2022)

El trabajo doctoral de Lambert abordó el desafío de construir controladores aprendidos eficientes en términos de muestras para plataformas microrrobóticas, combinando la predicción basada en modelos con el control en lazo cerrado. Las prácticas en Facebook AI Research y DeepMind durante este período ampliaron su alcance, desde la robótica con limitaciones de hardware hasta los sistemas de RL a gran escala. La experiencia le dejó una doble perspectiva: el respeto de un ingeniero por fundamentar las afirmaciones en la realidad física y el apetito de un investigador por la maquinaria teórica del RL, lo que más tarde daría forma a su enfoque del RLHF y el post-entrenamiento.

Hugging Face (2022–2023)

Después de graduarse, Lambert se unió a Hugging Face, donde ayudó a construir la función de investigación de RLHF de la empresa casi desde cero. Este rol lo colocó en el centro del campo emergente justo cuando ChatGPT había convertido a RLHF en un acrónimo conocido por todos. Contribuyó a herramientas de código abierto y recursos educativos sobre el modelado de recompensas y el aprendizaje por preferencias, y comenzó Interconnects como un boletín para hacer que la literatura en rápida evolución fuera accesible a un público más amplio. El período en HuggingFace lo estableció como un explicador confiable de los mecanismos de RLHF en un momento de máximo interés público.

Instituto Allen para la IA — Ai2 (2023–presente)

Lambert se unió a Ai2 como Investigador Científico Senior y fue nombrado líder de post-entrenamiento. Sus proyectos principales han sido OLMo, la serie de modelos de lenguaje preentrenados completamente abiertos de Ai2 —publicados con pesos, datos de entrenamiento y código de entrenamiento— y Tülu, la receta de post-entrenamiento correspondiente. Tülu 3 (2024) atrajo especial atención por demostrar que el post-entrenamiento con receta abierta podía igualar la calidad de ajuste por instrucciones de Meta en una base LLaMA compartida, una prueba de concepto concreta de la viabilidad del ecosistema de modelos abiertos. Ha descrito OLMo como la razón principal por la que se unió a Ai2, considerando la apertura total —datos, código y pesos— como la palanca más factible para hacer que la IA sea más auditable y competitiva. También desarrolló Tülu 3.1, que integró el aprendizaje por refuerzo con recompensas verificables (RLVR) a través de la Optimización de Políticas Relativas de Grupo (GRPO), escalando hasta OLMo 2 32B. En abril de 2026 viajó a China para visitar la mayoría de los principales laboratorios de IA —incluyendo Moonshot AI, Z.ai, 01.ai, Meituan y Xiaomi— y publicó un informe de viaje ampliamente difundido sobre las diferencias culturales y organizativas entre los entornos de investigación chinos y estadounidenses.

Contribuciones clave

OLMo (Open Language Model) — Contribuyente principal en la serie emblemática de modelos de lenguaje preentrenados completamente abiertos de Ai2, publicando pesos, datos de entrenamiento (Dolma) y código de entrenamiento; el esfuerzo de modelo de lenguaje grande con receta abierta más completo fuera de un puñado de consorcios académicos.
Tülu / Tülu 3 — Lideró la receta de post-entrenamiento que iguala la calidad de seguimiento de instrucciones de Meta utilizando la misma base LLaMA, con total reproducibilidad; Tülu 3.1 incorporó además RLVR/GRPO, permitiendo que OLMo 2 32B superara a GPT-3.5 Turbo en puntos de referencia académicos como el primer modelo completamente abierto en lograrlo.
Boletín Interconnects — Fundó y escribe un boletín de Substack que cubre el post-entrenamiento de LLM, la IA de código abierto y la economía política del campo; ha crecido hasta más de 60 000 suscriptores y está clasificado como el #39 en Tecnología en Substack, lo que lo convierte en uno de los boletines técnicos de ML más leídos.
RLHF Book (Reinforcement Learning from Human Feedback, rlhfbook.com / arXiv 2504.12501) — Tratamiento de longitud de libro, de un solo autor, de todo el pipeline de RLHF y post-entrenamiento, cubriendo ajuste por instrucciones, modelado de recompensas, PPO, DPO, RLVR y preguntas de investigación abiertas; disponible gratuitamente como documento vivo en arXiv y próximamente en formato impreso.
SAIL (Substack Artificial Intelligence Library) — Cofundó readsail.com, un recurso de lectura seleccionado para la investigación en IA.
Interconnects Interviews — Presenta una serie de podcasts entrevistando a destacados investigadores de IA sobre tendencias técnicas, complementando el boletín escrito.
Informe de viaje a laboratorios de IA en China (mayo de 2026) — Relato en primera persona de la visita a los principales laboratorios de LLM chinos (Moonshot, Z.ai, 01.ai, Meituan, Xiaomi, Tsinghua), ofreciendo un análisis organizativo y cultural de primera mano poco común; ampliamente leído en las comunidades políticas y de investigación.

Premios y reconocimientos

Premio Demetri Angelakos Memorial Achievement Award for Altruism de EECS de UC Berkeley — Otorgado durante su doctorado por sus contribuciones a las normas comunitarias y la mentoría de estudiantes más jóvenes.
Apariciones en el podcast de Lex Fridman (febrero de 2025, febrero de 2026) — Invitado dos veces a uno de los podcasts de IA de mayor tráfico: primero para discutir DeepSeek y sus implicaciones para la carrera de IA entre EE. UU. y China, y nuevamente para una amplia encuesta sobre el estado del arte de la IA en 2026.
Interconnects — #39 en Tecnología en Substack — La clasificación refleja un crecimiento orgánico de suscriptores impulsado enteramente por contenido técnico y analítico, sin respaldo institucional ni gasto promocional.

Relaciones clave

Kristofer S.J. Pister — Asesor de doctorado; pionero del polvo inteligente y la microrrobótica en Berkeley; le dio a Lambert su base en sistemas físicos y RL con limitaciones de hardware.
Roberto Calandra — Co-asesor de doctorado de Meta AI Research; vinculó el trabajo de microrrobótica de Lambert con la literatura de RL basado en modelos a gran escala.
Liam Fedus / comunidad de post-entrenamiento de OpenAI — El trabajo de Lambert en Tülu se compara directamente con el trabajo de post-entrenamiento de OpenAI; su boletín analiza y contextualiza con frecuencia los lanzamientos de OpenAI, y ha hablado sobre la superposición comunitaria en la metodología de post-entrenamiento.
Yann Dubois y equipo de RLHF de HuggingFace — Colegas durante el período de HuggingFace cuando se estaban construyendo las herramientas de RLHF de código abierto.
Equipo de Ai2 / OLMo — Colaboradores cercanos en todo el pipeline de OLMo; el equipo opera deliberadamente a una escala más pequeña (~10–15 personas) que los laboratorios de frontera, lo que Lambert ha citado tanto como una restricción como una fuente de agilidad.
Jordan Schneider (ChinaTalk) — Colaborador recurrente y presentador de podcast; el viaje de Lambert a China se organizó en conjunto con el ecosistema de ChinaTalk, uniendo el análisis técnico de IA con el marco geopolítico.

Estilo personal

La voz de Lambert está deliberadamente calibrada contra los ciclos de hype que caracterizan gran parte del comentario sobre IA: tiende a buscar definiciones técnicas precisas donde otros recurren al lenguaje de marketing, y es abiertamente escéptico de las afirmaciones que no pueden probarse contra puntos de referencia abiertos. Su decisión de establecerse fuera de San Francisco —notable en un campo donde la proximidad a las reuniones de café de Noe Valley se ha vuelto casi profesionalmente obligatoria— es algo que ha enmarcado como la protección de la independencia de su análisis. Su escritura mezcla la exposición técnica a nivel de tutorial con comentarios de economía política sobre quién controla la infraestructura de IA, una combinación lo suficientemente rara en el campo como para haber construido una gran audiencia interdisciplinaria. Fuera de la investigación, es un corredor de montaña competitivo, y su autodescripción («corredor de montaña, padre de perro») aparece prácticamente en cada biografía que escribe, una nota inusualmente personal en un campo donde los investigadores suelen liderar con afiliaciones.