Nathan Lambert

Ein Berkeley-ausgebildeter Robotics-Promovierter, der Post-Training Lead am Allen Institute for AI wurde und mit seiner Arbeit an Open-Source-Modellen, seinem RLHF-Buch und dem Interconnects-Newsletter zu einer der zugänglichsten öffentlichen Stimmen zu LLM-Ausrichtung und Post-Training geworden ist.


Profil

Nationalität amerikanisch
Derzeitige Institution(en) Allen Institute for AI — Ai2 (Senior Research Scientist, Post-Training Lead)
Forschungsbereiche RLHF, Post-Training, Offene Sprachmodelle, Modellbasiertes Reinforcement Learning, Robotiksteuerung
Doktorvater Kristofer S.J. Pister; Roberto Calandra (Co-Betreuer, Meta AI Research)
Doktorarbeit Synergy of Prediction and Control in Model-based Reinforcement Learning (UC Berkeley, 2022)
Website natolambert.com
Blog interconnects.ai — über 60.000 Abonnenten
X / Twitter @natolambert
GitHub natolambert
Google Scholar Nathan Lambert

Überblick

Nathan Lambert ist ein US-amerikanischer Forscher im Bereich maschinelles Lernen, dessen Karriere sich von der Mikrorobotik-Steuerung in Berkeley zu einer der prominenteren Rollen im Open-Source-LLM-Post-Training entwickelt hat. Als Post-Training Lead am Allen Institute for AI (Ai2) war er eine treibende Kraft hinter OLMo — einem der ersten vollständig offenen vortrainierten Sprachmodelle — und der Tülu-Post-Training-Rezeptserie, die zeigte, dass ein kleines, offenes Team die Befolgungsqualität (Instruction-Following Quality) des proprietären Post-Trainings von Meta auf dem gleichen Basismodell erreichen konnte. Parallel dazu betreibt Lambert Interconnects, einen Substack-Newsletter, der auf über 60.000 Abonnenten angewachsen ist und zu einer der technisch fundierteren öffentlichen Kommentarplattformen zu LLM-Forschung, Politik und der Debatte zwischen offenen und geschlossenen Modellen geworden ist. Er ist der alleinige Autor des RLHF Book, eines demnächst erscheinenden gedruckten Buches von rlhfbook.com, das als frei verfügbares arXiv-Dokument im Umlauf ist und weithin als Referenz für Praktiker genutzt wird.


Frühes Leben & Ausbildung

Lambert absolvierte sein Bachelor- und frühes Graduiertenstudium in Elektrotechnik und Informatik. Er promovierte an der UC Berkeley im Fachbereich Elektrotechnik und Informatik, arbeitete im Berkeley Autonomous Microsystems Laboratory unter der Leitung von Professor Kristofer Pister und wurde von Roberto Calandra von Meta AI Research mitbetreut. Seine Dissertation, Synergy of Prediction and Control in Model-based Reinforcement Learning (2022), liegt an der Schnittstelle von modellbasiertem RL und Mikrorobotik-Steuerung — eine ungewöhnliche Kombination, die ihm früh Erfahrung sowohl mit den theoretischen Grundlagen des RL als auch mit den technischen Anforderungen realer physikalischer Systeme verschaffte. Während seiner Promotion praktizierte er bei Facebook AI Research und DeepMind, beide im Bereich modellbasiertes RL für Steuerung, und erhielt den UC Berkeley EECS Demetri Angelakos Memorial Achievement Award for Altruism für seine Bemühungen, die Gemeinschaftsnormen zu verbessern und jüngere Studierende zu betreuen.


Karriere

UC Berkeley — Promotion (2018–2022)

Lamberts Doktorarbeit befasste sich mit der Herausforderung, sample-effiziente gelernte Steuerungen für Mikroroboter-Plattformen zu bauen, indem modellbasierte Vorhersage mit Regelungstechnik kombiniert wurde. Praktika bei Facebook AI Research und DeepMind in dieser Zeit erweiterten seinen Horizont von hardwarebeschränkter Robotik hin zu groß angelegten RL-Systemen. Diese Erfahrung hinterließ bei ihm eine doppelte Perspektive — den Respekt eines Ingenieurs vor der Verankerung von Behauptungen in der physikalischen Realität und den Appetit eines Forschers auf die theoretischen Werkzeuge des RL — die später seinen Ansatz zu RLHF und Post-Training prägen sollte.

Hugging Face (2022–2023)

Nach seinem Abschluss wechselte Lambert zu Hugging Face, wo er half, die RLHF-Forschungsfunktion des Unternehmens fast von Grund auf aufzubauen. Diese Rolle brachte ihn ins Zentrum des aufstrebenden Feldes, gerade als ChatGPT RLHF zu einem allgemein bekannten Akronym gemacht hatte. Er trug zu Open-Source-Tools und Bildungsressourcen rund um Belohnungsmodellierung und Präferenzlernen bei und startete Interconnects als Newsletter, um die sich schnell entwickelnde Literatur einem breiteren Publikum zugänglich zu machen. Die HuggingFace-Zeit etablierte ihn als vertrauenswürdigen Erklärer der RLHF-Mechanik in einem Moment maximalen öffentlichen Interesses.

Allen Institute for AI — Ai2 (2023–heute)

Lambert kam als Senior Research Scientist zu Ai2 und wurde zum Post-Training Lead ernannt. Seine Hauptprojekte waren OLMo, Ai2s vollständig offene Serie vortrainierter Sprachmodelle — veröffentlicht mit Gewichten, Trainingsdaten und Trainingscode — und Tülu, das dazugehörige Post-Training-Rezept. Tülu 3 (2024) erregte besondere Aufmerksamkeit, da es zeigte, dass Open-Recipe-Post-Training mit Metas Instruction-Tuning-Qualität auf einer gemeinsamen LLaMA-Basis mithalten konnte, ein konkreter Proof-of-Concept für die Tragfähigkeit des Ökosystems offener Modelle. Er hat OLMo als den Hauptgrund dafür bezeichnet, dass er zu Ai2 kam, und betrachtet vollständige Offenheit — Daten, Code und Gewichte — als den praktikabelsten Hebel, um KI überprüfbarer und wettbewerbsfähiger zu machen. Er entwickelte auch Tülu 3.1, das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) über Group Relative Policy Optimization (GRPO) integrierte und auf OLMo 2 32B hochskalierte. Im April 2026 reiste er nach China, um die meisten der führenden KI-Labore zu besuchen — darunter Moonshot AI, Z.ai, 01.ai, Meituan und Xiaomi — und veröffentlichte einen vielbeachteten Reisebericht über kulturelle und organisatorische Unterschiede zwischen chinesischen und amerikanischen Forschungsumgebungen.


Wichtigste Beiträge

  • OLMo (Open Language Model) — Kernbeitrag zu Ai2s Flaggschiff-Serie vollständig offener vortrainierter Sprachmodelle, Veröffentlichung von Gewichten, Trainingsdaten (Dolma) und Trainingscode; die umfassendste Open-Recipe-Bemühung für große Sprachmodelle außerhalb einiger akademischer Konsortien.
  • Tülu / Tülu 3 — Leitete das Post-Training-Rezept, das Metas Instruction-Following-Qualität unter Verwendung derselben LLaMA-Basis mit vollständiger Reproduzierbarkeit erreicht; Tülu 3.1 integrierte weiter RLVR/GRPO, wodurch OLMo 2 32B GPT-3.5 Turbo bei akademischen Benchmarks als erstes vollständig offenes Modell übertraf.
  • Interconnects Newsletter — Gründete und schreibt einen Substack-Newsletter, der LLM-Post-Training, Open-Source-KI und die politische Ökonomie des Feldes abdeckt; auf über 60.000 Abonnenten angewachsen und auf Substack auf Platz 39 in der Kategorie Technologie, was ihn zu einem der meistgelesenen technischen ML-Newsletter macht.
  • RLHF Book (Reinforcement Learning from Human Feedback, rlhfbook.com / arXiv 2504.12501) — Ein allein verfasstes Buch in Buchlänge über die gesamte RLHF- und Post-Training-Pipeline, das Instruction Tuning, Belohnungsmodellierung, PPO, DPO, RLVR und offene Forschungsfragen abdeckt; frei verfügbar als lebendiges arXiv-Dokument und demnächst im Druck.
  • SAIL (Substack Artificial Intelligence Library) — Mitbegründer von readsail.com, einer kuratierten Leseressource für KI-Forschung.
  • Interconnects Interviews — Moderiert eine Podcast-Serie, in der führende KI-Forscher zu technischen Trends interviewt werden, als Ergänzung zum geschriebenen Newsletter.
  • China AI Lab Trip Report (Mai 2026) — Bericht aus erster Hand über den Besuch der führenden chinesischen LLM-Labore (Moonshot, Z.ai, 01.ai, Meituan, Xiaomi, Tsinghua), der eine seltene organisations- und kulturanalytische Perspektive aus erster Hand bietet; weithin gelesen in Politik- und Forschungsgemeinschaften.

Auszeichnungen & Anerkennung

  • UC Berkeley EECS Demetri Angelakos Memorial Achievement Award for Altruism — Während seiner Promotion für Beiträge zu Gemeinschaftsnormen und Betreuung jüngerer Studierender verliehen.
  • Lex Fridman Podcast-Auftritte (Februar 2025, Februar 2026) — Zweimal eingeladen zu einem der meistgehörten KI-Podcasts: zunächst, um DeepSeek und dessen Auswirkungen auf das KI-Wettrennen zwischen den USA und China zu diskutieren, und erneut für einen breiten Überblick über den Stand der KI-Kunst im Jahr 2026.
  • Interconnects — Platz 39 in Technologie auf Substack — Die Platzierung spiegelt organisches Abonnentenwachstum wider, das ausschließlich durch technische und analytische Inhalte erzielt wurde, ohne institutionelle Unterstützung oder Werbeausgaben.

Wichtige Beziehungen

  • Kristofer S.J. Pister — Doktorvater; Pionier von Smart Dust und Mikrorobotik in Berkeley; gab Lambert seine Grundlagen in physikalischen Systemen und hardwarebeschränktem RL.
  • Roberto Calandra — PhD-Co-Betreuer von Meta AI Research; verband Lamberts Mikrorobotik-Arbeit mit der Literatur zum groß angelegten modellbasierten RL.
  • Liam Fedus / OpenAI Post-Training-Gemeinschaft — Lamberts Arbeit an Tülu benchmarkt direkt gegen OpenAIs Post-Training-Arbeit; sein Newsletter analysiert und kontextualisiert häufig OpenAI-Veröffentlichungen, und er hat über die gemeinschaftliche Überschneidung in der Post-Training-Methodik gesprochen.
  • Yann Dubois & HuggingFace RLHF-Team — Kollegen während der HuggingFace-Zeit, als offene RLHF-Tooling aufgebaut wurde.
  • Ai2 / OLMo-Team — Enge Mitarbeiter an der gesamten OLMo-Pipeline; das Team arbeitet bewusst in einem kleineren Maßstab (~10–15 Personen) als Frontier-Labore, was Lambert sowohl als Einschränkung als auch als Quelle von Agilität bezeichnet hat.
  • Jordan Schneider (ChinaTalk) — Wiederkehrender Mitarbeiter und Podcast-Moderator; Lamberts Chinareise wurde in Zusammenarbeit mit dem ChinaTalk-Ökosystem organisiert und verknüpft KI-technische Analyse mit geopolitischer Rahmung.

Persönlicher Stil

Lamberts Stimme ist bewusst gegen die Hype-Zyklen kalibriert, die einen Großteil der KI-Kommentare prägen: Er neigt dazu, nach präzisen technischen Definitionen zu greifen, wo andere nach Marketing-Sprache greifen, und er steht Behauptungen, die nicht an offenen Benchmarks getestet werden können, offen skeptisch gegenüber. Seine Entscheidung, sich außerhalb von San Francisco niederzulassen — bemerkenswert in einem Bereich, in dem die Nähe zu Noe-Valley-Coffee-Meetings fast schon beruflich obligatorisch geworden ist — hat er als Schutz der Unabhängigkeit seiner Analysen bezeichnet. Sein Schreiben mischt tutorialartige technische Darlegung mit Kommentaren zur politischen Ökonomie darüber, wer die KI-Infrastruktur kontrolliert – eine Kombination, die auf dem Gebiet selten genug ist, um eine große disziplinübergreifende Leserschaft aufzubauen. Außerhalb der Forschung ist er ein wettbewerbsorientierter Bergläufer, und seine Selbstbeschreibung („mountain runner, dog dad“) taucht in praktisch jeder seiner Biografien auf – eine ungewöhnlich persönliche Note in einem Feld, in dem Forscher normalerweise mit ihren Zugehörigkeiten beginnen.


Referenzen