Nathan Lambert 是一位机器学习研究员和工程师

ref · 2026 年5 月 28 日 08:53

这位伯克利培养的机器人学博士，现担任艾伦人工智能研究所（Allen Institute for AI）的后训练负责人。他的开源模型项目、《RLHF 书》以及《Interconnects》通讯，使他成为 LLM 对齐与后训练领域最接地气的公共发声者之一。

简介


国籍	美国
现任职机构	艾伦人工智能研究所（Allen Institute for AI, Ai2）—— 资深研究科学家，后训练负责人
研究领域	RLHF，后训练，开放语言模型，基于模型的强化学习，机器人控制
博士导师	Kristofer S.J. Pister；Roberto Calandra（Meta AI Research 联合导师）
博士论文	《基于模型的强化学习中预测与控制的协同》（加州大学伯克利分校，2022 年）
个人网站	natolambert.com
博客	interconnects.ai —— 订阅者超过 60,000 人
X / Twitter	@natolambert
GitHub	natolambert
Google 学术	Nathan Lambert

概览

Nathan Lambert 是一位美国机器学习研究员，他的职业生涯从伯克利的微型机器人控制，逐步演变为开源 LLM 后训练领域的重要角色之一。作为艾伦人工智能研究所（Ai2）的后训练负责人，他一直是 OLMo（首批完全开放预训练语言模型之一）和 Tülu 后训练技术系列的核心推动者。Tülu 系列证明了，一个小型开源团队可以在同一基础模型上，匹配 Meta 专有后训练的指令遵循质量。与此同时，Lambert 还在运营《Interconnects》系列通讯（Substack 平台），该通讯已发展到超过 60,000 名订阅者，是业内对 LLM 研究、政策以及开放与封闭模型之争进行技术性公众评论的重要阵地之一。他独立撰写了《RLHF 书》（即将由 rlhfbook.com 出版印刷版），该书以免费 arXiv 文档形式流传，并被广泛用作从业者参考指南。

早期经历与教育

Lambert 在本科和早期研究生阶段学习电气工程与计算机科学。他在加州大学伯克利分校电气工程与计算机科学系获得博士学位，师从 Kristofer Pister 教授（伯克利自主微系统实验室），并由 Meta AI Research 的 Roberto Calandra 联合指导。他的博士论文《基于模型的强化学习中预测与控制的协同》（2022 年），横跨基于模型的强化学习与微型机器人控制两个领域——这一独特结合使他在早期便同时积累了强化学习的理论基础和真实物理系统的工程需求。博士期间，他曾在 Facebook AI Research 和 DeepMind 实习，均从事基于模型的控制强化学习工作，并因其在改善社区规范和指导低年级学生方面的努力，获得了 UC Berkeley EECS Demetri Angelakos 纪念成就奖（利他主义奖）。

职业生涯

加州大学伯克利分校 —— 博士阶段（2018–2022）

Lambert 的博士工作致力于解决微型机器人平台上构建样本高效学习控制器这一挑战，将基于模型的预测与闭环控制相结合。在此期间，他在 Facebook AI Research 和 DeepMind 的实习，将他从硬件受限的机器人领域拓展到了大规模强化学习系统。这段经历使他形成了双重视角——既像工程师一样尊重将论断扎根于物理现实，又像研究者一样渴望探索强化学习的理论机制——这后来塑造了他在 RLHF 和后训练方面的工作方式。

Hugging Face（2022–2023）

博士毕业后，Lambert 加入 Hugging Face，从零开始帮助构建该公司的 RLHF 研究职能。在 ChatGPT 让 RLHF 成为人尽皆知的缩写的时代，这个角色使他置身于这一新兴领域的中心。他围绕奖励建模和偏好学习，贡献了开源工具和教育资源，并创办了 Interconnects 系列通讯，旨在让快速演变的文献对更广泛的受众更具可及性。这段 Hugging Face 经历为他树立了 RLHF 机制值得信赖的解释者的声誉，恰逢公众对此兴趣最为浓厚的时期。

艾伦人工智能研究所（Ai2）（2023 年至今）

Lambert 以资深研究科学家身份加入 Ai2，并被任命为后训练负责人。他的主要项目是 OLMo（Ai2 的完全开放预训练语言模型系列，随附权重、训练数据和训练代码）和 Tülu（相应的后训练技术）。Tülu 3（2024 年）尤其引人注目，它证明了开放食谱的后训练能够在共享的 LLaMA 基座上匹配 Meta 的指令调优质量，这是开放模型生态系统可行性的一个具体概念验证。他曾将 OLMo 描述为他加入 Ai2 的主要原因，视完全开放（数据、代码和权重）为使 AI 更可审计、更具竞争力的最可行的杠杆。他还开发了 Tülu 3.1，通过群体相对策略优化（GRPO）整合了带可验证奖励的强化学习（RLVR），并扩展到 OLMo 2 32B。2026 年 4 月，他访问了中国，走访了大部分领先的 AI 实验室，包括 Moonshot AI、Z.ai、01.ai、美团和小米，并发布了一份广为流传的访问报告，比较了中美研究环境的文化和组织差异。

主要贡献

OLMo（开放语言模型）—— Ai2 旗舰级完全开放预训练语言模型系列的核心贡献者，发布了权重、训练数据（Dolma）和训练代码；是少数几个学术联合组织之外最全面的开放式食谱大型语言模型项目。
Tülu / Tülu 3—— 领导的后训练技术方案，在共享 LLaMA 基座上匹配了 Meta 的指令遵循质量，且完全可复现；Tülu 3.1 进一步整合了 RLVR/GRPO，使 OLMo 2 32B 在学术基准测试上超越了 GPT-3.5 Turbo，成为首个达成此成就的完全开放模型。
《Interconnects》通讯—— 创办并撰写的一份 Substack 通讯，涵盖 LLM 后训练、开源 AI 以及该领域的政治经济学；已增长至超过 60,000 名订阅者，在 Substack 科技类排名第 39 位，成为阅读量最广的技术类 ML 通讯之一。
《RLHF 书》（《基于人类反馈的强化学习》，rlhfbook.com / arXiv 2504.12501）—— 由作者独立完成的关于 RLHF 和后训练全流程的专著，涵盖指令微调、奖励建模、PPO、DPO、RLVR 及开放研究问题；作为“活文档”在 arXiv 上免费提供，纸质版即将出版。
SAIL（Substack 人工智能图书馆）—— 联合创办 readsail.com，这是一个经策划的 AI 研究阅读资源。
《Interconnects》访谈播客—— 主持一档播客系列，采访领先的 AI 研究人员，探讨技术趋势，作为文字通讯的补充。
中国 AI 实验室访问报告（2026 年 5 月）—— 第一手记录对主要中国 LLM 实验室（Moonshot、Z.ai、01.ai、美团、小米、清华大学）的访问，提供了罕见的组织和文化分析；在政策界和研究界被广泛阅读。

荣誉与认可

加州大学伯克利分校 EECS Demetri Angelakos 纪念成就奖（利他主义奖）—— 因其对社区规范和低年级学生指导的贡献，在博士期间被授予。
Lex Fridman 播客两次受邀（2025 年 2 月，2026 年 2 月）—— 两次受邀参加流量最大的 AI 播客之一：第一次讨论 DeepSeek 及其对中美 AI 竞赛的影响；第二次则对 2026 年 AI 技术现状进行了广泛概述。
《Interconnects》—— Substack 科技类排名第 39 位—— 该排名完全源于完全基于技术与分析内容带来的自然订阅增长，无任何机构背书或推广投入。

核心关系网

Kristofer S.J. Pister—— 博士导师；伯克利智能微尘（Smart Dust）和微型机器人学的先驱；为 Lambert 奠定了物理系统和硬件约束下强化学习的基础。
Roberto Calandra—— 来自 Meta AI Research 的博士联合导师；将 Lambert 的微型机器人工作与大规模基于模型的强化学习文献联系起来。
Liam Fedus / OpenAI 后训练社区—— Lambert 的 Tülu 工作直接以 OpenAI 的后训练工作为基准；他的通讯经常分析并交代 OpenAI 发布的背景信息，他还曾谈及后训练方法论中的社区重叠。
Yann Dubois 与 HuggingFace RLHF 团队—— 在 Hugging Face 时期开发开源 RLHF 工具时的同事。
Ai2 / OLMo 团队—— OLMo 全流程的紧密合作者；该团队刻意保持较小规模（约 10～15 人），与前沿实验室形成对比，Lambert 曾指出这既是约束，也是灵活性的来源。
Jordan Schneider (ChinaTalk)—— 长期合作者与播客主持人；Lambert 的中国之行是与中国生态系统合作组织的，将 AI 技术分析与地缘政治框架相结合。

个人风格

Lambert 的表达方式刻意与 AI 评论界常见的炒作周期保持距离：他倾向于在别人使用营销语言时使用精确的技术定义，并且公开怀疑那些无法通过开放基准进行检验的论断。他选择在旧金山以外的地方定居——在一个前往 Noe Valley 咖啡馆会面几乎已成为职业惯例的领域中，这显得尤为突出——他将其解读为保护其分析独立性的方式。他的写作将教程式的技术阐述与关于谁控制 AI 基础设施的政治经济学评论融为一体，这种组合在该领域如此罕见，以至于聚集了大批跨学科的读者。在科研之外，他是一名出色的山地跑者，他的自我介绍（“山地跑者，狗爹”）几乎出现在他写的每一个简介中——在一个研究人员通常以机构身份开头的领域，这显得异常个人化。