John Schulman

ref · 2026 年5 月 25 日 05:35

OpenAI 联合创始人及 ChatGPT 架构师，被广泛认为是基于人类反馈的强化学习和现代策略优化算法背后的主要人物之一。

个人简介

领域	详情
出生	1987 或 1988 年，美国
国籍	美国
现任机构	Thinking Machines Lab（首席科学家，2025 年至今）
研究方向	强化学习、策略优化、RLHF、AI 对齐
博士导师	Pieter Abbeel
博士论文	Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs（加州大学伯克利分校，2016 年）
个人网站	joschu.net
X / Twitter	@johnschulman2
GitHub	@joschu

概述

John Schulman 是一位美国人工智能研究员，最知名的身份是 OpenAI 的联合创始人以及 ChatGPT 训练方法论的主要架构师。他的基础算法——信任区域策略优化 (TRPO) 和近端策略优化 (PPO)——已成为通过基于人类反馈的强化学习 (RLHF) 训练大型语言模型的事实标准，并且仍是现代 AI 领域被引用最多的作品之一。在 OpenAI 近十年间，他共同领导了负责 GPT 模型系列的后训练团队，之后于 2024 年短暂加入 Anthropic 的对齐科学团队，随后于 2025 年初成为 Thinking Machines Lab 的首席科学家。Schulman 处于深度理论贡献与变革性真实世界产品影响的交汇点，占据着罕见的位置。

早年生活与教育

Schulman 在长岛长大，就读于 Great Neck South 高中，他早期的兴趣涵盖科学、数学和科幻小说——尤其是艾萨克·阿西莫夫的作品。在七年级时，他对电视节目《BattleBots》产生了浓厚的兴趣，这促使他进行了他所说的第一次自主学习，广泛阅读工程学和物理学，以期制造出更优秀的战斗机器人，但这个项目最终未能完成。2005 年，他作为美国物理奥林匹克代表队成员代表美国参赛。

物理学学士——加州理工学院 (Caltech)，2010 年
Schulman 在加州理工学院完成了本科学业，期间一系列的物理研究实习让他对神经科学和 AI 比对物理学本身更加好奇。

神经科学研究生初期学习——加州大学伯克利分校
到达伯克利后，Schulman 进入了神经科学项目并完成了数次实验室轮转。他的最后一次轮转是在 Pieter Abbeel 教授指导下进行的，后者在直升机控制和毛巾折叠机器人方面的研究起到了决定性的作用。

电气工程与计算机科学 (EECS) 博士——加州大学伯克利分校，2016 年
在 Abbeel 实验室轮转后，Schulman 转换了院系，专注于机器人和深度强化学习。他的博士论文 Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs 为 TRPO 及后续的广义优势估计 (GAE) 框架奠定了理论基础。Abbeel 在整个过程中担任他的导师。

职业生涯

加州大学伯克利分校——Abbeel 实验室 (2010–2015)

作为博士生，Schulman 的早期工作集中在机器人操作——轨迹优化、缝合任务和可变形物体跟踪。他 2013 年关于无碰撞轨迹的序列凸优化 (TrajOpt) 论文获得了 ICRA 最佳视觉论文奖。随着时间的推移，他的研究重点转向了策略梯度方法以及稳定且样本高效的强化学习的理论问题。这最终促成了 TRPO（发表于 ICML 2015），它引入了一种原则性的信任区域更新机制来防止破坏性的策略变化；以及 GAE（发表于 ICLR 2016），它提供了一个用于优势估计的方差缩减框架。

OpenAI（2015 年 12 月 – 2024 年 8 月）

Schulman 于 2015 年 12 月与 Sam Altman、Elon Musk、Ilya Sutskever、Greg Brockman、Andrej Karpathy、Wojciech Zaremba 等人共同创立了 OpenAI，当时他尚未完成博士学位。在 OpenAI，他领导了强化学习研究团队，该团队产出了持续不断的基础性工作：

PPO (2017)： 作为 TRPO 的简化后继者，PPO 使用一个裁剪的替代目标函数，成为大规模策略优化的标准算法，在机器人技术、游戏和语言模型微调中得到广泛应用。
OpenAI Gym (2016)： 共同撰写了该基准测试工具包，它使整个领域的强化学习研究环境标准化。
用于语言的 RLHF (2017–2022)： Schulman 识别出 Paul Christiano 早期在非语言任务上的 RLHF 工作的潜力，并领导了将其应用于大型语言模型的工作，最终产生了 InstructGPT 并最终催生了 ChatGPT。
ChatGPT (2022)： Schulman 领导了负责 ChatGPT 的强化学习和后训练团队，ChatGPT 于 2022 年 11 月发布。他被广泛描述为 ChatGPT 的“架构师”。值得注意的是，GPT-4 在 ChatGPT 发布之前就已经训练完毕；然而，ChatGPT 的公众反响甚至令内部团队感到惊讶。
后训练联合负责人 (2022–2024)： 从 2022 年到离开，Schulman 共同领导 OpenAI 的后训练团队，负责监督 ChatGPT 产品和 OpenAI API 模型的开发。

Anthropic——对齐科学团队（2024 年 8 月 – 2025 年 2 月）

Schulman 于 2024 年 8 月宣布离开 OpenAI，他表示自己的动机是希望加深对 AI 对齐的关注，并回归更亲力亲为的技术研究。他加入了 Anthropic 的对齐科学团队，从事以安全为导向的研究。他的任期很短暂；到 2025 年 2 月，他离开并加入了一家新的企业。

Thinking Machines Lab（2025 年 2 月至今）

在 OpenAI 前 CTO Mira Murati 创立 Thinking Machines Lab 后不久，Schulman 以首席科学家的身份加入。这家初创公司的创始团队还包括 Lilian Weng 和（最初）Barret Zoph，专注于先进 AI 系统的开发。他在该实验室公开的研究兴趣仍然集中在强化学习和 AI 对齐。

主要贡献

信任区域策略优化 (TRPO)——发表在 ICML 2015，TRPO 引入了一种理论上严谨的策略更新约束机制，以防止训练过程中的不稳定性。它成为深度强化学习领域最具影响力的论文之一，并直接促成了后续在连续控制和语言模型微调方面的工作。
近端策略优化 (PPO)——发表于 2017 年，PPO 将 TRPO 的约束优化简化为一个更易于大规模实现的一阶裁剪目标函数。它成为该领域占主导地位的强化学习算法，作为 InstructGPT、ChatGPT 及大多数后续指令调优模型的 RLHF 流水线的核心，已被引用数万次。
广义优势估计 (GAE)——发表于 ICLR 2016，GAE 为策略梯度估计中的方差-偏差权衡提供了一个统一的框架，在强化学习实现中被广泛采用。
OpenAI Gym——于 2016 年共同编写，这个标准化的基准测试工具包从根本上改变了强化学习研究社区评估算法的方式，使得跨数百个环境的可重复比较成为可能。
大规模 ChatGPT 和 RLHF——Schulman 领导了将 RLHF 应用于 GPT 类语言模型的研究工作，产出了 InstructGPT (2022)，随后是 ChatGPT，证明了对齐技术可以同时提高模型的有用性、安全性和公众可访问性。
《人工智能安全的具体问题》——2016 年与 Dario Amodei、Chris Olah 等人合著，该论文阐述了一套安全故障模式的分类（奖励黑客攻击、安全探索、分布偏移），塑造了 AI 安全领域的早期议程。
《逐步验证》(2023)——合著作品，引入了用于评估多步推理的过程奖励模型 (PRM)，推动了该领域对如何监督大型语言模型思维链的理解。
随机计算图——发表于 NeurIPS 2015，该框架统一了通过随机节点的策略梯度和反向传播，为其博士论文及随后的一系列梯度估计技术提供了理论基础。

奖项与荣誉

Mark Bingham 青年校友卓越成就奖 (2025)——由加州大学伯克利分校计算、数据科学与社会学院颁发；表彰杰出的早期职业校友成就。
《麻省理工科技评论》35 岁以下创新者 (2018)——因对深度强化学习和 AI 研究的贡献而被公认为先驱。
ICRA 最佳视觉论文奖 (2013)——凭借与 Pieter Abbeel 团队合著的《使用点云跟踪可变形物体》获得此奖。
美国物理奥林匹克代表队 (2005)——还在高中时就入选国家队。

关键关系

Pieter Abbeel——加州大学伯克利分校的博士导师；Abbeel 的机器人实验室是 Schulman 从神经科学转向 AI 的直接催化剂，他们的合作产生了 TRPO、GAE 以及一些机器人学论文。
Sam Altman——OpenAI 的联合创始人兼 CEO；Altman 在创始时担任联席主席，并且是 Schulman 在 OpenAI 成长为一家以产品为中心的公司的过程中的组织对应方。
Ilya Sutskever——OpenAI 联合创始人；在扩展和语言模型研究方面的密切合作者，包括共同撰写 RL² 和《人工智能安全的具体问题》。
Paul Christiano——前 OpenAI 安全研究员；Schulman 将他早期在非语言任务上的 RLHF 工作视为 ChatGPT 训练方法的种子；现就职于对齐研究中心。
Mira Murati——前 OpenAI CTO，现任 Thinking Machines Lab 创始人兼 CEO；Schulman 于 2025 年 2 月作为首席科学家加入她的初创公司。
Andrej Karpathy——同为 OpenAI 联合创始人；是 Schulman 在 AI 研究社区中最著名的专业同行和追随者之一。
Lilian Weng——前 OpenAI AI 安全副总裁；与 Schulman 同为 Thinking Machines Lab 的创始团队成员。
Dario Amodei——《人工智能安全的具体问题》的合著者；Anthropic 的创始人，Schulman 曾在 2024 年短暂加入该组织。

个人风格

Schulman 的研究哲学以偏爱原则性的理论基础为特征——最著名的是使用信任区域和 KL 散度约束——并将其应用于实际规模前沿的问题。他的智力轨迹从物理学到神经科学，再到机器人学，最后到语言模型，反映了一种倾向：遵循理解智能的最易处理路径，而不是固守单一方法论。在公开场合，他对不确定性表现得非常坦诚，包括对 ChatGPT 的反响甚至让创作者感到惊讶。在研究之外，他公开的兴趣包括观鸟和爵士乐，这些偏好大致映射出对具有涌现复杂性的系统的更广泛的欣赏。