Susan Zhang

ref · 2026 年5 月 27 日 13:12

美籍华裔研究工程师，曾在OpenAI为Dota 2构建了最大规模的强化学习系统之一，在Meta AI共同领导了OPT-175B的训练基础设施建设和开放发布，并合著了LIMA——这篇论文表明对齐并不需要大规模标注数据集。

个人简介


国籍	美国（美籍华裔）
当前机构	Google DeepMind（首席研究工程师）
研究领域	大规模机器学习系统、LLM训练基础设施、大规模强化学习、对齐、多模态语言模型
教育背景	普林斯顿大学数学学士
个人网站	suchenzang.github.io
推特/X	@suchenzang
GitHub	suchenzang
谷歌学术	Susan Zhang

概述

Susan Zhang是一位美籍华裔研究工程师和分布式系统专家，目前担任Google DeepMind（位于旧金山湾区）的首席研究工程师。她以两项里程碑式项目而闻名：构建了有史以来规模最大的强化学习训练系统之一，该系统为击败职业Dota 2战队的智能体OpenAI Five提供了动力；以及在Meta AI共同领导了OPT-175B的开发和开放发布，这是第一个公开发布完整权重、训练代码和114页操作日志的1750亿参数语言模型。OPT的发布为大语言模型开发的透明度树立了行业先例，并直接影响了下游的开源LLM项目。她还合著了LIMA（Less Is More for Alignment），该研究表明，仅需1000个精心挑选的示例，就能达到与使用数量级更多数据训练的模型相媲美的对齐质量。她对自己的描述——„我的专长是构建大型系统来处理大数据并开发大型模型“——准确地概括了她的职业生涯：她工作在系统工程和研究的交叉领域，在这里，训练前沿模型的基础设施本身就是一个科学和工程的挑战。

教育与早期职业生涯

Zhang在普林斯顿大学攻读数学，并获得了学士学位。在进入AI系统工作之前，她曾在洛斯阿拉莫斯国家实验室工作，并在多家云服务提供商担任数据基础设施方面的职务，积累了分布式系统的背景，这为她后来处理现代LLM训练流程的规模奠定了坚实基础。她还曾在Unity Games工作过一段时间，涉足游戏和技术基础设施的交叉领域，之后才完全转向AI研究系统。

职业生涯

OpenAI——强化学习系统工程师（约2018–2021）

在OpenAI Five（Dota 2强化学习智能体）开发期间，Zhang加入了OpenAI。她构建了训练系统的核心组件——这是历史上最大规模的强化学习训练流程之一，运行在数万个CPU核心上，采用异步自我对弈方式——使得OpenAI Five能够达到职业选手水平，并于2019年4月在一场现场比赛中击败了一支世界冠军队伍。该系统需要解决远超以往工作的分布式强化学习中的基本问题：管理数千个游戏环境、协调众多并行工作进程之间的梯度更新、以及维持持续数月自我对弈中的训练稳定性。这项工程贡献在OpenAI Five的主要技术论文（„Dota 2 with Large Scale Deep Reinforcement Learning“，arXiv 2019）以及两篇关于长期规划和情境感知的配套论文中得到了认可。2022年初，她曾在计算机历史博物馆和哈佛大学CS50课程上就OpenAI Five系统发表演讲，提供了关于该系统背后工程决策的最详尽的公开记录之一。

Meta AI / FAIR——研究工程师（约2021–2022）

Zhang加入Meta AI的基础AI研究组，担任LLM训练基础设施项目的首席工程师，该项目产生了OPT-175B。该项目在992块80GB A100 GPU上训练了一个拥有1750亿参数的GPT-3级别的纯解码器Transformer，每块GPU达到了147 TFLOP/s的利用率——其质量与GPT-3相当，但碳足迹仅为后者的约七分之一。训练在新硬件上耗时56天，期间出现了反复的不稳定性、硬件故障和检查点回滚，需要实时做出工程决策。

2022年5月的发布在三个方面树立了行业先例。首先，它根据研究许可提供了完整的模型权重——这是GPT-3级别的模型首次公开提供。其次，它发布了完整的训练代码库metaseq，这是一个用于训练大型Transformer语言模型的开源框架，随后得到了广泛应用。第三，也是最独特的一点，它发布了114页的操作日志，逐日记录了每一起重大训练事件：硬件故障、损失尖峰、超参数更改和工程应对措施。这种透明度在前沿LLM开发中前所未有，为研究社区提供了大规模LLM训练在实践中究竟是什么样的真实记录。Zhang在NeurIPS 2022（Has It Trained Yet? Workshop）、Scale Transform X (2022)、斯坦福MLSys研讨会 (2023) 和CMU的LLM研讨会 (2023) 上介绍了OPT的工作。

在OPT之后，Zhang贡献了《Scaling Laws for Generative Mixed-Modal Language Models》论文（2023年），该研究探讨了扩展定律如何适用于处理图像和文本的模型，以及CM3多模态自回归模型（„Scaling Autoregressive Multi-Modal Models“，2023年）。她还为两篇描述训练动态的理论相关论文做出了贡献：„A Theory on Adam Instability in Large-Scale Machine Learning“和„Effective Theory of Transformers at Initialization“，均发表于2023年。

LIMA: Less Is More for Alignment (NeurIPS 2023). Zhang合著了LIMA（与周春婷、刘鹏飞、Punit Singh Koura、陈伟柱、Graham Neubig等人），该论文仅使用1000个精心手工策划、涵盖多样化任务和格式的示例，对650亿参数的LLaMA模型进行了微调。在大多数评估维度上，LIMA匹配甚至超越了使用RLHF在数量级更大的数据集上训练的模型，挑战了当时主流的观点，即对齐需要大量带反馈标注的训练数据。论文中提出的„浅层对齐假说“——即模型的知识和能力是在预训练阶段建立的，而微调主要调整输出格式和风格——成为了对齐和RLHF文献中的一个有影响力的框架。

Luminous Computing（短暂间隔，约2022–2023）

在以系统工程身份加入Google DeepMind之前，Zhang曾短暂在光计算初创公司Luminous Computing工作，该公司致力于AI加速的光学硬件。

Google DeepMind——首席研究工程师（约2023年至今）

Zhang以首席研究工程师的身份加入Google DeepMind，继续从事大规模训练系统与研究交叉领域的工作。她常驻旧金山湾区。

主要贡献

OpenAI Five强化学习训练系统 (2018–2019)——共同构建了训练OpenAI Five的分布式强化学习基础设施，这是有史以来计算量最大的强化学习流程之一。通过数月的实际训练时间积累的相当于数千年自我对弈经验，使智能体击败了职业Dota 2世界冠军。OpenAI Five主要论文（arXiv 2019）及关于规划和情境感知的配套论文的合著者。
OPT-175B (arXiv 2022, 第一作者)——共同领导了Open Pre-trained Transformers (OPT-175B) 的开发和开放发布，这是首个公开发布的175B参数语言模型，以七分之一的碳排放量达到了GPT-3的性能。发布内容包括完整的模型权重、metaseq训练代码库以及一份114页的逐日训练日志——在当时为大语言模型的开发设定了最透明的标准。
metaseq——共同开发并发布了metaseq，Meta开源的大规模语言模型训练框架，不仅用于训练OPT-175B，还被后续研究广泛采用。
LIMA: Less Is More for Alignment (NeurIPS 2023)——合著论证了仅需1000个高质量的对齐示例即可产生与大型RLHF模型相媲美的指令遵循质量，提出了„浅层对齐假说“，挑战了关于对齐训练数据需求的主流假设。
生成式混合模态语言模型的扩展定律 (2023)——合著了一项实证研究，将扩展定律分析扩展到涵盖文本和图像的多模态语言模型，描述了计算最优的模型和数据分配如何在不同模态之间变化。
Adam不稳定性与Transformer初始化理论 (2023)——合著了两篇论文，为大规模训练中观察到的不稳定现象提供了理论和实证基础：描述了Adam优化器的失效模式，并推导了变压器在初始化时权重分布的有效理论。

奖项与认可

NeurIPS 2022研讨会报告——OPT-175B在NeurIPS 2022的„Has It Trained Yet? Workshop“上发表。
斯坦福MLSys研讨会 (2023)——受邀就OPT-175B训练基础设施发表演讲，该演讲是MLSys系列研讨会中观看次数最多的之一。
哈佛大学CS50课程和计算机历史博物馆 (2022)——受邀就OpenAI Five发表演讲，向广大公众群体提供了对大规模强化学习系统的技术性描述。

关键合作关系

Stephen Roller和Naman Goyal——与Zhang共同担任OPT-175B论文的同等贡献联合第一作者；一起代表了该项目的核心工程团队。
Luke Zettlemoyer——Meta AI的OPT项目研究负责人；提供了塑造OPT发布和LIMA论文的学术研究方向。
Myle Ott——Meta AI工程师，OPT论文合著者；metaseq的设计在很大程度上归功于Ott之前开发的fairseq框架。
Christopher Berner, Christy Dennison——OpenAI Five项目中的OpenAI工程同事；Zhang在Berner等人领导的RL工程团队中工作。
周春婷和Graham Neubig——LIMA合著者；Neubig（卡内基梅隆大学）为对齐假说提供了学术研究背景。

个人风格

Zhang将她的职业身份描述为通才，在少数互补领域拥有深厚专业知识——她曾公开阐述这是刻意的职业策略：在系统、机器学习理论和工程领域保持广泛能力，同时随着时间的推移积累罕见的组合深度。她已发表的工作涵盖强化学习系统、LLM基础设施、训练理论和对齐，与这一理念相符。OPT训练日志——她倡导将其作为发布的一部分——反映了她对透明度的价值观承诺，这在前沿模型开发中不同寻常：展示的不仅是最终模型，还有每一次失败、调试决策和硬件事故。她在推特上拥有超过44,000名关注者，并利用这个平台评论AI研究趋势、基础设施实践以及更广泛的科技行业动态。她的个人简介简洁地概括了她的职业生涯：„@ Google DeepMind。此前：@MetaAI, @OpenAI, @unitygames, @losalamosnatlab, @Princeton等。始终渴求智慧。“

参考资料

个人网站：suchenzang.github.io
谷歌学术：scholar.google.com
OPT-175B论文：arxiv.org/abs/2205.01068
metaseq：github.com/facebookresearch/metaseq
OPT训练日志：github.com/facebookresearch/metaseq/tree/main/projects/OPT/chronicles
LIMA论文：arxiv.org/abs/2305.11206
OpenAI Five论文：arxiv.org/abs/1912.06680
斯坦福MLSys演讲 (2023)：youtube.com/watch?v=p9IxoSkvZ-M
Digg个人资料：digg.com/u/x/suchenzang