Susan Zhang

美籍华裔研究工程师,曾在OpenAI为Dota 2构建了最大规模的强化学习系统之一,在Meta AI共同领导了OPT-175B的训练基础设施建设和开放发布,并合著了LIMA——这篇论文表明对齐并不需要大规模标注数据集。


个人简介

国籍 美国(美籍华裔)
当前机构 Google DeepMind(首席研究工程师)
研究领域 大规模机器学习系统、LLM训练基础设施、大规模强化学习、对齐、多模态语言模型
教育背景 普林斯顿大学数学学士
个人网站 suchenzang.github.io
推特/X @suchenzang
GitHub suchenzang
谷歌学术 Susan Zhang

概述

Susan Zhang是一位美籍华裔研究工程师和分布式系统专家,目前担任Google DeepMind(位于旧金山湾区)的首席研究工程师。她以两项里程碑式项目而闻名:构建了有史以来规模最大的强化学习训练系统之一,该系统为击败职业Dota 2战队的智能体OpenAI Five提供了动力;以及在Meta AI共同领导了OPT-175B的开发和开放发布,这是第一个公开发布完整权重、训练代码和114页操作日志的1750亿参数语言模型。OPT的发布为大语言模型开发的透明度树立了行业先例,并直接影响了下游的开源LLM项目。她还合著了LIMA(Less Is More for Alignment),该研究表明,仅需1000个精心挑选的示例,就能达到与使用数量级更多数据训练的模型相媲美的对齐质量。她对自己的描述——„我的专长是构建大型系统来处理大数据并开发大型模型“——准确地概括了她的职业生涯:她工作在系统工程和研究的交叉领域,在这里,训练前沿模型的基础设施本身就是一个科学和工程的挑战。


教育与早期职业生涯

Zhang在普林斯顿大学攻读数学,并获得了学士学位。在进入AI系统工作之前,她曾在洛斯阿拉莫斯国家实验室工作,并在多家云服务提供商担任数据基础设施方面的职务,积累了分布式系统的背景,这为她后来处理现代LLM训练流程的规模奠定了坚实基础。她还曾在Unity Games工作过一段时间,涉足游戏和技术基础设施的交叉领域,之后才完全转向AI研究系统。


职业生涯

OpenAI——强化学习系统工程师(约2018–2021)

在OpenAI Five(Dota 2强化学习智能体)开发期间,Zhang加入了OpenAI。她构建了训练系统的核心组件——这是历史上最大规模的强化学习训练流程之一,运行在数万个CPU核心上,采用异步自我对弈方式——使得OpenAI Five能够达到职业选手水平,并于2019年4月在一场现场比赛中击败了一支世界冠军队伍。该系统需要解决远超以往工作的分布式强化学习中的基本问题:管理数千个游戏环境、协调众多并行工作进程之间的梯度更新、以及维持持续数月自我对弈中的训练稳定性。这项工程贡献在OpenAI Five的主要技术论文(„Dota 2 with Large Scale Deep Reinforcement Learning“,arXiv 2019)以及两篇关于长期规划和情境感知的配套论文中得到了认可。2022年初,她曾在计算机历史博物馆和哈佛大学CS50课程上就OpenAI Five系统发表演讲,提供了关于该系统背后工程决策的最详尽的公开记录之一。

Meta AI / FAIR——研究工程师(约2021–2022)

Zhang加入Meta AI的基础AI研究组,担任LLM训练基础设施项目的首席工程师,该项目产生了OPT-175B。该项目在992块80GB A100 GPU上训练了一个拥有1750亿参数的GPT-3级别的纯解码器Transformer,每块GPU达到了147 TFLOP/s的利用率——其质量与GPT-3相当,但碳足迹仅为后者的约七分之一。训练在新硬件上耗时56天,期间出现了反复的不稳定性、硬件故障和检查点回滚,需要实时做出工程决策。

2022年5月的发布在三个方面树立了行业先例。首先,它根据研究许可提供了完整的模型权重——这是GPT-3级别的模型首次公开提供。其次,它发布了完整的训练代码库metaseq,这是一个用于训练大型Transformer语言模型的开源框架,随后得到了广泛应用。第三,也是最独特的一点,它发布了114页的操作日志,逐日记录了每一起重大训练事件:硬件故障、损失尖峰、超参数更改和工程应对措施。这种透明度在前沿LLM开发中前所未有,为研究社区提供了大规模LLM训练在实践中究竟是什么样的真实记录。Zhang在NeurIPS 2022(Has It Trained Yet? Workshop)、Scale Transform X (2022)、斯坦福MLSys研讨会 (2023) 和CMU的LLM研讨会 (2023) 上介绍了OPT的工作。

在OPT之后,Zhang贡献了《Scaling Laws for Generative Mixed-Modal Language Models》论文(2023年),该研究探讨了扩展定律如何适用于处理图像和文本的模型,以及CM3多模态自回归模型(„Scaling Autoregressive Multi-Modal Models“,2023年)。她还为两篇描述训练动态的理论相关论文做出了贡献:„A Theory on Adam Instability in Large-Scale Machine Learning“和„Effective Theory of Transformers at Initialization“,均发表于2023年。

LIMA: Less Is More for Alignment (NeurIPS 2023). Zhang合著了LIMA(与周春婷、刘鹏飞、Punit Singh Koura、陈伟柱、Graham Neubig等人),该论文仅使用1000个精心手工策划、涵盖多样化任务和格式的示例,对650亿参数的LLaMA模型进行了微调。在大多数评估维度上,LIMA匹配甚至超越了使用RLHF在数量级更大的数据集上训练的模型,挑战了当时主流的观点,即对齐需要大量带反馈标注的训练数据。论文中提出的„浅层对齐假说“——即模型的知识和能力是在预训练阶段建立的,而微调主要调整输出格式和风格——成为了对齐和RLHF文献中的一个有影响力的框架。

Luminous Computing(短暂间隔,约2022–2023)

在以系统工程身份加入Google DeepMind之前,Zhang曾短暂在光计算初创公司Luminous Computing工作,该公司致力于AI加速的光学硬件。

Google DeepMind——首席研究工程师(约2023年至今)

Zhang以首席研究工程师的身份加入Google DeepMind,继续从事大规模训练系统与研究交叉领域的工作。她常驻旧金山湾区。


主要贡献

  • OpenAI Five强化学习训练系统 (2018–2019)——共同构建了训练OpenAI Five的分布式强化学习基础设施,这是有史以来计算量最大的强化学习流程之一。通过数月的实际训练时间积累的相当于数千年自我对弈经验,使智能体击败了职业Dota 2世界冠军。OpenAI Five主要论文(arXiv 2019)及关于规划和情境感知的配套论文的合著者。

  • OPT-175B (arXiv 2022, 第一作者)——共同领导了Open Pre-trained Transformers (OPT-175B) 的开发和开放发布,这是首个公开发布的175B参数语言模型,以七分之一的碳排放量达到了GPT-3的性能。发布内容包括完整的模型权重、metaseq训练代码库以及一份114页的逐日训练日志——在当时为大语言模型的开发设定了最透明的标准。

  • metaseq——共同开发并发布了metaseq,Meta开源的大规模语言模型训练框架,不仅用于训练OPT-175B,还被后续研究广泛采用。

  • LIMA: Less Is More for Alignment (NeurIPS 2023)——合著论证了仅需1000个高质量的对齐示例即可产生与大型RLHF模型相媲美的指令遵循质量,提出了„浅层对齐假说“,挑战了关于对齐训练数据需求的主流假设。

  • 生成式混合模态语言模型的扩展定律 (2023)——合著了一项实证研究,将扩展定律分析扩展到涵盖文本和图像的多模态语言模型,描述了计算最优的模型和数据分配如何在不同模态之间变化。

  • Adam不稳定性与Transformer初始化理论 (2023)——合著了两篇论文,为大规模训练中观察到的不稳定现象提供了理论和实证基础:描述了Adam优化器的失效模式,并推导了变压器在初始化时权重分布的有效理论。


奖项与认可

  • NeurIPS 2022研讨会报告——OPT-175B在NeurIPS 2022的„Has It Trained Yet? Workshop“上发表。
  • 斯坦福MLSys研讨会 (2023)——受邀就OPT-175B训练基础设施发表演讲,该演讲是MLSys系列研讨会中观看次数最多的之一。
  • 哈佛大学CS50课程和计算机历史博物馆 (2022)——受邀就OpenAI Five发表演讲,向广大公众群体提供了对大规模强化学习系统的技术性描述。

关键合作关系

  • Stephen Roller和Naman Goyal——与Zhang共同担任OPT-175B论文的同等贡献联合第一作者;一起代表了该项目的核心工程团队。
  • Luke Zettlemoyer——Meta AI的OPT项目研究负责人;提供了塑造OPT发布和LIMA论文的学术研究方向。
  • Myle Ott——Meta AI工程师,OPT论文合著者;metaseq的设计在很大程度上归功于Ott之前开发的fairseq框架。
  • Christopher Berner, Christy Dennison——OpenAI Five项目中的OpenAI工程同事;Zhang在Berner等人领导的RL工程团队中工作。
  • 周春婷和Graham Neubig——LIMA合著者;Neubig(卡内基梅隆大学)为对齐假说提供了学术研究背景。

个人风格

Zhang将她的职业身份描述为通才,在少数互补领域拥有深厚专业知识——她曾公开阐述这是刻意的职业策略:在系统、机器学习理论和工程领域保持广泛能力,同时随着时间的推移积累罕见的组合深度。她已发表的工作涵盖强化学习系统、LLM基础设施、训练理论和对齐,与这一理念相符。OPT训练日志——她倡导将其作为发布的一部分——反映了她对透明度的价值观承诺,这在前沿模型开发中不同寻常:展示的不仅是最终模型,还有每一次失败、调试决策和硬件事故。她在推特上拥有超过44,000名关注者,并利用这个平台评论AI研究趋势、基础设施实践以及更广泛的科技行业动态。她的个人简介简洁地概括了她的职业生涯:„@ Google DeepMind。此前:@MetaAI, @OpenAI, @unitygames, @losalamosnatlab, @Princeton等。始终渴求智慧。“


参考资料