Wojciech Zaremba

波兰数学家与计算机科学家,OpenAI联合创始人,共同发现对抗样本,参与构建单手解魔方的机械手,并领导团队开发了Codex、GitHub Copilot以及为ChatGPT提供底层支持的RLHF基础设施。


个人简介

出生 1988年11月30日,波兰克卢奇堡
国籍 波兰
现任机构 OpenAI(联合创始人、研究科学家)
研究领域 深度学习、循环神经网络、强化学习、机器人学、程序合成、大语言模型、RLHF
博士导师 Yann LeCun;Rob Fergus
博士论文 《Learning Algorithms from Data》(纽约大学,2016年)
网站 wojzaremba.com
X / Twitter @woj_zaremba
GitHub wojzaremba
Google Scholar Wojciech Zaremba

概述

Wojciech Zaremba是波兰计算机科学家和数学家,于2015年联合创立了OpenAI,并一直留在该组织,见证了其从非营利研究实验室到ChatGPT和GPT-4开发者的整个历程。他曾获国际数学奥林匹克银牌,在纽约大学库朗研究所攻读博士学位期间(师从Yann LeCun和Rob Fergus),曾在Google Brain和Facebook AI Research实习,将数学优先的思维方式带入了深度学习研究。他的博士研究致力于训练神经网络执行计算机程序和学习算法,是弥合神经网络模式匹配与符号计算之间鸿沟的早期系统化尝试之一。在OpenAI,他先后领导了机器人团队(其巅峰成果是使用强化学习和自动域随机化技术,让一只机械手单手解开了魔方)、开发了Codex和GitHub Copilot的团队,以及通过人类数据和RLHF基础设施让ChatGPT与人类偏好对齐的团队。他将促进合作——结合技术、研究、工程和可及性工作——描述为自己最重要的专业技能。


早年生活与教育

Zaremba于1988年11月30日出生于波兰南部奥波莱地区的小城克卢奇堡。他从小就同时在数学、化学、计算机科学和物理学方面表现出非凡的天赋,赢得了这四个领域的当地竞赛。从2000年到2007年,他是波兰儿童基金会奖学金获得者,这是一个国家级的选拔和支持天才学生的项目。2007年,18岁的他代表波兰参加了在越南举行的第48届国际数学奥林匹克竞赛,在这个世界上竞争最激烈的数学竞赛中获得了银牌。

Zaremba在华沙大学学习数学和计算机科学,同时还在巴黎综合理工学院攻读硕士项目,于2013年获得两个数学硕士学位。在本科期间,他还曾在英伟达短暂工作过——那时深度学习时代尚未到来——早期接触了GPU加速计算。

2013年,他在纽约大学库朗数学科学研究所开始攻读计算机科学博士学位,在Rob Fergus的CILVR实验室(计算智能、学习、视觉与机器人实验室)工作,Yann LeCun担任联合导师。他选择纽约大学是因为他得出结论,在2012年,只有三所大学在认真培养深度学习:多伦多大学、蒙特利尔大学和纽约大学。在博士期间,他分别在Google Brain和Facebook AI Research实习了一年。Zaremba于2016年获得博士学位,此前一年,他在尚未完成学位时就被列为OpenAI的联合创始人。他于2015年获得了谷歌奖学金。


职业生涯

纽约大学库朗研究所——博士研究(2013–2016)

Zaremba的博士工作,总结于论文《Learning Algorithms from Data》,围绕一个核心问题展开:神经网络能否学习模仿可编程计算机的算法行为,而不仅仅是近似统计模式?这项工作产生了若干有影响力的成果。

对抗样本(Google Brain实习,2013年)。在Google Brain实习期间,Zaremba与Christian Szegedy、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellow和Rob Fergus共同撰写了《Intriguing Properties of Neural Networks》(2013年,ICLR 2014)。该论文发现,对输入图像施加人眼不可察觉的扰动,会导致最先进的神经网络产生高置信度的错误分类,并且这些对抗性扰动可以跨架构迁移——奠定了对抗机器学习领域的基础。

循环神经网络正则化(FAIR实习,2014年)。一篇开发LSTM正则化dropout技术的论文,在该技术成为训练循环网络的实际指南时,LSTM训练不稳定还是一个主要障碍。

学习执行(2014年,与Ilya Sutskever合作)。一项系统研究,证明LSTM能够从输入输出示例中学习评估简单的计算机程序,预测包含循环、条件语句和变量绑定的短程序的正确输出。该论文为研究神经网络程序执行建立了一个基准和方法论,影响了神经程序合成领域。

OpenAI——联合创始人兼研究科学家(2015年至今)

Zaremba于2015年12月被宣布为OpenAI的11位创始成员之一,他拒绝了谷歌和Facebook的邀请——用他的话来说,还包括“近乎疯狂”的薪水——加入了这家非营利组织。此后,他经历了该组织所有的后续转型。

OpenAI Gym(2016年)。Zaremba是OpenAI Gym的贡献者之一,这是一个用于强化学习研究的开源工具包,后来成为RL社区的默认基准测试环境,标准化了连续控制、Atari游戏和机器人任务等领域的算法比较。

机器人研究经理(2015–2020年)。在OpenAI的头五年,Zaremba领导了机器人研究项目。该团队最广为人知的成果是Dactyl系统(2019年),该系统完全在模拟中使用自动域随机化(ADR)技术训练了一个五指类人机器手——该技术自动生成分布不断扩大的随机化模拟环境——并将学习到的策略迁移到实物手上,使其能用单手解开魔方。Dactyl的成果因其在模拟到现实迁移中达到了前所未有的灵巧程度,以及使用了基于LSTM的策略而非手工设计的控制器而备受瞩目。该机器人团队于2020年解散,因为公司进行了更广泛的战略转向,聚焦于语言模型。

Codex和GitHub Copilot(2020–2021年)。机器人团队解散后,Zaremba领导了Codex的开发,这是一个在GitHub公开代码上微调的GPT模型。由此产生的模型在《Evaluating Large Language Models Trained on Code》(2021年)中进行了描述,它在衡量根据文档字符串合成程序功能的正确性的HumanEval基准测试中解决了28.8%的问题,而GPT-3的解决率为0%。Zaremba于2021年8月公开宣布了Codex的发布。Codex的生产版本成为了驱动GitHub Copilot的引擎,这款AI代码补全工具已成为全球使用最广泛的AI辅助开发者工具之一,拥有数千万用户。

GPT模型与人类数据/RLHF(2021年至今)。随后,Zaremba领导的团队负责人类反馈基础设施——即数据收集、标注操作和基于人类反馈的强化学习(RLHF)流程——它塑造了为ChatGPT提供支持的GPT模型系列的行为和安全性。这包括管理人类数据领域,该领域生成了用于训练奖励模型并通过RLHF微调GPT-4的偏好数据,这一过程对于ChatGPT的对话质量和指令遵循行为至关重要。在2023年接受纽约大学库朗研究所采访之时,他描述了自己领导该团队并每天使用ChatGPT来辅助写作和组织思路的经历。


主要贡献

  • 对抗样本(ICLR 2014)——与Christian Szegedy、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellow和Rob Fergus合作撰写了《Intriguing Properties of Neural Networks》。首次系统性地发现并描述了导致神经网络高置信度错误分类的对抗性扰动及其跨架构的可迁移性。开创了对抗机器学习子领域。

  • LSTM Dropout / 循环神经网络正则化(2014年)——为LSTM开发了实用的dropout方法,减少了过拟合并稳定了训练,成为递归网络训练的标准实践,也是他博士期间最具应用性的技术成果之一。

  • 学习执行(arXiv 2014年,与Ilya Sutskever合作)——证明了LSTM可以通过训练来评估短计算机程序,为神经程序合成领域建立了基准方法论,并直接为Zaremba后来在Codex上的工作提供了信息。

  • OpenAI Gym(2016年)——作为贡献者参与了开源强化学习基准测试环境的开发,该环境成为了RL研究社区的标准评估框架。

  • 用机器手解魔方 / Dactyl(2019年)——共同领导了OpenAI机器人团队的工作,该团队通过完全在模拟中使用自动域随机化学习到的策略,训练了一个实体五指类人机械手解开魔方——展示了模拟到现实迁移达到前所未有的灵巧程度。

  • Codex / GitHub Copilot(2021年)——领导了Codex语言模型的开发,该模型在GitHub代码上进行了微调,为GitHub Copilot提供动力,并将AI辅助代码补全引入了数千万软件开发者。这是GPT类模型最广泛部署的实际应用之一。

  • ChatGPT的RLHF基础设施——在OpenAI领导人类数据和基于人类反馈的强化学习(RLHF)流程,使GPT-4和ChatGPT与人类偏好对齐,管理着对ChatGPT对话质量至关重要的数据标注和奖励模型训练操作。


奖项与荣誉

  • 国际数学奥林匹克银牌(2007年)——代表波兰参加在越南河内举行的第48届IMO;这是高中生可获得的最高的数学竞赛成就之一。
  • 波兰儿童基金会奖学金获得者(2000–2007年)——波兰国家奖学金,面向多个STEM学科的天才学生。
  • 谷歌奖学金(2015年)——北美谷歌博士奖学金,在其纽约大学博士学习期间授予。
  • 福布斯波兰30位30岁以下精英(2017年)——被波兰版《福布斯》杂志评为30岁以下最具影响力的波兰人之一。
  • 麻省理工科技评论35岁以下创新者——因对AI的贡献而被评为有影响力的创新者。

主要关系

  • Ilya Sutskever——Zaremba博士期间最亲密的科研合作者;共同撰写了《学习执行》及几篇相关的程序合成论文;OpenAI联合创始人兼前首席科学家。他们对神经计算和算法学习的共同兴趣定义了Zaremba博士工作的知识核心。
  • Rob Fergus——纽约大学库朗研究所CILVR实验室的首席博士导师;将Zaremba在其博士期间描述为“才华横溢”,并显然注定要在“AI的未来中扮演重要角色”。
  • Yann LeCun——纽约大学博士联合导师;LeCun小组更广泛的知识框架——用于感知和表征的深度学习——塑造了Zaremba发展的环境。
  • Christian Szegedy——在Google Brain实习期间关于对抗样本论文的合作者;Szegedy-Zaremba合作产生了深度学习史上最具影响力的安全相关成果之一。
  • Sam Altman——OpenAI首席执行官兼联合创始人;Zaremba整个职业生涯中赖以运作的创始伙伴关系。
  • Greg Brockman——OpenAI联合创始人兼前总裁;在其组织的技术基础设施和研究项目中关系密切的同事。

个人风格

Zaremba在AI研究人员中与众不同之处在于,他兼具深厚的数学基础——奥林匹克级别的解题能力、双数学硕士学位——以及对研究组织和人文层面的明确承诺。他将“促进合作”视为自己的核心专业技能,并公开讨论过一种误解,即AI进步源于单一聪明想法,而非工程、研究、产品和可及性工作的结合。他所阐述的研究愿景是广阔而乐观的:他将AI的影响比作电力之于文明,并以比其技术级别研究人员更具体的热情讨论了特定的应用领域——AI辅助治疗、个性化医疗、跨学科科学综合。他精通多种语言(波兰语、英语、法语),并将语言学习与他更广泛的信念联系起来,即非典型背景能产生适应性。他目前仍是Qualia Research Institute和Growbots的顾问委员会成员,并公开过个人兴趣,范围从睡眠研究到人际关系中的AI调解冲突。


参考资料