OpenAI 研究科学家,o系列推理模型的基础贡献者。他历时十年专注于不完全信息条件下的战略推理研究,先后在扑克与策略游戏《外交》中实现了三个超人类的人工智能里程碑——Libratus、Pluribus 和 CICERO——最终聚焦于大语言模型中的推理问题。
个人简介
| 领域 | 详情 |
|---|---|
| 姓名 | 诺姆·布朗 (Noam Brown) |
| 出生日期 | 未公开 |
| 国籍 | 美国 |
| 现任职机构 | OpenAI |
| 现任职务 | 研究科学家 |
| 研究领域 | 推理、强化学习、自博弈、多智能体AI、不完全信息博弈、计算博弈论 |
| 博士论文 | 大型对抗性不完全信息博弈中的均衡求解(卡内基梅隆大学,2020) |
| 博士导师 | 图奥马斯·桑德霍尔姆 (Tuomas Sandholm) |
| 个人网站 | noambrown.com |
| X / Twitter | @polynoamial |
| GitHub | noambrown |
| Google Scholar | RLDbLcUAAAAJ |
概述
诺姆·布朗是OpenAI的研究科学家,也是现代AI与游戏领域最具影响力的人物之一。基于一个统一的理论基础——不完全信息环境下的均衡求解与搜索——他共同创建了三个系统,每个都代表了首创性的里程碑:Libratus(2017年)是首个在单挑无限注德州扑克中击败顶尖人类职业选手的AI;Pluribus(2019年)是首个在六人多人扑克中击败顶级玩家的AI,其成果以封面文章形式发表于《科学》杂志;CICERO(2022年)是首个在自然语言策略游戏《外交》中达到人类水平表现的AI,同样发表于《科学》杂志。2023年加入OpenAI后,布朗成为 o系列推理模型(o1, o3)的基础贡献者,将他在博弈研究中得出的核心洞见——推理时投入更多算力可提升性能——应用于大语言模型。他获得过卡内基梅隆大学的三个论文奖、马文·明斯基奖章、NeurIPS最佳论文奖,并被《麻省理工科技评论》评为35位35岁以下创新者之一。
早期经历与教育
布朗毕业于罗格斯大学,2005年至2008年以最高荣誉获得数学与计算机科学学士学位,期间是罗格斯大学荣誉项目成员。在罗格斯大学期间及之后,他于2006年至2010年在纽约MJM交易集团担任算法交易工程师,这为他日后在不确定性下进行量化决策的研究兴趣奠定了基础。2010年至2012年,他在美联储理事会的国际金融市场部门工作,研究金融市场中的算法交易。
2012年,他进入卡内基梅隆大学,先后获得机器人学硕士学位(2012–2014)和计算机科学博士学位(2014–2020),均由图奥马斯·桑德霍尔姆指导。他的博士论文《大型对抗性不完全信息博弈中的均衡求解》提出了一系列算法进展——包括更快的反事实遗憾最小化(CFR)变体、安全且嵌套的子博弈求解,以及深度有限搜索——这些方法首次使人工智能能够在完整规模的扑克博弈中击败顶尖人类职业选手。该论文获得了卡内基梅隆大学计算机科学学院杰出博士论文奖、AAAI ACM-SIGAI博士论文奖以及IFAAMAS维克多·莱瑟杰出博士论文奖。
职业生涯
MJM交易集团 —— 算法交易工程师 (2006–2010)
在纽约从事算法交易工作,开发量化策略,并早期接触了对抗性金融市场中不确定性下的决策问题。
美联储理事会 —— 研究助理 (2010–2012)
在国际金融市场部门进行研究,专注于算法交易与金融市场微观结构。同时,还通过FedEd项目为华盛顿特区的高中生讲授金融素养与货币政策,开展外联活动。
卡内基梅隆大学 —— 研究助理/博士生 (2012–2020)
在图奥马斯·桑德霍尔姆的指导下,布朗构建了一系列能力不断提升的扑克AI——Tartanian7(2015年AAAI冠军)、Claudico、Baby Tartanian8(2016年冠军),并最终开发出Libratus和Pluribus。他每年在计算机扑克竞赛中获胜,以及在两次具有里程碑意义的与职业选手的正面较量(2017年1月Libratus,2019年7月Pluribus)中获胜,使他成为解决扑克这一AI重大挑战的核心人物。他还在2017年暑期于伦敦的DeepMind完成了研究实习。
Facebook AI研究(FAIR / Meta) —— 研究科学家 (2018–2023)
在完成博士学位的同时加入位于纽约的FAIR,随后转为全职。在FAIR,布朗将他的不完全信息博弈研究从双人零和场景扩展到合作性与混合动机博弈。他共同开发了一系列《外交》游戏AI,最终推出了CICERO——这是首个在《外交》游戏中达到人类水平表现的AI,该游戏需要战略规划和自然语言沟通以建立联盟、进行谈判和欺骗。CICERO于2022年11月作为Meta基础AI研究《外交》团队的联合论文发表在《科学》杂志上。他还共同开发了ReBeL(NeurIPS 2020),这是一个将深度强化学习与搜索相结合用于不完全信息博弈的通用框架。
OpenAI —— 研究科学家 (2023年至今)
2023年加入旧金山的OpenAI,致力于推理、强化学习、自博弈和多智能体AI研究。布朗成为 o系列推理模型的基础贡献者,该系列的首个模型o1(代号