Sébastien Bubeck

ref · 2026 年5 月 27 日 07:13

法裔美国计算机科学家和数学家，他确立了多臂老虎机问题的极小化最优界限，证明了神经网络的鲁棒性定律，共同领导了微软的Phi小型语言模型系列，并撰写了关于GPT-4的「通用人工智能的火花」论文。

简介


出生	1985年4月16日，法国
国籍	法裔美国人
现任机构	OpenAI（研究科学家，2024年至今）
研究领域	在线学习、老虎机、凸优化、度量任务系统、深度学习理论、大型语言模型、小型语言模型
博士论文	应用数学博士（法国国家信息与自动化研究所北欧洲中心/里尔第一大学，2010年）
个人网站	sbubeck.com
X / Twitter	@SebastienBubeck
博客	I’m a Bandit
Google Scholar	Sébastien Bubeck

概述

Sébastien Bubeck 是一位法裔美国数学家和计算机科学家，其职业生涯涵盖了理论机器学习、竞争分析和实证人工智能。他毕业于卡尚高等师范学校和法国国家信息与自动化研究所（INRIA），在博士期间及普林斯顿大学早期教职阶段建立了多臂老虎机和老虎机凸优化的基础理论；随后与尹泰李（Yin Tat Lee）及微软研究院的合作者们发表了一系列著名论文，将理论方法扩展到度量任务系统和凸体追踪；证明了将神经网络过度参数化与Lipschitz正则性联系起来的鲁棒性定律；领导了团队开发Phi系列小型语言模型（始于「教科书即一切」范式）；并合著了「通用人工智能的火花：GPT-4早期实验」——一份155页的论文，成为2023年阅读最广泛、争议最大的人工智能文献之一。2024年，他加入OpenAI。他的Google Scholar个人资料显示引用次数超过25,000次。他维护着博客「I’m a Bandit」，这是机器学习社区中历史最悠久、技术最严谨的博客之一。

早年生活与教育

Bubeck 于1985年出生于法国。2005年，他进入卡尚高等师范学院（ENS Cachan，现巴黎-萨克雷高等师范学院）——法国大学校体系中最具选拔性的院校之一，拥有极强的数学项目——并在那里学习至2008年。2006年夏天，他参加了加州大学洛杉矶分校纯粹与应用数学研究所（IPAM）的工业项目学生研究（RIPS）项目。

2007年，他在里尔的法国国家信息与自动化研究所北欧洲中心（INRIA Nord Europe）开始攻读博士学位，专攻应用数学，导师为Jean-Yves Audibert，并于2010年完成学业。Audibert 是法国国立桥路学校（ENPC）和INRIA的顶尖研究员，曾发展出基础性的浓度不等式和探索-利用方法，对Bubeck的思想形成产生了重要影响；他于2011年英年早逝。Bubeck 还与INRIA的Rémi Munos合作过。博士期间，他曾在里尔第一大学担任助教（2008–2010年）。他的论文被评为法国最佳概率/统计学博士论文（雅克·内沃奖，2010年），并获得法国最佳计算机科学博士论文亚军（吉尔·卡恩奖，2010年）以及人工智能博士论文奖亚军（2011年）。

职业生涯

博士后——巴塞罗那数学研究中心（2010–2011年）

博士毕业后，Bubeck 在巴塞罗那数学研究中心担任了一年的博士后，随后移居美国。

普林斯顿大学——运筹与金融工程系助理教授（2011–2014年）

Bubeck 加入普林斯顿大学运筹与金融工程系担任助理教授。在此期间，他撰写了综述「随机与非随机多臂老虎机问题的遗憾分析」（2012年，与Nicolò Cesa-Bianchi合著），该文成为老虎机学习领域的主要参考文本——以统一的理论框架涵盖了UCB算法、汤普森采样、情境老虎机和对抗性老虎机。他还撰写了广泛使用的凸优化讲义，后来成为《Foundations and Trends》专著。他指导了多名本科生研究员，并于2015年获得阿尔弗雷德·P·斯隆计算机科学研究奖学金。2013年秋季，他在加州大学伯克利分校的西蒙斯计算理论研究所担任了一学期的访问学者。

微软研究院——研究员至首席研究经理（2014–2024年）

Bubeck 于2014年加入微软雷德蒙德研究院的理论组担任研究员，先后晋升为高级研究员（2017–2019年）、高级首席研究经理并领导机器学习基础组（2020–2023年），最后担任人工智能副总裁和杰出科学家（2024年）。

老虎机与凸优化（2014–2019年）。 他在微软的早期工作解决了在线学习中几个长期未解的开放问题。「基于核方法的老虎机凸优化」（STOC/JACM 2017，与Ronen Eldan和尹泰李合著）给出了首个达到老虎机凸优化最优遗憾值的多项式时间算法——一个已有十多年未解的难题。这一系列工作获得了COLT 2016最佳论文奖。

k服务器与竞争分析（2018–2019年）。 与Michael B. Cohen、尹泰李、James R. Lee和Aleksander Madry合作，Bubeck 以「通过多尺度熵正则化的k服务器」（STOC 2018）解决了竞争分析中的一个重大未解问题，通过一种新颖的熵正则化技术，在一般度量空间上实现了k服务器问题的首个对数多项式竞争比。该论文获得了NeurIPS 2018最佳论文奖。另一项相关成果「竞争性追踪凸体」（与尹泰李、李远志和Mark Sellke合著）以最优方式解决了凸体追踪问题。这一系列工作获得了STOC 2023最佳论文奖，以表彰2018–2019年论文的持久影响。

鲁棒性定律（2021年）。 「基于等周不等式的通用鲁棒性定律」（NeurIPS 2021最佳论文，与Mark Sellke合著）证明了一个精确的数学定理：一个插值n个数据点且具有有界Lipschitz常数的神经网络至少需要Ω(n)个参数。该结果形式化了为什么过度参数化的神经网络可以同时具有良好的拟合性和平滑性——将参数计数的几何性与凸几何中的等周不等式联系起来。《Quanta Magazine》和《Nature》将此结果报道为深度学习理论理解的突破。该论文获得了NeurIPS 2021最佳论文奖。

通用人工智能的火花：GPT-4早期实验（2023年）。 2023年初，随着微软在GPT-4开发过程中获得早期访问权限，Bubeck 领导了一个由十四位微软研究院作者组成的团队，对模型的早期版本进行了一项长达155页的实证调查。由此产生的预印本「通用人工智能的火花」认为，GPT-4表现出比之前的人工智能系统更普遍的智能，在数学、编程、视觉、医学、法律等众多领域展现出卓越且出人意料的胜任能力，无需特定任务提示。该论文——虽然声称谨慎，但有意将GPT-4描述为一个「早期（尽管仍不完整）」的通用人工智能系统，具有挑衅性——成为2023年讨论最广泛的人工智能文献之一，被《纽约时报》、《Wired》、《This American Life》等多家媒体报道，并为公众理解大型语言模型的能力做出了贡献。

Phi：教科书即一切（2023年）。 继「火花」论文之后，Bubeck 与合作者（主要是李远志等人）直接探讨了一个问题：能否通过使用高质量合成数据而不是规模，来训练一个规模小得多的模型，使其在关键推理任务上具有可比性能？「教科书即一切」介绍了Phi-1（13亿参数），该模型在由GPT-4生成的合成编程教科书上进行训练，尽管其规模比当时最先进的模型小数个数量级，但在HumanEval上达到了50%。这种范式——策划的合成「教科书质量」数据和教育式训练——随后扩展到Phi-1.5（常识推理）和Phi-2（一般认知任务），确立了Phi系列小型语言模型（SLM）作为高效人工智能的重要分支。Bubeck 曾公开谈论将Phi级小型语言模型嵌入日常设备的愿景。

OpenAI——研究科学家（2024年至今）

2024年10月，彭博社报道称Bubeck将离开微软加入OpenAI。他于当月完成转职，继续从事小型语言模型、人工智能理论基础以及前沿模型理解方面的工作。

主要贡献

极小化老虎机理论（COLT 2009；综述2012）——「对抗性与随机老虎机的极小化策略」（与Jean-Yves Audibert合著）确立了多臂老虎机问题的极小化最优速率，并引入了UCB-V算法。2012年与Nicolò Cesa-Bianchi合著的综述《随机与非随机多臂老虎机问题的遗憾分析》成为老虎机文献的权威参考。
凸优化：算法与复杂度（2015年）——《Foundations and Trends in Machine Learning》专论，涵盖梯度下降、镜像下降、加速方法和内点法，被广泛用作理论机器学习的研究生教材和参考书。
老虎机凸优化（STOC 2017）——「基于核方法的老虎机凸优化」，与Ronen Eldan和尹泰李合著。首个达到老虎机凸优化最优Õ(√T)遗憾值的多项式时间算法，解决了一个长期未解的开放问题。
通过多尺度熵正则化的k服务器（STOC 2018；NeurIPS 2018最佳论文）——与Michael B. Cohen、尹泰李、James R. Lee和Aleksander Madry合著。使用一种新颖的多尺度熵正则化方法，在一般度量空间上将对数多项式因子内的k服务器猜想解决了数十年之久。因长期影响获得STOC 2023最佳论文奖。
鲁棒性定律（NeurIPS 2021最佳论文）——「基于等周不等式的通用鲁棒性定律」，与Mark Sellke合著。证明任何插值n个数据点且具有有界Lipschitz常数的神经网络至少需要Ω(n)个参数——对为何过度参数化网络能够平滑泛化的精确数学形式化。
通用人工智能的火花（arXiv 2023）——「通用人工智能的火花：GPT-4早期实验」，与十三位微软研究院合著者共同完成。一份关于早期GPT-4的155页实证研究，认为该模型在多个领域表现出定性的通用智能。是2023年阅读最广泛、引用最多的人工智能论文之一。
Phi / 教科书即一切（2023年）——领导了Phi系列小型语言模型（Phi-1、Phi-1.5、Phi-2、Phi-3）的开发，基于以下洞见：高质量的合成教科书式数据使规模小得多的模型能够在关键推理基准上匹配或超越更大的模型。Phi-3-mini模型以38亿参数实现了GPT-3.5级别的性能。

奖项与认可

STOC 2023最佳论文奖——表彰k服务器/凸体追踪系列工作（2018–2019年的论文）。
NeurIPS 2021最佳论文奖——表彰鲁棒性定律论文。
NeurIPS 2018最佳论文奖——表彰通过多尺度熵正则化的k服务器论文。
COLT 2016最佳论文奖——表彰最优老虎机凸优化论文。
阿尔弗雷德·P·斯隆计算机科学研究奖学金（2015年）——由斯隆基金会授予具有卓越潜力的早期职业研究人员。
最佳学生论文奖——COLT 2009（极小化老虎机）；ALT 2018；ALT 2023。
雅克·内沃奖（2010年）——法国最佳概率/统计学博士论文。
吉尔·卡恩奖（2010年）——法国最佳计算机科学博士论文亚军。
人工智能博士论文奖（2011年）——法国最佳人工智能博士论文亚军。

主要合作关系

尹泰李——Bubeck职业生涯中持续时间最长的研究合作，始于2015–2016年在微软研究院实习，并持续涵盖老虎机凸优化、k服务器、凸体追踪及相关工作。Lee目前是微软研究院首席研究员。
Ronen Eldan——长期合作者，涉及老虎机优化、鲁棒性定律以及通用人工智能的火花论文；魏茨曼科学研究所和后来微软研究院的概率论与计算机科学家。
李远志——从实习生转变为合作者，从事凸体追踪工作，随后共同领导了Phi小型语言模型项目；微软研究院首席研究员，曾任卡内基梅隆大学助理教授。
Mark Sellke——参与合著鲁棒性定律论文和凸体追踪结果的实习生；目前在斯坦福大学与Andrea Montanari共事。
Michael B. Cohen——一位才华横溢的实习生，合著了k服务器论文及其他几篇理论著作；2017年因未确诊的1型糖尿病去世，年仅20岁。Bubeck曾动人地谈及Cohen的离世。
Jean-Yves Audibert——博士导师；在浓度不等式和老虎机学习领域具有影响力的研究者，于2011年英年早逝。Audibert的研究方法——数学严谨、概率论导向——塑造了Bubeck的基础取向。
Nicolò Cesa-Bianchi——权威老虎机综述的合著者；在线学习领域的领军人物，Bubeck与他共同定义了该领域的标准参考文献。
Aleksander Madry——k服务器项目的合作者；麻省理工学院教授，以对抗性鲁棒性研究闻名。

个人风格

Bubeck的研究以一条不同寻常的轨迹著称：从一端的基础概率论和竞争分析，经过凸几何，再到另一端最先进人工智能系统的实证研究。其思想主线是持续关注「什么可以被证明」——无论是老虎机算法的紧致遗憾界、Lipschitz网络的尖锐参数计数下界，还是对GPT-4能力的严谨（尽管非形式化）描述。他始于普林斯顿、持续运行超过十年的博客「I’m a Bandit」，一直被公认为理论机器学习中少数技术严谨的个人博客之一，以权威且易懂的风格涵盖开放问题、讲座笔记和原创评论。他是一位慷慨的导师：多位前实习生（尹泰李、李远志、Mark Sellke）已成为各自领域的领军研究者，而他关于2017年Michael B. Cohen不幸离世的公开写作，也揭示了他对人才和数学本身的双重投入。

参考文献

个人网站：sbubeck.com
传记：sbubeck.com/bio.html
奖项：sbubeck.com/awards.html
Google Scholar：scholar.google.com
维基百科：Sébastien Bubeck
博客「I’m a Bandit」：blogs.princeton.edu/imabandit
通用人工智能的火花论文：arxiv.org/abs/2303.12712
彭博社（2024年10月加入OpenAI）：bloomberg.com
Digg个人资料：digg.com/u/x/sebastienbubeck