Sébastien Bubeck

ref · Mai 27, 2026, 7:13

Informaticien et mathématicien franco-américain qui a établi les bornes optimales minimax pour les bandits manchots, démontré la loi de robustesse pour les réseaux de neurones, co-dirigé la série de petits modèles de langage Phi chez Microsoft, et est l’auteur du document « Sparks of AGI » sur GPT-4.

Profil


Né	16 avril 1985, France
Nationalité	Franco-américain
Institution(s) actuelle(s)	OpenAI (chercheur, 2024–présent)
Domaines de recherche	Apprentissage en ligne, bandits, optimisation convexe, systèmes de tâches métriques, théorie de l’apprentissage profond, grands modèles de langage, petits modèles de langage
Thèse de doctorat	Doctorat en mathématiques appliquées (INRIA Nord Europe / Université Lille 1, 2010)
Site Web	sbubeck.com
X / Twitter	@SebastienBubeck
Blog	I’m a Bandit
Google Scholar	Sébastien Bubeck

Aperçu

Sébastien Bubeck est un mathématicien et informaticien franco-américain dont la carrière a couvert l’apprentissage automatique théorique, l’analyse concurrentielle et l’IA empirique. Formé à l’École Normale Supérieure de Cachan et à l’INRIA, il a bâti la théorie fondamentale des bandits manchots et de l’optimisation convexe par bandits pendant son doctorat et ses premières années en tant que professeur à Princeton ; puis a étendu les méthodes théoriques aux systèmes de tâches métriques et à la poursuite de corps convexes dans une célèbre série d’articles avec Yin Tat Lee et des collaborateurs chez Microsoft Research ; a démontré la loi de robustesse liant le surparamétrage des réseaux de neurones à la régularité lipschitzienne ; a dirigé l’équipe qui a produit la série Phi de petits modèles de langage (à partir du paradigme « Textbooks Are All You Need ») ; et a co-écrit « Sparks of Artificial General Intelligence: Early Experiments with GPT-4 » — un document de 155 pages qui est devenu l’un des documents sur l’IA les plus lus et les plus débattus de 2023. En 2024, il a rejoint OpenAI. Son profil Google Scholar reflète plus de 25 000 citations. Il tient le blog « I’m a Bandit », l’un des blogs les plus anciens et les plus techniquement rigoureux de la communauté de l’apprentissage automatique.

Jeunesse et formation

Bubeck est né en France en 1985. Il est entré à l’École Normale Supérieure de Cachan (ENS Cachan, aujourd’hui ENS Paris-Saclay) en 2005 — l’une des grandes écoles les plus sélectives du système français, avec un programme de mathématiques particulièrement solide — et y a étudié jusqu’en 2008. À l’été 2006, il a participé au programme Research in Industrial Projects for Students (RIPS) à l’Institute for Pure and Applied Mathematics (IPAM) de l’UCLA.

Il a commencé son doctorat à l’INRIA Nord Europe à Lille en 2007, spécialisé en mathématiques appliquées sous la supervision de Jean-Yves Audibert, et l’a achevé en 2010. Audibert, chercheur de premier plan à l’ENPC et à l’INRIA qui avait développé des inégalités de concentration fondamentales et des méthodes d’exploration-exploitation, a eu une influence intellectuelle formatrice ; il est décédé en 2011 à un âge précoce. Bubeck a également travaillé avec Rémi Munos à l’INRIA. Pendant la période doctorale, il a été assistant d’enseignement à l’Université Lille 1 (2008–2010). Sa thèse a été reconnue comme la meilleure thèse de doctorat française en probabilités/statistiques (Prix Jacques Neveu, 2010), a été finaliste pour la meilleure thèse de doctorat française en informatique (Prix Gilles Kahn, 2010) et finaliste pour le prix de thèse en IA (2011).

Carrière

Postdoctorat — Centre de Recerca Matemàtica, Barcelone (2010–2011)

Après son doctorat, Bubeck a passé un an en tant que postdoctorant au Centre de Recerca Matemàtica à Barcelone, avant de s’installer aux États-Unis.

Université de Princeton — professeur assistant, ORFE (2011–2014)

Bubeck a rejoint le département de recherche opérationnelle et d’ingénierie financière de Princeton en tant que professeur assistant. Pendant cette période, il a produit l’enquête « Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems » (2012, avec Nicolò Cesa-Bianchi), qui est devenue le texte de référence principal pour la communauté de l’apprentissage par bandits — couvrant les algorithmes UCB, l’échantillonnage de Thompson, les bandits contextuels et les bandits adversariaux dans un cadre théorique unifié. Il a également rédigé les notes de cours largement utilisées sur l’optimisation convexe, qui deviendront plus tard la monographie Foundations and Trends. Il a encadré plusieurs chercheurs de premier cycle et a reçu une bourse de recherche Alfred P. Sloan en informatique en 2015. À l’automne 2013, il a passé un semestre en tant que scientifique invité au Simons Institute for the Theory of Computing de l’UC Berkeley.

Microsoft Research — chercheur à directeur de recherche principal senior (2014–2024)

Bubeck a rejoint Microsoft Research à Redmond en 2014 en tant que chercheur au sein du Theory Group, a progressé vers le poste de chercheur senior (2017–2019), puis directeur de recherche principal senior dirigeant le groupe Machine Learning Foundations (2020–2023), et enfin VP IA et scientifique distingué (2024).

Bandits et optimisation convexe (2014–2019). Ses premiers travaux chez Microsoft ont résolu plusieurs problèmes ouverts de longue date dans l’apprentissage en ligne. « Kernel-Based Methods for Bandit Convex Optimization » (STOC/JACM 2017, avec Ronen Eldan et Yin Tat Lee) a fourni le premier algorithme en temps polynomial atteignant le regret optimal pour l’optimisation convexe par bandits — un problème qui était ouvert depuis plus d’une décennie. Cette ligne de travail a conduit à un prix du meilleur article de la COLT 2016.

k-Server et analyse concurrentielle (2018–2019). Avec Michael B. Cohen, Yin Tat Lee, James R. Lee et Aleksander Madry, Bubeck a résolu une question ouverte majeure en analyse concurrentielle avec « K-Server via Multiscale Entropic Regularization » (STOC 2018), obtenant le premier rapport concurrentiel polylogarithmique pour le problème du k-serveur sur les espaces métriques généraux grâce à une nouvelle technique de régularisation entropique multi-échelle. L’article a reçu un prix du meilleur article de NeurIPS 2018. Un résultat complémentaire, « Competitively Chasing Convex Bodies » (avec Yin Tat Lee, Yuanzhi Li et Mark Sellke), a résolu de manière optimale le problème de la poursuite de corps convexes. Cette ligne de travail a reçu le prix du meilleur article de STOC 2023, reconnaissant l’influence durable des articles de 2018–2019.

Loi de robustesse (2021). « A Universal Law of Robustness via Isoperimetry » (prix du meilleur article de NeurIPS 2021, avec Mark Sellke) a prouvé un théorème mathématique précis : un réseau de neurones qui interpole n points de données avec une constante de Lipschitz bornée doit avoir au moins Ω(n) paramètres. Le résultat formalise pourquoi les réseaux de neurones surparamétrés peuvent être à la fois bien ajustés et lisses — reliant la géométrie du comptage des paramètres aux inégalités isopérimétriques de la géométrie convexe. Quanta Magazine et Nature ont couvert le résultat comme une avancée dans la compréhension théorique de l’apprentissage profond. L’article a reçu le prix du meilleur article de NeurIPS 2021.

Sparks of AGI: Early Experiments with GPT-4 (2023). Au début de l’année 2023, alors que Microsoft a obtenu un accès précoce à GPT-4 au cours de son développement, Bubeck a dirigé une équipe de quatorze auteurs de Microsoft Research dans une enquête empirique de 155 pages sur une version précoce du modèle. Le préprint qui en a résulté, « Sparks of Artificial General Intelligence », soutenait que GPT-4 présentait une intelligence qualitativement plus générale que les systèmes d’IA précédents, démontrant des compétences remarquables et inattendues en mathématiques, en codage, en vision, en médecine, en droit et dans de nombreux autres domaines sans incitation spécifique à la tâche. Le document — prudent dans ses affirmations mais délibérément provocateur en présentant GPT-4 comme un système d’IA « précoce (mais encore incomplet) » — est devenu l’un des documents les plus discutés de l’IA en 2023, couvert par le New York Times, Wired, This American Life et de nombreux autres médias, et a contribué à la compréhension publique dominante des capacités des grands modèles de langage.

Phi: Textbooks Are All You Need (2023). Directement après l’article Sparks, Bubeck et ses collaborateurs (principalement Yuanzhi Li et d’autres) ont poursuivi la question : pouvait-on entraîner un modèle considérablement plus petit pour qu’il soit comparable sur les tâches de raisonnement clés, en utilisant des données synthétiques de haute qualité plutôt que l’échelle ? « Textbooks Are All You Need » a introduit Phi-1 (1,3 milliard de paramètres), entraîné sur des manuels de programmation synthétiques générés par GPT-4, qui a atteint 50 % sur HumanEval malgré une taille inférieure de plusieurs ordres de grandeur aux modèles de pointe contemporains. Ce paradigme — des données synthétiques organisées de « qualité manuel » et une formation au format éducatif — a été étendu à Phi-1.5 (raisonnement de sens commun) et Phi-2 (tâches cognitives générales), établissant la famille Phi des petits modèles de langage (SLM) comme une ligne importante d’IA efficace. Bubeck a parlé publiquement de la vision consistant à intégrer des SLM de classe Phi dans des appareils quotidiens.

OpenAI — chercheur (2024–présent)

En octobre 2024, Bloomberg a rapporté que Bubeck quitterait Microsoft pour rejoindre OpenAI. Il a fait le pas ce mois-là, poursuivant ses travaux sur les petits modèles de langage, les fondements théoriques de l’IA et la compréhension des modèles de pointe.

Contributions clés

Théorie minimax des bandits (COLT 2009 ; enquête 2012) — « Minimax Policies for Adversarial and Stochastic Bandits » (avec Jean-Yves Audibert) a établi des taux minimax optimaux pour le problème du bandit manchot et a introduit l’algorithme UCB-V. L’enquête de 2012 avec Nicolò Cesa-Bianchi, « Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems », est devenue la référence canonique de la littérature sur les bandits.
Optimisation convexe : algorithmes et complexité (2015) — Une monographie Foundations and Trends in Machine Learning couvrant la descente de gradient, la descente miroir, les méthodes accélérées et les méthodes de point intérieur, largement utilisée comme manuel de troisième cycle et référence en apprentissage automatique théorique.
Optimisation convexe par bandits (STOC 2017) — « Kernel-Based Methods for Bandit Convex Optimization », avec Ronen Eldan et Yin Tat Lee. Premier algorithme en temps polynomial atteignant le regret optimal Õ(√T) pour l’optimisation convexe par bandits, résolvant un problème ouvert de longue date.
K-Server via multiscale entropic regularization (STOC 2018 ; prix du meilleur article NeurIPS 2018) — Avec Michael B. Cohen, Yin Tat Lee, James R. Lee et Aleksander Madry. A résolu la conjecture du k-serveur vieille de plusieurs décennies sur les métriques générales à des facteurs polylogarithmiques près, en utilisant une nouvelle approche de régularisation entropique multi-échelle. Prix du meilleur article STOC 2023 pour son impact à long terme.
Loi de robustesse (prix du meilleur article NeurIPS 2021) — « A Universal Law of Robustness via Isoperimetry », avec Mark Sellke. A prouvé que tout réseau de neurones interpolant n points de données avec une constante de Lipschitz bornée nécessite au moins Ω(n) paramètres — une formalisation mathématiquement précise de la raison pour laquelle les réseaux surparamétrés peuvent se généraliser en douceur.
Sparks of Artificial General Intelligence (arXiv 2023) — « Sparks of Artificial General Intelligence: Early Experiments with GPT-4 », avec treize co-auteurs de Microsoft Research. Une étude empirique de 155 pages sur le GPT-4 précoce soutenant que le modèle présente une intelligence qualitativement générale dans divers domaines. L’un des articles d’IA les plus lus et les plus cités de 2023.
Phi / Textbooks Are All You Need (2023) — A dirigé le développement de la série Phi de petits modèles de langage (Phi-1, Phi-1.5, Phi-2, Phi-3) basée sur l’idée que des données synthétiques de haute qualité au format manuel permettent aux modèles considérablement plus petits d’égaler ou de dépasser des modèles beaucoup plus grands sur des repères de raisonnement clés. Le modèle Phi-3-mini atteint des performances de classe GPT-3.5 avec 3,8 milliards de paramètres.

Prix et reconnaissances

Prix du meilleur article STOC 2023 — Pour la ligne de travaux sur le k-serveur/la poursuite de corps convexes (articles de 2018–2019).
Prix du meilleur article NeurIPS 2021 — Pour l’article sur la loi de robustesse.
Prix du meilleur article NeurIPS 2018 — Pour le k-serveur via régularisation entropique multi-échelle.
Prix du meilleur article COLT 2016 — Pour l’optimisation convexe par bandits optimale.
Bourse de recherche Alfred P. Sloan en informatique (2015) — Décernée par la Fondation Sloan aux chercheurs en début de carrière ayant un potentiel exceptionnel.
Prix du meilleur article étudiant — COLT 2009 (bandits minimax) ; ALT 2018 ; ALT 2023.
Prix Jacques Neveu (2010) — Meilleure thèse de doctorat française en probabilités/statistiques.
Prix Gilles Kahn (2010) — Deuxième prix, meilleure thèse de doctorat française en informatique.
Prix de thèse IA (2011) — Deuxième prix, meilleure thèse de doctorat française en intelligence artificielle.

Relations clés

Yin Tat Lee — La collaboration de recherche la plus soutenue de la carrière de Bubeck, commencée en tant que stagiaire chez MSR (2015–2016) et se poursuivant sur l’optimisation convexe par bandits, le k-serveur, la poursuite de corps convexes et les travaux connexes. Lee est maintenant chercheur principal chez MSR.
Ronen Eldan — Collaborateur de longue date sur l’optimisation par bandits, la loi de robustesse et l’article Sparks of AGI ; probabiliste et informaticien à l’Institut Weizmann et plus tard chez MSR.
Yuanzhi Li — Stagiaire devenu collaborateur qui a travaillé sur la poursuite de corps convexes puis a co-dirigé l’initiative Phi SLM ; chercheur principal chez MSR et anciennement professeur assistant à CMU.
Mark Sellke — Stagiaire qui a co-écrit l’article sur la loi de robustesse et les résultats sur la poursuite de corps convexes ; maintenant à Stanford avec Andrea Montanari.
Michael B. Cohen — Stagiaire exceptionnellement talentueux qui a co-écrit l’article sur le k-serveur et plusieurs autres travaux théoriques ; décédé en 2017 d’un diabète de type 1 non diagnostiqué à l’âge de 20 ans. Bubeck a parlé et écrit de manière émouvante de la mort de Cohen.
Jean-Yves Audibert — Directeur de thèse ; chercheur influent dans les inégalités de concentration et l’apprentissage par bandits, décédé prématurément en 2011. L’approche de recherche d’Audibert — mathématiquement rigoureuse, fondée sur la théorie des probabilités — a façonné l’orientation fondamentale de Bubeck.
Nicolò Cesa-Bianchi — Co-auteur de l’enquête canonique sur les bandits ; figure de proue de l’apprentissage en ligne avec qui Bubeck a défini la référence standard du domaine.
Aleksander Madry — Collaborateur sur le k-serveur ; professeur au MIT connu pour ses recherches sur la robustesse adverse.

Style personnel

La recherche de Bubeck se caractérise par une trajectoire inhabituelle : de la théorie des probabilités fondamentale et de l’analyse concurrentielle à une extrémité, en passant par la géométrie convexe, jusqu’à l’investigation empirique des systèmes d’IA les plus avancés à l’autre. Le fil conducteur intellectuel est une attention persistante à ce qui peut être prouvé — que ce soit des bornes de regret serrées pour les algorithmes de bandits, des bornes inférieures précises de comptage de paramètres pour les réseaux lipschitziens, ou des caractérisations rigoureuses (quoique non formelles) des capacités de GPT-4. Son blog, « I’m a Bandit », commencé à Princeton et fonctionnant depuis plus d’une décennie, est régulièrement cité comme l’un des rares blogs personnels techniquement rigoureux dans le ML théorique, couvrant des problèmes ouverts, des notes de cours et des commentaires originaux dans un style à la fois autoritaire et accessible. Il a été un mentor généreux : plusieurs anciens stagiaires (Yin Tat Lee, Yuanzhi Li, Mark Sellke) sont devenus des chercheurs de premier plan à part entière, et il a écrit publiquement sur la perte tragique de Michael B. Cohen en 2017 d’une manière qui révèle son investissement à la fois dans les personnes et dans les mathématiques.

Références

Site Web personnel : sbubeck.com
Biographie : sbubeck.com/bio.html
Prix : sbubeck.com/awards.html
Google Scholar : scholar.google.com
Wikipédia : Sébastien Bubeck
Blog « I’m a Bandit » : blogs.princeton.edu/imabandit
Article Sparks of AGI : arxiv.org/abs/2303.12712
Bloomberg (rejoint OpenAI, octobre 2024) : bloomberg.com
Profil Digg : digg.com/u/x/sebastienbubeck