Sebastien Bubeck

ref · 5월 27, 2026, 7:13오전

프랑스계 미국인 컴퓨터 과학자이자 수학자. 멀티암드 밴딧에 대한 최소최대 최적 하한을 확립하고, 신경망에 대한 견고성의 법칙을 증명했으며, 마이크로소프트의 Phi 소형 언어 모델 시리즈를 공동 주도했고, GPT-4에 관한 「AGI의 불꽃」 논문을 작성했다.

프로필


출생	1985년 4월 16일, 프랑스
국적	프랑스계 미국인
현 소속	OpenAI (연구 과학자, 2024-현재)
연구 분야	온라인 학습, 밴딧, 볼록 최적화, 계량적 작업 시스템, 딥러닝 이론, 대규모 언어 모델, 소형 언어 모델
박사 학위 논문	응용 수학 박사 (INRIA 노르드 유럽 / 릴 1 대학교, 2010)
웹사이트	sbubeck.com
X / 트위터	@SebastienBubeck
블로그	나는 밴딧이다
Google 학술검색	Sébastien Bubeck

개요

세바스티앙 뷔벡은 프랑스계 미국인 수학자이자 컴퓨터 과학자로, 그의 경력은 이론적 머신러닝, 경쟁 분석, 경험적 AI를 아우른다. 카샹 고등사범학교와 INRIA에서 수학한 그는 박사 과정과 프린스턴 대학에서의 초기 교수 시절 동안 멀티암드 밴딧과 밴딧 볼록 최적화의 기초 이론을 정립했다. 이후 마이크로소프트 리서치에서 Yin Tat Lee 및 공동 연구자들과의 일련의 유명한 논문들을 통해 이론적 방법을 계량적 작업 시스템과 볼록체 추적 문제로 확장했으며, 신경망의 과잉매개변수화를 립시츠 정칙성과 연결짓는 견고성의 법칙을 증명했다. 또한 「교과서만 있으면 된다」 패러다임으로 시작된 Phi 시리즈 소형 언어 모델을 개발한 팀을 이끌었고, 155페이지 분량의 논문 「인공 일반 지능의 불꽃: GPT-4를 이용한 초기 실험」을 공동 작성하여 2023년 가장 널리 읽히고 논쟁이 된 AI 문서 중 하나가 되었다. 2024년에는 OpenAI에 합류했다. 그의 Google 학술검색 프로필은 25,000회 이상의 인용을 기록하고 있다. 그는 머신러닝 커뮤니티에서 가장 오래 운영되고 기술적으로 가장 엄격한 블로그 중 하나인 「나는 밴딧이다」를 운영하고 있다.

초기 생애 및 교육

뷔벡은 1985년 프랑스에서 태어났다. 2005년 프랑스 시스템에서 가장 선별적인 고등 교육 기관 중 하나이자 특히 강력한 수학 프로그램을 갖춘 카샹 고등사범학교(ENS Cachan, 현재 ENS 파리-사클레)에 입학하여 2008년까지 수학했다. 2006년 여름, UCLA의 순수 및 응용 수학 연구소(IPAM)에서 학생 산업 프로젝트 연구(RIPS) 프로그램에 참여했다.

2007년 릴에 있는 INRIA 노르드 유럽에서 응용 수학을 전공으로 한 장-이브 오디베르 감독 하에 박사 과정을 시작하여 2010년에 마쳤다. ENPC와 INRIA의 선도 연구원이었던 오디베르는 기본적인 집중 부등식과 탐색-활용 방법을 개발했으며, 지적 영향력이 컸다. 그는 2011년 이른 나이에 사망했다. 뷔벡은 INRIA에서 레미 뮈노와도 함께 연구했다. 박사 기간 동안 그는 릴 1 대학교(2008-2010)에서 조교로 일했다. 그의 논문은 2010년 최우수 프랑스 확률/통계학 박사 학위(Jacques Neveu 상)로 선정되었고, 2010년 최우수 프랑스 컴퓨터 과학 박사 학위(Gilles Kahn 상) 2위, 2011년 AI 박사 학위 논문상 2위를 차지했다.

경력

박사후 연구원 — 바르셀로나 수학 연구 센터 (2010-2011)

박사 학위 취득 후 뷔벡은 미국으로 이동하기 전에 바르셀로나 수학 연구 센터에서 1년간 박사후 연구원으로 지냈다.

프린스턴 대학교 — ORFE 조교수 (2011-2014)

뷔벡은 프린스턴 대학교의 운영 연구 및 금융 공학과에 조교수로 합류했다. 이 기간 동안 그는 Nicolò Cesa-Bianchi와 함께 2012년 논문 「확률적 및 비확률적 멀티암드 밴딧 문제의 후회 분석」을 작성했으며, 이는 UCB 알고리즘, 톰슨 샘플링, 문맥적 밴딧, 적대적 밴딧을 통일된 이론적 틀로 다루어 밴딧 학습 커뮤니티의 주요 참고 문헌이 되었다. 또한 이후 Foundations and Trends 모노그래프가 된 볼록 최적화에 대한 강의 노트를 널리 사용하게 했다. 여러 학부 연구원을 지도했으며 2015년 컴퓨터 과학 분야 Alfred P. Sloan 연구 펠로우십을 수상했다. 2013년 가을학기에는 UC 버클리의 이론 컴퓨팅 시몬스 연구소에서 방문 연구원으로 지냈다.

마이크로소프트 리서치 — 연구원에서 수석 연구 관리자로 (2014-2024)

뷔벡은 2014년 이론 그룹의 연구원으로 레드몬드에 있는 마이크로소프트 리서치에 합류했으며, 2017-2019년 선임 연구원, 2020-2023년 머신러닝 기초 그룹을 이끄는 수석 연구 관리자, 마지막으로 2024년 AI 부사장 겸 저명 과학자로 승진했다.

밴딧 및 볼록 최적화 (2014-2019). 그의 초기 마이크로소프트 연구는 온라인 학습의 여러 오랜 미해결 문제를 해결했다. 「밴딧 볼록 최적화를 위한 커널 기반 방법」(STOC/JACM 2017, Ronen Eldan 및 Yin Tat Lee와 공동)은 밴딧 볼록 최적화에 대해 최적의 후회를 달성하는 최초의 다항식 시간 알고리즘을 제시했으며, 이는 10년 넘게 열려 있던 문제였다. 이 연구 라인은 COLT 2016 최우수 논문상을 받았다.

K-서버 및 경쟁 분석 (2018-2019). Michael B. Cohen, Yin Tat Lee, James R. Lee, Aleksander Madry와 함께 뷔벡은 「다중 척도 엔트로피 정칙화를 통한 K-서버」(STOC 2018)로 경쟁 분석의 주요 미해결 질문을 해결했다. 이 논문은 새로운 엔트로피 정칙화 기법을 통해 일반 거리 공간에서 k-서버 문제에 대한 최초의 다중 로그 경쟁비를 달성하여 NeurIPS 2018 최우수 논문상을 받았다. 「볼록체 추적 경쟁」(Yin Tat Lee, Yuanzhi Li, Mark Sellke와 공동)은 볼록체 추적 문제를 최적으로 해결했다. 이 연구 라인은 2018-2019년 논문들의 지속적인 영향력을 인정받아 STOC 2023 최우수 논문상을 받았다.

견고성의 법칙 (2021). 「등주 부등식을 통한 견고성의 보편적 법칙」(NeurIPS 2021 최우수 논문, Mark Sellke와 공동)은 예리한 수학적 정리를 증명했다: 경계 립시츠 상수로 n개의 데이터 포인트를 보간하는 신경망은 적어도 Ω(n)개의 매개변수를 가져야 한다. 이 결과는 과잉매개변수화된 신경망이 어떻게 동시에 잘 적합하면서도 매끄러울 수 있는지 공식화하며, 볼록 기하학의 등주 부등식과 매개변수 개수 기하학을 연결한다. 《Quanta Magazine》과 《Nature》는 이 결과를 딥러닝에 대한 이론적 이해의 돌파구로 보도했다.

AGI의 불꽃: GPT-4를 이용한 초기 실험 (2023). 2023년 초, 마이크로소프트가 개발 중인 GPT-4에 대한 초기 접근 권한을 얻었을 때, 뷔벡은 14명의 마이크로소프트 리서치 저자 팀을 이끌어 초기 버전 모델에 대한 155페이지 분량의 경험적 조사를 수행했다. 결과물인 사전 출판본 「인공 일반 지능의 불꽃」은 GPT-4가 이전 AI 시스템보다 질적으로 더 일반적인 지능을 보여주며, 작업별 프롬프트 없이 수학, 코딩, 시각, 의학, 법률 등 다양한 분야에서 놀라운 능력을 발휘한다고 주장했다. 이 논문은 주장에 신중했지만 GPT-4를 「초기(그러나 여전히 불완전한)」 AGI 시스템으로 의도적으로 도발적인 틀을 잡아 2023년 가장 널리 논의된 AI 문서 중 하나가 되었으며, 《뉴욕 타임즈》, 《와이어드》, 《디스 아메리칸 라이프》 등 여러 매체에서 다루었고, 대규모 언어 모델의 능력에 대한 주류 대중의 이해에 기여했다.

Phi: 교과서만 있으면 된다 (2023). Sparks 논문 직후, 뷔벡과 공동 연구자들(주로 Yuanzhi Li 등)은 다음과 같은 질문을 추구했다: 규모가 아닌 고품질 합성 데이터를 사용하여 주요 추론 작업에서 비슷한 성능을 내는 훨씬 더 작은 모델을 훈련할 수 있을까? 「교과서만 있으면 된다」는 GPT-4가 생성한 합성 프로그래밍 교과서로 훈련된 Phi-1(1.3B 매개변수)을 소개했으며, 이는 당시 최첨단 모델보다 수백 배 작음에도 HumanEval에서 50%를 달성했다. 이 패러다임 — 선별된 합성 「교과서 품질」 데이터와 교육 형식 훈련 — 은 Phi-1.5(상식 추론) 및 Phi-2(일반 인지 작업)로 확장되어 Phi 소형 언어 모델(SLM) 제품군을 효율적인 AI의 두드러진 라인으로 확립했다. 뷔벡은 Phi급 SLM을 일상 기기에 내장하는 비전에 대해 공개적으로 말해왔다.

OpenAI — 연구 과학자 (2024-현재)

2024년 10월, 블룸버그는 뷔벡이 마이크로소프트를 떠나 OpenAI에 합류할 것이라고 보도했다. 그는 그 달에 이직했으며, 소형 언어 모델, AI의 이론적 기초, 최전선 모델 이해에 대한 연구를 계속하고 있다.

주요 기여

최소최대 밴딧 이론 (COLT 2009; 설문 2012) — 「적대적 및 확률적 밴딧을 위한 최소최대 정책」(Jean-Yves Audibert와 공동)은 멀티암드 밴딧 문제에 대한 최소최대 최적 비율을 확립하고 UCB-V 알고리즘을 도입했다. Nicolò Cesa-Bianchi와의 2012년 설문 조사, 《확률적 및 비확률적 멀티암드 밴딧 문제의 후회 분석》은 밴딧 문헌의 표준 참고 문헌이 되었다.
볼록 최적화: 알고리즘 및 복잡성 (2015) — 머신러닝의 Foundations and Trends 모노그래프로, 경사 하강법, 거울 하강법, 가속 방법, 내부점 방법을 다루며 이론적 머신러닝의 대학원 교과서 및 참고 자료로 널리 사용된다.
밴딧 볼록 최적화 (STOC 2017) — 「밴딧 볼록 최적화를 위한 커널 기반 방법」, Ronen Eldan 및 Yin Tat Lee와 공동. 밴딧 볼록 최적화에 대해 최적의 Õ(√T) 후회를 달성하는 최초의 다항식 시간 알고리즘으로, 오랜 미해결 문제를 해결했다.
다중 척도 엔트로피 정칙화를 통한 K-서버 (STOC 2018; NeurIPS 2018 최우수 논문) — Michael B. Cohen, Yin Tat Lee, James R. Lee, Aleksander Madry와 공동. 새로운 다중 척도 엔트로피 정칙화 접근 방식을 사용하여 일반 거리에서 수십 년 된 k-서버 추측을 다중 로그 인자까지 해결했다. 장기적 영향에 대한 STOC 2023 최우수 논문상.
견고성의 법칙 (NeurIPS 2021 최우수 논문) — 「등주 부등식을 통한 견고성의 보편적 법칙」, Mark Sellke와 공동. 경계 립시츠 상수로 n개의 데이터 포인트를 보간하는 모든 신경망은 적어도 Ω(n)개의 매개변수를 필요로 한다는 것을 증명했다 — 이는 과잉매개변수화된 네트워크가 매끄럽게 일반화될 수 있는 이유에 대한 수학적으로 정밀한 공식화이다.
인공 일반 지능의 불꽃 (arXiv 2023) — 「인공 일반 지능의 불꽃: GPT-4를 이용한 초기 실험」, 13명의 마이크로소프트 리서치 공동 저자와 함께. 초기 GPT-4에 대한 155페이지 분량의 경험적 연구로, 모델이 다양한 영역에서 질적으로 일반적인 지능을 보여준다고 주장한다. 2023년 가장 널리 읽히고 인용된 AI 논문 중 하나.
Phi / 교과서만 있으면 된다 (2023) — Phi 시리즈 소형 언어 모델(Phi-1, Phi-1.5, Phi-2, Phi-3)의 개발을 주도했다. 핵심 통찰은 고품질 합성 교과서 형식 데이터를 사용하면 훨씬 작은 모델이 주요 추론 벤치마크에서 훨씬 큰 모델과 일치하거나 능가할 수 있다는 것이다. Phi-3-mini 모델은 3.8B 매개변수로 GPT-3.5급 성능을 달성한다.

수상 및 인정

STOC 2023 최우수 논문상 — k-서버/볼록체 추적 연구 라인(2018-2019년 논문)에 대해.
NeurIPS 2021 최우수 논문상 — 견고성의 법칙 논문에 대해.
NeurIPS 2018 최우수 논문상 — 다중 척도 엔트로피 정칙화를 통한 k-서버 논문에 대해.
COLT 2016 최우수 논문상 — 최적 밴딧 볼록 최적화에 대해.
Alfred P. Sloan 컴퓨터 과학 연구 펠로우십 (2015) — 예외적인 잠재력을 가진 초기 경력 연구자를 위한 Sloan 재단의 상.
최우수 학생 논문상 — COLT 2009 (최소최대 밴딧); ALT 2018; ALT 2023.
Jacques Neveu 상 (2010) — 최우수 프랑스 확률/통계학 박사 학위.
Gilles Kahn 상 (2010) — 최우수 프랑스 컴퓨터 과학 박사 학위 2위.
AI 박사 학위 논문상 (2011) — 최우수 프랑스 인공 지능 박사 학위 2위.

주요 관계

Yin Tat Lee — 2015-2016년 MSR 인턴으로 시작하여 밴딧 볼록 최적화, k-서버, 볼록체 추적 등 관련 연구로 이어진 뷔벡 경력에서 가장 지속적인 연구 협력자. Lee는 현재 MSR의 수석 연구원이다.
Ronen Eldan — 밴딧 최적화, 견고성의 법칙, AGI의 불꽃 논문에 걸쳐 오랜 협력자; 바이츠만 연구소와 이후 MSR의 확률론자이자 컴퓨터 과학자.
Yuanzhi Li — 인턴에서 협력자로 전환하여 볼록체 추적에 참여한 후 Phi SLM 이니셔티브를 공동 주도; MSR 수석 연구원이자 이전 CMU 조교수.
Mark Sellke — 견고성의 법칙 논문과 볼록체 추적 결과를 공동 작성한 인턴; 현재 Andrea Montanari와 함께 스탠포드.
Michael B. Cohen — k-서버 논문 및 여러 이론 연구를 공동 작성한 뛰어난 인턴; 20세에 진단되지 않은 제1형 당뇨병으로 2017년 사망. 뷔벡은 Cohen의 죽음에 대해 감동적으로 말하고 글을 썼다.
Jean-Yves Audibert — 박사 지도 교수; 집중 부등식과 밴딧 학습에 영향력 있는 연구원으로 2011년 일찍 사망. Audibert의 수학적으로 엄격하고 확률론적인 연구 접근 방식은 뷔벡의 기초적 방향을 형성했다.
Nicolò Cesa-Bianchi — 표준적인 밴딧 설문 조사의 공동 저자; 뷔벡이 해당 분야의 표준 참고 문헌을 정의한 온라인 학습의 선도적 인물.
Aleksander Madry — k-서버 협력자; 적대적 견고성 연구로 알려진 MIT 교수.

개인적 스타일

뷔벡의 연구는 독특한 궤적으로 정의된다: 한쪽 끝의 기초 확률 이론 및 경쟁 분석에서 볼록 기하학을 거쳐 다른 쪽 끝의 가장 진보된 AI 시스템에 대한 경험적 조사까지. 지적 스레드는 「증명할 수 있는 것」에 대한 지속적인 초점이다 — 이는 밴딧 알고리즘에 대한 엄격한 후회 하한, 립시츠 네트워크에 대한 예리한 매개변수 개수 하한, 또는 GPT-4의 능력에 대한 엄격한(비공식적이지만) 특성화를 의미한다. 프린스턴에서 시작하여 10년 넘게 운영되고 있는 그의 블로그 「나는 밴딧이다」는 이론적 ML에서 기술적으로 엄격한 몇 안 되는 개인 블로그 중 하나로 일관되게 언급되며, 미해결 문제, 강의 노트, 독창적인 해설을 권위적이면서도 접근 가능한 스타일로 다룬다. 그는 관대한 멘토였다: 여러 전직 인턴(Yin Tat Lee, Yuanzhi Li, Mark Sellke)은 각자의 권리로 선도적인 연구원이 되었으며, 그는 2017년 Michael B. Cohen의 비극적 상실에 대해 수학뿐만 아니라 사람에 대한 그의 투자를 드러내는 방식으로 공개적으로 글을 썼다.

참고 자료

개인 웹사이트: sbubeck.com
약력: sbubeck.com/bio.html
수상: sbubeck.com/awards.html
Google 학술검색: scholar.google.com
위키백과: Sébastien Bubeck
블로그 「나는 밴딧이다」: blogs.princeton.edu/imabandit
AGI의 불꽃 논문: arxiv.org/abs/2303.12712
블룸버그 (OpenAI 합류, 2024년 10월): bloomberg.com
Digg 프로필: digg.com/u/x/sebastienbubeck