Pieter Abbeel

ref · 5월 25, 2026, 7:42오전

UC Berkeley 전기공학 및 컴퓨터과학(EECS) 교수, Covariant 및 Gradescope 공동 창업자, 2021년 ACM 컴퓨팅상 수상자, 현대 인공지능 분야에서 가장 영향력 있는 박사 지도교수 중 한 명 — 그의 제자들은 OpenAI, Physical Intelligence, Perplexity 및 12개가 넘는 다른 회사들을 공동 창업했습니다.

프로필

분야	세부 정보
출생	1977년, 벨기에 안트베르펜
국적	벨기에계 미국인
현재 역할	UC Berkeley EECS 교수; Amazon Scholar (AGI / LLM); BAIR 공동 디렉터
연구 분야	로봇 학습, 심층 강화 학습, 견습 학습, 모방 학습, 로봇 공학을 위한 기초 모델
박사 지도교수	Andrew Ng (Stanford)
박사 학위 논문	Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control (Stanford, 2008)
학술 웹사이트	people.eecs.berkeley.edu/~pabbeel
X / 트위터	@pabbeel
GitHub	@pabbeel
Google Scholar	scholar.google.com

개요

Pieter Abbeel은 UC Berkeley의 전기공학 및 컴퓨터과학 교수이자 Berkeley Artificial Intelligence Research (BAIR) 연구소의 공동 디렉터이며, 지난 20년간 로봇 학습 분야에서 가장 영향력 있는 인물 중 한 명입니다. 그는 로봇 제어를 위한 선구적인 견습 학습 및 심층 강화 학습 공로로 2021년 ACM 컴퓨팅상을 수상했습니다 — 이 상은 해당 분야의 가장 권위 있는 경력 중기 상 중 하나입니다. 그의 방법론적 기여는 역강화학습을 통한 견습 학습(2004)부터 TRPO(2015), MAML(2017), Soft Actor-Critic, Domain Randomization, Hindsight Experience Replay에 이르기까지 고전적 및 심층 학습 강화 학습 시대에 걸쳐 있습니다. 그는 Gradescope (2018년 Turnitin에 인수됨)와 Covariant를 공동 창업했습니다. Covariant는 로봇 기초 모델 회사로, 2024년 Amazon에 기술이 인수되었습니다. 2025년 12월에는 Amazon의 AGI 조직 내 LLM 노력을 이끌도록 임명되었습니다. 그의 가장 오래 지속될 제도적 기여는 그의 제자 계보일 것입니다: 그의 연구실 출신 동문들은 OpenAI, Physical Intelligence, Perplexity, Skild, Ideogram, Genmo 및 12개가 넘는 다른 AI 회사들을 공동 창업했습니다.

초기 생애 및 교육

Abbeel은 1977년 안트베르펜에서 태어나 인근 교외 브라스하트에서 자랐습니다. Sint-Michielscollege 고등학생 시절, 그는 대학 수준에서도 계속한 스포츠인 클럽 농구팀에서 활동했습니다. 그는 AI가 학문 전반에 걸쳐 보편적인 도구 역할을 할 수 있다는 조기 인식과 지능이 인간을 다른 종과 뚜렷이 구분 짓는 요소라는 점이 이 분야에 입문하게 된 동기라고 밝혔습니다.

전기공학 학사 및 석사 — KU Leuven, 벨기에, 2000
Abbeel은 벨기에의 주요 연구 대학 중 하나인 KU Leuven에서 두 학위를 모두 마쳤으며, 재학 기간 내내 대학 농구팀에서 활동했습니다.

컴퓨터과학 박사 — Stanford University, 2008
Abbeel은 Andrew Ng의 첫 번째 박사 학생이었습니다. Ng는 Abbeel이 합류했을 당시 Stanford의 1년차 교수였습니다. 그의 논문, Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control은 시연을 통한 학습의 이론적 및 경험적 기초를 확립했습니다 — 특히 역강화학습을 통해 전문가 행동으로부터 보상 함수를 추론하는 프레임워크입니다. 이 논문은 헬리콥터가 필요한 제어 규칙을 수동으로 프로그래밍하는 대신 비행을 관찰함으로써 전문 인간 조종사의 곡예 비행 기술 수준을 따라잡도록 훈련될 수 있음을 보여주었습니다. 그는 원래 석사 학위만을 의도했지만 Ng 지도하 Stanford의 AI 프로젝트 집중도 때문에 박사 과정을 계속했습니다.

경력

UC Berkeley — 교수 (2008–현재)

Abbeel은 2008년 Berkeley에 EECS 조교수로 합류하여 즉시 Berkeley Robot Learning Lab을 설립했으며, 2017년 정교수(종신 재직권)로 승진했습니다. 2016년에는 BAIR의 공동 디렉터가 되었습니다.

견습 학습 및 로봇 조작 (2008–2015)
Abbeel의 Berkeley 그룹은 헬리콥터 견습 학습 결과를 다양한 조작 작업으로 확장했습니다. 가장 대중적으로 주목받은 것은 천 및 세탁물 접기였습니다 — 로봇이 새로운 시각 인식, 물리 기반 추적 및 시연을 통한 학습을 결합하여 변형 가능한 물체를 인지하고 조작할 수 있음을 보여주었습니다. 세탁물 접기 로봇은 대중 과학 매체의 로봇 학습 관련 보도에서 상징적인 이미지가 되었으며, BBC, New York Times, Rolling Stone을 포함한 언론에서 광범위하게 인용되었습니다. 다른 초기 Berkeley 결과로는 수술 봉합 및 매듭 묶기가 있습니다.

OpenAI — 동시 연구 역할 (2016)
Berkeley 교수직과 중복되는 기간 동안, Abbeel은 OpenAI와 제휴하여 John Schulman 및 다른 OpenAI 연구자들과 강화 학습 및 제어에 관한 연구를 공동 저술했습니다. 이 시대의 그의 그룹이 기여한 심층 RL, 특히 TRPO와 GAE는 그의 Berkeley 연구실과 초기 OpenAI 환경의 교차점에서 개발되었습니다.

TRPO and GAE (2015)
Trust Region Policy Optimization (TRPO)는 John Schulman, Sergey Levine, Philipp Moritz, Michael Jordan과 공동 저술되었으며, 확장 가능한 심층 RL을 가능하게 하는 이론적으로 원칙적인 정책 그래디언트 업데이트 제약 조건을 도입하여 시뮬레이션 물리에서 3D 보행의 첫 번째 시연을 만들어냈습니다. Generalized Advantage Estimation (GAE)도 이 협업에서 비롯되었으며, 통합된 분산 감소 프레임워크를 제공했습니다. 두 논문 모두 심층 RL 시대의 기초가 되었습니다.

MAML (2017)
Model-Agnostic Meta-Learning (Finn, Abbeel, Levine; ICML 2017)은 소규모 샷 적응을 가능하게 하는 그래디언트 기반 메타 학습 알고리즘을 도입했습니다. 2010년대 가장 많이 인용된 ML 논문 중 하나입니다.

Domain Randomization, SAC, Hindsight Experience Replay, Decision Transformer
Abbeel 그룹의 추가적인 심층 RL 기여: Domain Randomization (시뮬레이션-현실 전송을 가능하게 하기 위해 무작위화된 시뮬레이션 전반에 걸친 훈련), Soft Actor-Critic (현재 가장 인기 있는 연속 제어 RL 알고리즘 중 하나), Hindsight Experience Replay (희소 보상, 목표 지향 설정에서 RL 가능), Decision Transformer (변압기로 RL을 시퀀스 모델링으로 구성).

심층 비지도 학습 (CS294-158)
Abbeel은 Berkeley에서 심층 비지도 학습을 개발하고 가르쳐 왔습니다 — VAE, 정규화 흐름, GAN, 확산 모델 및 자기 지도 학습을 포함한 생성 모델을 다루는 대학원 과정입니다. 여러 판의 강의 비디오가 공개적으로 출시되었으며 참고 자료로 널리 사용됩니다.

Gradescope — 공동 창업자 (2014–2018)

2014년, Abbeel은 Berkeley 소속 엔지니어 Arjun Singh, Sergey Karayev 및 Ibrahim Awwal과 함께 Gradescope를 공동 창업했습니다. Gradescope는 컴퓨터 비전과 AI를 사용하여 손글씨 과제 및 시험 채점을 간소화하는 온라인 채점 플랫폼입니다. 현재 미국 전역 500개 이상의 대학에서 사용됩니다. 이 회사는 2018년 Turnitin에 인수되었습니다.

Covariant — 공동 창업자 (2017–2024)

2017년 10월, Abbeel은 자신의 박사 학생 세 명인 Peter Chen, Rocky Duan, Tianhao Zhang과 함께 Covariant(원래 이름 Embodied Intelligence)를 공동 창업했습니다. 회사의 사명은 심층 모방 및 강화 학습을 사용하여 로봇이 창고 및 공장 환경에서 물체를 인지하고 조작할 수 있는 보편적인 AI를 구축하는 것이었습니다. Covariant는 2020년 1월 공개적으로 출범했으며 여러 차례의 자금 조달 라운드를 통해 약 1억 4700만 달러를 모금했습니다. 주력 제품인 RFM-1 (Robotics Foundation Model)은 로봇 조작 작업에 기초 모델 사전 훈련을 적용하여 Covariant를 대규모 AI와 물리적 자동화의 교차점에 위치시켰습니다.

2024년 8월, Amazon은 Covariant의 로봇 기초 모델을 라이선스하고 Abbeel을 포함한 회사 창립자들을 Amazon의 광범위한 AI 조직으로 고용하기로 합의했습니다. 이후 워싱턴 포스트의 보도는 핵심 자산과 팀의 인수 이후 이러한 계약이 Covariant 자체를 "좀비 스타트업"으로 남겼다고 설명했습니다.

Amazon — Amazon Scholar 및 AGI/LLM 역할 (2024–현재)

Covariant 인수 이후, Abbeel은 Amazon에 합류했습니다. 2025년 12월, 그는 Amazon의 AGI 조직 내 LLM 노력을 이끄는 역할에 임명되었으며 로봇 공학 작업도 계속하고 있습니다 — 이는 Amazon의 기초 모델 역량과 물리적 물류 및 자동화 시스템의 통합을 반영합니다. 그는 Amazon Scholar로서 Berkeley 교수직을 유지하고 있습니다.

AIX Ventures — 투자 파트너 (2021)

Abbeel은 2021년 AIX Ventures에 투자 파트너로 합류했습니다. Percy Liang과 Richard Socher도 파트너로 있는 동일한 AI 중심 벤처 펀드입니다.

The Robot Brains 팟캐스트

Abbeel은 AI 및 로봇 공학 연구자와 실무자와의 대화를 특징으로 하는 주간 팟캐스트 The Robot Brains의 호스트입니다. 이 팟캐스트는 로봇 학습과 그 최전선에 대한 장문 토론을 위한 주요 공개 채널 중 하나가 되었습니다.

주요 기여

역강화학습을 통한 견습 학습 (ICML 2004, Andrew Ng와 함께) — 전문가 시연으로부터 보상 함수를 추론하고 이를 사용하여 에이전트를 훈련시키는 프레임워크를 도입하여 인간 전문가 수준의 헬리콥터 곡예 비행을 가능하게 함; 전체 모방 학습 분야의 기초.
세탁물 접기 및 천 조작 — Berkeley 연구실이 새로운 시각, 물리 및 학습 방법의 조합을 사용하여 로봇이 변형 가능한 물체를 인지하고 조작할 수 있음을 시연; 로봇 조작 연구의 이정표이자 학습 기반 조작에 대한 높은 인지도의 개념 증명.
TRPO (Trust Region Policy Optimization) (ICML 2015, Schulman, Levine, Moritz, Jordan과 함께) — 신뢰 영역 제약 조건이 있는 원칙적인 정책 그래디언트 업데이트; 확장 가능한 심층 RL을 가능하게 하고 최초의 3D 보행 결과를 생성함; John Schulman Wiki 참조.
MAML (Model-Agnostic Meta-Learning) (ICML 2017, Finn 및 Levine과 함께) — 빠른 소규모 샷 적응을 가능하게 하는 그래디언트 기반 메타 학습 알고리즘; 2010년대 가장 많이 인용된 ML 논문 중 하나.
Soft Actor-Critic (SAC) — 연속 제어를 위해 가장 널리 사용되는 심층 RL 알고리즘 중 하나; 샘플 효율성과 안정성을 위해 오프 정책 학습과 최대 엔트로피 RL을 결합.
Domain Randomization — 다양한 무작위화된 시뮬레이션 조건에 걸친 훈련이 명시적인 시뮬레이션-현실 전송 엔지니어링 없이도 정책이 실제 세계로 일반화될 수 있음을 보여주는 프레임워크; 현재 로봇 RL의 표준 관행.
Hindsight Experience Replay (HER) — 달성된 목표로 실패한 궤적을 재라벨링하여 희소 보상, 목표 조건 설정에서 RL을 가능하게 함; 실제적인 목표 지향 설정에서 조작 학습을 실질적으로 가능하게 함.
Decision Transformer — 변압기를 사용하여 강화 학습을 시퀀스 모델링 문제로 구성하고, 반환-목표 조건화를 통해 오프라인 RL을 가능하게 함; RL 및 기초 모델 연구 커뮤니티를 연결하는 데 영향력이 있음.
확산 모델 (학생/공동 연구자를 통해) — Abbeel의 그룹은 로봇 공학 및 생성 AI 맥락을 위한 확산 모델 개발에 기여했습니다.
RFM-1 (Robotics Foundation Model) — 다양한 물체 및 설정에 걸친 산업용 로봇 조작에 대규모 사전 훈련을 적용하는 Covariant의 모델.
Gradescope — 현재 500개 이상의 대학에 배포된 AI 기반 채점 플랫폼; 순수 연구를 넘어 유용한 시스템을 구축하려는 Abbeel의 일관된 지향성을 보여줌.
심층 비지도 학습 과정 (CS294-158) — 생성 모델을 다루는 공개 강의 시리즈로 대학원 ML 교육의 표준 자료가 됨.

수상 및 인정

ACM 컴퓨팅상 (2021) — 로봇 학습, 특히 로봇 제어를 위한 견습 학습 및 심층 강화 학습에 대한 기여로 수상; 상금 250,000달러.
대통령 조기 경력 과학자 및 공학자상 (PECASE)
NSF CAREER 상
해군 연구청 젊은 연구자 프로그램 (ONR-YIP)
DARPA 젊은 교수 상 (DARPA-YFA)
MIT Technology Review 35세 미만 혁신가 (TR35)
IEEE 석학회원
ACM 석학회원 (待核实)

학문 계보

회사 창업이라는 지표로 볼 때, Abbeel의 학생 지도 기록은 AI 역사상 가장 영향력 있는 것 중 하나입니다:

John Schulman — 박사; OpenAI 공동 창업; TRPO 및 PPO 개발; 이전 Anthropic; 현재 Thinking Machines Lab.
Chelsea Finn — 박사; MAML 개발; Physical Intelligence 공동 창업; 현재 Stanford 부교수.
Aravind Srinivas — 박사; AI 기반 검색 엔진 Perplexity AI 공동 창업.
Sergey Levine — 박사 (공동 지도); Physical Intelligence 공동 창업; 현재 UC Berkeley 부교수.
Peter Chen, Rocky Duan, Tianhao Zhang — Abbeel과 함께 Covariant를 공동 창업한 박사 학생.
Deepak Pathak — Skild 공동 창업.
Jonathan Ho — Ideogram 공동 창업; 확산 모델 연구에 주요 기여자.
Ajay Jain — Genmo 공동 창업.
Misha Laskin — Reflection AI 창업.
Roshan Rao — Evolutionary Scale (단백질 언어 모델) 공동 창업.

주요 관계

Andrew Ng — Stanford에서의 박사 지도교수; Abbeel은 Ng가 1년차 교수일 때 Ng의 첫 번째 박사 학생이었음; 그들이 함께 개발한 견습 학습 프레임워크는 Abbeel의 초기 대표 기여가 됨.
John Schulman — 박사 학생이자 가장 오래 지속된 연구 협력자; TRPO 및 GAE에 대한 공동 연구는 심층 RL에서 가장 많이 인용됨; Schulman이 Abbeel의 네트워크와 함께 OpenAI를 창업한 것은 비범한 규모의 스승-제자 순환을 완성함.
Chelsea Finn — 박사 학생; MAML은 Finn, Abbeel, Levine 간의 3자 협력; Stanford 및 Physical Intelligence에서의 Finn의 후속 경력은 Abbeel 연구실이 개발한 연구 의제를 반영함.
Sergey Levine — 박사 동문이자 현재 Berkeley 동료; Physical Intelligence의 창립 팀(Finn과 Levine)은 Abbeel의 학문적 가족에서 직접 나옴; Berkeley에서의 그들의 지속적인 공동 지도 관계는 협력을 계속함.
Michael I. Jordan — Berkeley 선배 동료이자 TRPO의 공동 저자; Abbeel의 RL 작업의 수학적 기초에 대한 Jordan의 영향은 Berkeley ML의 두 세대를 연결함.
Percy Liang — AIX Ventures 공동 투자자; Berkeley/Stanford AI 커뮤니티 및 AIX Ventures 내 그들의 공유 위치는 베이 에어리어 AI 연구 주변의 밀집된 제도적 네트워크를 반영함.

개인 스타일

Abbeel의 연구 의제는 통제된 실험실 시연보다는 물리적 세계에서 로봇을 진정으로 유용하게 만드는 데 대한 일관된 추진력이 특징입니다. 그의 그룹의 이정표(헬리콥터 곡예 비행, 세탁물 접기, 수술 봉합, 창고 조작)는 대중적 인지도와 기술적 난이도의 결합을 위해 의도적으로 선택되었습니다. 이는 학습 기반 방법이 깨끗하고, 딱딱하며, 잘 명시된 작업뿐만 아니라 지저분하고, 변형 가능하며, 부분적으로 관찰 가능한 물리적 작업의 현실을 처리할 수 있음을 보여주었습니다. 그의 제도적 투자(BAIR, Covariant, Gradescope, 심층 비지도 학습 과정, The Robot Brains 팟캐스트)는 인프라와 접근성에 대한 병행적인 헌신, 즉 연구가 발생하고 더 넓은 커뮤니티가 그것에 참여하는 플랫폼을 구축하는 것을 반영합니다. 그의 X/Twitter 분위기(35.8% “정보 제공”, 21.5% “발표”, 10% “교육”)와 Robot Brains 팟캐스트 홍보의 지배적인 주제는 자신을 일차 연구자만큼이나 생태계 구축자로 보는 소통가임을 시사합니다.