Профессор EECS в Калифорнийском университете в Беркли, сооснователь Covariant и Gradescope, лауреат премии ACM Prize in Computing 2021 года и один из самых влиятельных научных руководителей в современном ИИ — его студенты стали сооснователями OpenAI, Physical Intelligence, Perplexity и десятка других компаний.
Профиль
| Поле | Детали |
|---|---|
| Дата рождения | 1977, Антверпен, Бельгия |
| Гражданство | Бельгиец-американец |
| Текущие должности | Профессор, EECS, UC Berkeley; Amazon Scholar (AGI / LLM); Содиректор, BAIR |
| Области исследований | Роботизированное обучение, глубокое обучение с подкреплением, обучение через подражание, модели-основы для робототехники |
| Научный руководитель (PhD) | Эндрю Ын (Стэнфорд) |
| Докторская диссертация | Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control (Стэнфорд, 2008) |
| Академический сайт | people.eecs.berkeley.edu/~pabbeel |
| X / Twitter | @pabbeel |
| GitHub | @pabbeel |
| Google Scholar | scholar.google.com |
Обзор
Питер Аббил (Pieter Abbeel) — бельгийско-американский профессор электротехники и компьютерных наук в Калифорнийском университете в Беркли, содиректор лаборатории Berkeley Artificial Intelligence Research (BAIR) и одна из самых влиятельных фигур в области обучения роботов за последние два десятилетия. В 2021 году он получил премию ACM Prize in Computing — одну из самых престижных наград в этой области для исследователей на раннем и среднем этапе карьеры — за новаторские работы в области обучения через подражание и глубокого обучения с подкреплением для управления роботами. Его методологический вклад охватывает как классическую, так и эпоху глубокого обучения в RL: от обучения через подражание с помощью обратного обучения с подкреплением (2004) до TRPO (2015), MAML (2017), Soft Actor-Critic, Domain Randomization и Hindsight Experience Replay. Он стал сооснователем Gradescope (приобретена Turnitin в 2018 г.) и Covariant, компании по созданию фундаментальных моделей для робототехники, чьи технологии были приобретены Amazon в 2024 г.; в декабре 2025 года он был назначен руководителем проектов Amazon по большим языковым моделям в рамках своего подразделения AGI. Самым долгосрочным институциональным вкладом, вероятно, является его студенческая «родословная»: выпускники его лаборатории стали сооснователями OpenAI, Physical Intelligence, Perplexity, Skild, Ideogram, Genmo и более десятка других компаний в сфере ИИ.
Ранние годы и образование
Аббил родился в Антверпене в 1977 году и вырос в близлежащем пригороде Брассхат. Будучи учеником средней школы Sint-Michielscollege, он играл в клубной баскетбольной команде — этим видом спорта он продолжал заниматься и на университетском уровне. Он упоминал, что раннее осознание того, что ИИ может стать универсальным инструментом в разных дисциплинах, и что именно интеллект отличает человека от других биологических видов, послужило мотивацией для входа в эту область.
Бакалавр и магистр, электротехника — KU Leuven, Бельгия, 2000
Аббил получил обе степени в KU Leuven, одном из ведущих исследовательских университетов Бельгии, на протяжении всего времени играя в университетской баскетбольной команде.
PhD, информатика — Стэнфордский университет, 2008
Аббил был первым докторантом Эндрю Ына, который сам был профессором-первогодкой в Стэнфорде, когда к нему пришел Аббил. Его диссертация, Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control, заложила теоретические и эмпирические основы обучения с помощью демонстрации — в частности, структуру вывода функций вознаграждения на основе поведения эксперта с помощью обратного обучения с подкреплением. Диссертация продемонстрировала, что вертолет можно обучить выполнять фигуры высшего пилотажа на уровне опытных пилотов-людей, просто наблюдая за их полетом, а не программируя вручную необходимые правила управления. Первоначально он намеревался получить только степень магистра, но остался на докторскую программу из-за концентрации проектов по ИИ в Стэнфорде под руководством Ына.
Карьера
Калифорнийский университет в Беркли — профессор (2008–настоящее время)
Аббил присоединился к Беркли в качестве доцента на кафедре EECS в 2008 году, сразу после прибытия основал Berkeley Robot Learning Lab, а в 2017 году получил звание полного профессора с пожизненным контрактом. В 2016 году он стал содиректором BAIR.
Обучение через подражание и роботизированные манипуляции (2008–2015)
Группа Аббила в Беркли расширила результаты по обучению вертолетов через подражание на широкий спектр задач манипуляции. Наибольшую известность получила работа со складыванием ткани и белья — было продемонстрировано, что роботы могут воспринимать и манипулировать деформируемыми объектами, комбинируя новые методы визуального восприятия, отслеживания на основе физики и обучения с помощью демонстрации. Робот для складывания белья стал культовым образом в научно-популярном освещении обучения роботов, широко цитировался в прессе, включая BBC, New York Times и Rolling Stone. Другие ранние результаты лаборатории в Беркли включали хирургическое наложение швов и завязывание узлов.
OpenAI — Параллельная исследовательская роль (2016)
В период, частично совпадающий с его должностью профессора в Беркли, Аббил был сотрудником OpenAI и был соавтором исследований по обучению с подкреплением и управлению с Джоном Шульманом и другими исследователями OpenAI. Его группа внесла вклад в методы глубокого RL той эпохи, в частности TRPO и GAE, которые были разработаны на стыке его лаборатории в Беркли и ранней среды OpenAI.
TRPO и GAE (2015)
Trust Region Policy Optimization (TRPO), в соавторстве с Джоном Шульманом, Сергеем Левиным, Филиппом Моритцем и Майклом Джорданом, представил теоретически обоснованное ограничение на шаги обновления градиента политики, которое позволило стабильно обучать глубокие RL-модели в больших масштабах — это дало первые демонстрации трехмерной локомоции в симулированной физике. Generalized Advantage Estimation (GAE), также являющийся результатом этого сотрудничества, предоставил единую основу для снижения дисперсии. Обе статьи стали основополагающими для эпохи глубокого RL.
MAML (2017)
Model-Agnostic Meta-Learning (Finn, Abbeel, Levine; ICML 2017) представил градиентный алгоритм мета-обучения, обеспечивающий быструю адаптацию с малым количеством примеров; одна из самых цитируемых статей по ML за десятилетие.
Domain Randomization, SAC, Hindsight Experience Replay, Decision Transformer
Дальнейшие вклады в глубокий RL от группы Аббила: Domain Randomization (обучение на разнообразных рандомизированных симуляциях для переноса из симуляции в реальность), Soft Actor-Critic (сейчас один из самых популярных алгоритмов RL для непрерывного управления), Hindsight Experience Replay (обеспечение RL в условиях разреженного вознаграждения и целеориентированных задач) и Decision Transformer (представление RL как задачи моделирования последовательностей с помощью трансформера).
Глубокое обучение без учителя (CS294-158)
Аббил разработал и преподает курс Deep Unsupervised Learning в Беркли — аспирантский курс, охватывающий генеративные модели, включая VAE, нормализующие потоки, GAN, диффузионные модели и самоконтролируемое обучение. Видеозаписи лекций за несколько лет были опубликованы в открытом доступе и широко используются в качестве справочного материала.
Gradescope — Сооснователь (2014–2018)
В 2014 году Аббил стал сооснователем Gradescope вместе с инженерами, связанными с Беркли, Арджуном Сингхом, Сергеем Караевым и Ибрагимом Аваалом. Gradescope — это онлайн-платформа для оценивания, которая использует компьютерное зрение и ИИ для оптимизации проверки рукописных заданий и экзаменов; в настоящее время она используется более чем в 500 университетах США. Компания была приобретена Turnitin в 2018 году.
Covariant — Сооснователь (2017–2024)
В октябре 2017 года Аббил стал сооснователем Covariant (первоначально называлась Embodied Intelligence) вместе с тремя своими аспирантами: Питером Ченом, Рокки Дуаном и Тяньхао Чжаном. Миссией компании было создание универсального ИИ, который позволит роботам воспринимать объекты и манипулировать ими на складах и фабриках, используя глубокое обучение через подражание и с подкреплением. Covariant публично запустился в январе 2020 года и привлек около $147 миллионов в ходе нескольких раундов финансирования. Его флагманский продукт, RFM-1 (Robotics Foundation Model), применяет предварительное обучение фундаментальных моделей к задачам манипуляции роботов — позиционируя Covariant на пересечении крупномасштабного ИИ и физической автоматизации.
В августе 2024 года Amazon согласилась лицензировать фундаментальные модели робототехники Covariant и наняла основателей компании, включая Аббила, в более широкую организацию Amazon по ИИ. Последующий репортаж Washington Post описал эту сделку как превращение самого Covariant в «зомби-стартап» после приобретения его ключевых активов и команды.
Amazon — Amazon Scholar и роль в AGI/LLM (2024–настоящее время)
После приобретения Covariant Аббил присоединился к Amazon. В декабре 2025 года он был назначен руководителем проектов Amazon по крупным языковым моделям в рамках своего подразделения AGI, продолжая при этом работать над робототехникой — это отражает интеграцию Amazon возможностей фундаментальных моделей со своими физическими логистическими и автоматизированными системами. Он сохраняет свою профессорскую принадлежность к Беркли в статусе Amazon Scholar.
AIX Ventures — Инвестиционный партнер (2021)
Аббил присоединился к AIX Ventures в качестве инвестиционного партнера в 2021 году — это тот же ориентированный на ИИ венчурный фонд, где партнерами также являются Перси Лян и Ричард Сочер.
Подкаст The Robot Brains
Аббил ведет The Robot Brains, еженедельный подкаст, в котором берут интервью у исследователей и практиков в области ИИ и робототехники. Подкаст стал одной из основных публичных площадок для длительных дискуссий об обучении роботов и его передовых рубежах.
Ключевые вклады
-
Apprenticeship Learning via Inverse Reinforcement Learning (ICML 2004, с Эндрю Ыном) — Предложена структура вывода функции вознаграждения на основе демонстраций эксперта и ее использования для обучения агентов, что позволило выполнять вертолетом фигуры высшего пилотажа на уровне эксперта-человека; основополагающая работа для всей области обучения через подражание.
-
Складывание белья и манипуляции с тканью — Демонстрация лабораторией в Беркли того, что роботы могут воспринимать деформируемые объекты и манипулировать ими, используя комбинацию новых методов визуализации, физики и обучения; веха в исследованиях роботизированных манипуляций и громкое подтверждение концепции обучения манипуляциям.
-
TRPO (Trust Region Policy Optimization) (ICML 2015, с Шульманом, Левиным, Моритцем, Джорданом) — Обоснованное обновление градиента политики с ограничением доверительной области; обеспечило стабильное глубокое RL в больших масштабах и дало первые результаты трехмерной локомоции; см. также статью о Джоне Шульмане.
-
MAML (Model-Agnostic Meta-Learning) (ICML 2017, с Финн и Левиным) — Градиентный алгоритм мета-обучения, обеспечивающий быструю адаптацию с малым количеством примеров; одна из самых цитируемых статей по ML за десятилетие.
-
Soft Actor-Critic (SAC) — Один из наиболее широко используемых алгоритмов глубокого RL для непрерывного управления; сочетает обучение не по стратегии с RL максимальной энтропии для эффективности выборки и стабильности.
-
Domain Randomization — Структура, показывающая, что обучение в разнообразных рандомизированных условиях симуляции позволяет политикам обобщаться на реальный мир без явной инженерии переноса симуляция-реальность; теперь стандартная практика в роботизированном RL.
-
Hindsight Experience Replay (HER) — Обеспечивает RL в условиях разреженного вознаграждения и целеориентированных задач путем перемаркировки неудачных траекторий теми целями, которые были достигнуты; практически позволило обучать манипуляциям в реалистичных целеориентированных условиях.
-
Decision Transformer — Представил обучение с подкреплением как задачу моделирования последовательностей с использованием трансформера, обеспечив возможность автономного RL через обусловливание возвратом к достигнутому; оказал влияние на сближение сообществ исследователей RL и фундаментальных моделей.
-
Диффузионные модели (через студентов/сотрудников) — Группа Аббила внесла вклад в разработку диффузионных моделей для робототехники и генеративного ИИ.
-
RFM-1 (Robotics Foundation Model) — Модель Covariant, применяющая крупномасштабное предварительное обучение к манипуляциям промышленных роботов с разнообразными объектами и в различных условиях.
-
Gradescope — Платформа оценивания на основе ИИ, сейчас используется более чем в 500 университетах; демонстрирует постоянную ориентацию Аббила на создание полезных систем, выходящих за рамки чисто исследовательских.
-
Курс «Глубокое обучение без учителя» (CS294-158) — Публично выпущенный цикл лекций, охватывающий генеративные модели, ставший стандартным ресурсом для аспирантского образования в области ML.
Награды и признание
- ACM Prize in Computing (2021) — Присуждена за вклад в обучение роботов, включая обучение через подражание и глубокое обучение с подкреплением для управления роботами; сопровождается денежным призом в размере $250 000.
- Presidential Early Career Award for Scientists and Engineers (PECASE)
- NSF CAREER Award
- Office of Naval Research Young Investigator Program (ONR-YIP)
- DARPA Young Faculty Award (DARPA-YFA)
- MIT Technology Review 35 Under 35 (TR35)
- IEEE Fellow
- ACM Fellow (необходимо подтверждение)
Академическая «родословная»
Послужной список Аббила по руководству аспирантами является одним из самых влиятельных в истории ИИ по показателю основания компаний:
- Джон Шульман — PhD; сооснователь OpenAI; разработал TRPO и PPO; ранее работал в Anthropic; сейчас в Thinking Machines Lab.
- Челси Финн — PhD; разработала MAML; сооснователь Physical Intelligence; сейчас доцент в Стэнфорде.
- Аравинд Сринивас — PhD; сооснователь Perplexity AI, поисковой системы на основе ИИ.
- Сергей Левин — PhD (совместное руководство); сооснователь Physical Intelligence; сейчас доцент в Калифорнийском университете в Беркли.
- Питер Чен, Рокки Дуан, Тяньхао Чжан — аспиранты, ставшие сооснователями Covariant вместе с Аббилом.
- Дипак Патхак — Сооснователь Skild.
- Джонатан Хо — Сооснователь Ideogram; ключевой участник исследований диффузионных моделей.
- Аджай Джайн — Сооснователь Genmo.
- Миша Ласкин — Основатель Reflection AI.
- Рошан Рао — Сооснователь Evolutionary Scale (языковые модели белков).
Ключевые взаимоотношения
- Эндрю Ын — Научный руководитель (PhD) в Стэнфорде; Аббил был первым докторантом Ына, когда тот был профессором-первогодкой; разработанная ими совместно структура обучения через подражание стала ранним фирменным вкладом Аббила.
- Джон Шульман — Аспирант и самый давний исследовательский соавтор; их совместная работа над TRPO и GAE является одной из самых цитируемых в глубоком RL; последующее основание Шульманом OpenAI вместе с сетями Аббила завершило цикл «учитель-ученик» необычного масштаба.
- Челси Финн — Аспирантка; MAML является совместной работой трех авторов — Финн, Аббила и Левина; последующая карьера Финн в Стэнфорде и Physical Intelligence отражает исследовательскую программу, разработанную лабораторией Аббила.
- Сергей Левин — Выпускник (PhD) и ныне коллега в Беркли; команда основателей Physical Intelligence (Финн и Левин) напрямую происходит из академической «семьи» Аббила; их продолжающиеся отношения совместного руководства в Беркли продолжают сотрудничество.
- Майкл И. Джордан — Старший коллега в Беркли и соавтор по TRPO; влияние Джордана на математические основы RL-работ Аббила связывает два поколения ML в Беркли.
- Перси Лян — Соинвестор AIX Ventures; их общая позиция в сообществе ИИ Беркли/Стэнфорда и AIX Ventures отражает плотную институциональную сеть вокруг исследований ИИ в Заливе.
Личный стиль
Исследовательская программа Аббила характеризуется последовательным стремлением сделать роботов по-настоящему полезными в физическом мире, а не впечатляющими в контролируемых лабораторных демонстрациях. Вехи его группы — высший пилотаж вертолета, складывание белья, хирургическое наложение швов, складские манипуляции — были сознательно выбраны из-за сочетания общественной узнаваемости и технической сложности; они демонстрировали, что методы на основе обучения могут справляться с запутанной, деформируемой, частично наблюдаемой реальностью физических задач, а не только с чистыми, жесткими, четко определенными задачами. Его институциональные вложения — BAIR, Covariant, Gradescope, курс Deep Unsupervised Learning, подкаст The Robot Brains — отражают параллельную приверженность инфраструктуре и доступу: созданию платформ, посредством которых проводятся исследования и через которые более широкое сообщество взаимодействует с ними. Его атмосфера в X/Twitter (35,8% «информирование», 21,5% «анонсирование», 10% «обучение») и доминирующая тема продвижения подкаста Robot Brains предполагают коммуникатора, который видит себя не столько первичным исследователем, сколько строителем экосистемы.