Питер Аббил (Pieter Abbeel)

Профессор EECS в Калифорнийском университете в Беркли, сооснователь Covariant и Gradescope, лауреат премии ACM Prize in Computing 2021 года и один из самых влиятельных научных руководителей в современном ИИ — его студенты стали сооснователями OpenAI, Physical Intelligence, Perplexity и десятка других компаний.


Профиль

Поле Детали
Дата рождения 1977, Антверпен, Бельгия
Гражданство Бельгиец-американец
Текущие должности Профессор, EECS, UC Berkeley; Amazon Scholar (AGI / LLM); Содиректор, BAIR
Области исследований Роботизированное обучение, глубокое обучение с подкреплением, обучение через подражание, модели-основы для робототехники
Научный руководитель (PhD) Эндрю Ын (Стэнфорд)
Докторская диссертация Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control (Стэнфорд, 2008)
Академический сайт people.eecs.berkeley.edu/~pabbeel
X / Twitter @pabbeel
GitHub @pabbeel
Google Scholar scholar.google.com

Обзор

Питер Аббил (Pieter Abbeel) — бельгийско-американский профессор электротехники и компьютерных наук в Калифорнийском университете в Беркли, содиректор лаборатории Berkeley Artificial Intelligence Research (BAIR) и одна из самых влиятельных фигур в области обучения роботов за последние два десятилетия. В 2021 году он получил премию ACM Prize in Computing — одну из самых престижных наград в этой области для исследователей на раннем и среднем этапе карьеры — за новаторские работы в области обучения через подражание и глубокого обучения с подкреплением для управления роботами. Его методологический вклад охватывает как классическую, так и эпоху глубокого обучения в RL: от обучения через подражание с помощью обратного обучения с подкреплением (2004) до TRPO (2015), MAML (2017), Soft Actor-Critic, Domain Randomization и Hindsight Experience Replay. Он стал сооснователем Gradescope (приобретена Turnitin в 2018 г.) и Covariant, компании по созданию фундаментальных моделей для робототехники, чьи технологии были приобретены Amazon в 2024 г.; в декабре 2025 года он был назначен руководителем проектов Amazon по большим языковым моделям в рамках своего подразделения AGI. Самым долгосрочным институциональным вкладом, вероятно, является его студенческая «родословная»: выпускники его лаборатории стали сооснователями OpenAI, Physical Intelligence, Perplexity, Skild, Ideogram, Genmo и более десятка других компаний в сфере ИИ.


Ранние годы и образование

Аббил родился в Антверпене в 1977 году и вырос в близлежащем пригороде Брассхат. Будучи учеником средней школы Sint-Michielscollege, он играл в клубной баскетбольной команде — этим видом спорта он продолжал заниматься и на университетском уровне. Он упоминал, что раннее осознание того, что ИИ может стать универсальным инструментом в разных дисциплинах, и что именно интеллект отличает человека от других биологических видов, послужило мотивацией для входа в эту область.

Бакалавр и магистр, электротехника — KU Leuven, Бельгия, 2000
Аббил получил обе степени в KU Leuven, одном из ведущих исследовательских университетов Бельгии, на протяжении всего времени играя в университетской баскетбольной команде.

PhD, информатика — Стэнфордский университет, 2008
Аббил был первым докторантом Эндрю Ына, который сам был профессором-первогодкой в Стэнфорде, когда к нему пришел Аббил. Его диссертация, Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control, заложила теоретические и эмпирические основы обучения с помощью демонстрации — в частности, структуру вывода функций вознаграждения на основе поведения эксперта с помощью обратного обучения с подкреплением. Диссертация продемонстрировала, что вертолет можно обучить выполнять фигуры высшего пилотажа на уровне опытных пилотов-людей, просто наблюдая за их полетом, а не программируя вручную необходимые правила управления. Первоначально он намеревался получить только степень магистра, но остался на докторскую программу из-за концентрации проектов по ИИ в Стэнфорде под руководством Ына.


Карьера

Калифорнийский университет в Беркли — профессор (2008–настоящее время)

Аббил присоединился к Беркли в качестве доцента на кафедре EECS в 2008 году, сразу после прибытия основал Berkeley Robot Learning Lab, а в 2017 году получил звание полного профессора с пожизненным контрактом. В 2016 году он стал содиректором BAIR.

Обучение через подражание и роботизированные манипуляции (2008–2015)
Группа Аббила в Беркли расширила результаты по обучению вертолетов через подражание на широкий спектр задач манипуляции. Наибольшую известность получила работа со складыванием ткани и белья — было продемонстрировано, что роботы могут воспринимать и манипулировать деформируемыми объектами, комбинируя новые методы визуального восприятия, отслеживания на основе физики и обучения с помощью демонстрации. Робот для складывания белья стал культовым образом в научно-популярном освещении обучения роботов, широко цитировался в прессе, включая BBC, New York Times и Rolling Stone. Другие ранние результаты лаборатории в Беркли включали хирургическое наложение швов и завязывание узлов.

OpenAI — Параллельная исследовательская роль (2016)
В период, частично совпадающий с его должностью профессора в Беркли, Аббил был сотрудником OpenAI и был соавтором исследований по обучению с подкреплением и управлению с Джоном Шульманом и другими исследователями OpenAI. Его группа внесла вклад в методы глубокого RL той эпохи, в частности TRPO и GAE, которые были разработаны на стыке его лаборатории в Беркли и ранней среды OpenAI.

TRPO и GAE (2015)
Trust Region Policy Optimization (TRPO), в соавторстве с Джоном Шульманом, Сергеем Левиным, Филиппом Моритцем и Майклом Джорданом, представил теоретически обоснованное ограничение на шаги обновления градиента политики, которое позволило стабильно обучать глубокие RL-модели в больших масштабах — это дало первые демонстрации трехмерной локомоции в симулированной физике. Generalized Advantage Estimation (GAE), также являющийся результатом этого сотрудничества, предоставил единую основу для снижения дисперсии. Обе статьи стали основополагающими для эпохи глубокого RL.

MAML (2017)
Model-Agnostic Meta-Learning (Finn, Abbeel, Levine; ICML 2017) представил градиентный алгоритм мета-обучения, обеспечивающий быструю адаптацию с малым количеством примеров; одна из самых цитируемых статей по ML за десятилетие.

Domain Randomization, SAC, Hindsight Experience Replay, Decision Transformer
Дальнейшие вклады в глубокий RL от группы Аббила: Domain Randomization (обучение на разнообразных рандомизированных симуляциях для переноса из симуляции в реальность), Soft Actor-Critic (сейчас один из самых популярных алгоритмов RL для непрерывного управления), Hindsight Experience Replay (обеспечение RL в условиях разреженного вознаграждения и целеориентированных задач) и Decision Transformer (представление RL как задачи моделирования последовательностей с помощью трансформера).

Глубокое обучение без учителя (CS294-158)
Аббил разработал и преподает курс Deep Unsupervised Learning в Беркли — аспирантский курс, охватывающий генеративные модели, включая VAE, нормализующие потоки, GAN, диффузионные модели и самоконтролируемое обучение. Видеозаписи лекций за несколько лет были опубликованы в открытом доступе и широко используются в качестве справочного материала.

Gradescope — Сооснователь (2014–2018)

В 2014 году Аббил стал сооснователем Gradescope вместе с инженерами, связанными с Беркли, Арджуном Сингхом, Сергеем Караевым и Ибрагимом Аваалом. Gradescope — это онлайн-платформа для оценивания, которая использует компьютерное зрение и ИИ для оптимизации проверки рукописных заданий и экзаменов; в настоящее время она используется более чем в 500 университетах США. Компания была приобретена Turnitin в 2018 году.

Covariant — Сооснователь (2017–2024)

В октябре 2017 года Аббил стал сооснователем Covariant (первоначально называлась Embodied Intelligence) вместе с тремя своими аспирантами: Питером Ченом, Рокки Дуаном и Тяньхао Чжаном. Миссией компании было создание универсального ИИ, который позволит роботам воспринимать объекты и манипулировать ими на складах и фабриках, используя глубокое обучение через подражание и с подкреплением. Covariant публично запустился в январе 2020 года и привлек около $147 миллионов в ходе нескольких раундов финансирования. Его флагманский продукт, RFM-1 (Robotics Foundation Model), применяет предварительное обучение фундаментальных моделей к задачам манипуляции роботов — позиционируя Covariant на пересечении крупномасштабного ИИ и физической автоматизации.

В августе 2024 года Amazon согласилась лицензировать фундаментальные модели робототехники Covariant и наняла основателей компании, включая Аббила, в более широкую организацию Amazon по ИИ. Последующий репортаж Washington Post описал эту сделку как превращение самого Covariant в «зомби-стартап» после приобретения его ключевых активов и команды.

Amazon — Amazon Scholar и роль в AGI/LLM (2024–настоящее время)

После приобретения Covariant Аббил присоединился к Amazon. В декабре 2025 года он был назначен руководителем проектов Amazon по крупным языковым моделям в рамках своего подразделения AGI, продолжая при этом работать над робототехникой — это отражает интеграцию Amazon возможностей фундаментальных моделей со своими физическими логистическими и автоматизированными системами. Он сохраняет свою профессорскую принадлежность к Беркли в статусе Amazon Scholar.

AIX Ventures — Инвестиционный партнер (2021)

Аббил присоединился к AIX Ventures в качестве инвестиционного партнера в 2021 году — это тот же ориентированный на ИИ венчурный фонд, где партнерами также являются Перси Лян и Ричард Сочер.

Подкаст The Robot Brains

Аббил ведет The Robot Brains, еженедельный подкаст, в котором берут интервью у исследователей и практиков в области ИИ и робототехники. Подкаст стал одной из основных публичных площадок для длительных дискуссий об обучении роботов и его передовых рубежах.


Ключевые вклады

  • Apprenticeship Learning via Inverse Reinforcement Learning (ICML 2004, с Эндрю Ыном) — Предложена структура вывода функции вознаграждения на основе демонстраций эксперта и ее использования для обучения агентов, что позволило выполнять вертолетом фигуры высшего пилотажа на уровне эксперта-человека; основополагающая работа для всей области обучения через подражание.

  • Складывание белья и манипуляции с тканью — Демонстрация лабораторией в Беркли того, что роботы могут воспринимать деформируемые объекты и манипулировать ими, используя комбинацию новых методов визуализации, физики и обучения; веха в исследованиях роботизированных манипуляций и громкое подтверждение концепции обучения манипуляциям.

  • TRPO (Trust Region Policy Optimization) (ICML 2015, с Шульманом, Левиным, Моритцем, Джорданом) — Обоснованное обновление градиента политики с ограничением доверительной области; обеспечило стабильное глубокое RL в больших масштабах и дало первые результаты трехмерной локомоции; см. также статью о Джоне Шульмане.

  • MAML (Model-Agnostic Meta-Learning) (ICML 2017, с Финн и Левиным) — Градиентный алгоритм мета-обучения, обеспечивающий быструю адаптацию с малым количеством примеров; одна из самых цитируемых статей по ML за десятилетие.

  • Soft Actor-Critic (SAC) — Один из наиболее широко используемых алгоритмов глубокого RL для непрерывного управления; сочетает обучение не по стратегии с RL максимальной энтропии для эффективности выборки и стабильности.

  • Domain Randomization — Структура, показывающая, что обучение в разнообразных рандомизированных условиях симуляции позволяет политикам обобщаться на реальный мир без явной инженерии переноса симуляция-реальность; теперь стандартная практика в роботизированном RL.

  • Hindsight Experience Replay (HER) — Обеспечивает RL в условиях разреженного вознаграждения и целеориентированных задач путем перемаркировки неудачных траекторий теми целями, которые были достигнуты; практически позволило обучать манипуляциям в реалистичных целеориентированных условиях.

  • Decision Transformer — Представил обучение с подкреплением как задачу моделирования последовательностей с использованием трансформера, обеспечив возможность автономного RL через обусловливание возвратом к достигнутому; оказал влияние на сближение сообществ исследователей RL и фундаментальных моделей.

  • Диффузионные модели (через студентов/сотрудников) — Группа Аббила внесла вклад в разработку диффузионных моделей для робототехники и генеративного ИИ.

  • RFM-1 (Robotics Foundation Model) — Модель Covariant, применяющая крупномасштабное предварительное обучение к манипуляциям промышленных роботов с разнообразными объектами и в различных условиях.

  • Gradescope — Платформа оценивания на основе ИИ, сейчас используется более чем в 500 университетах; демонстрирует постоянную ориентацию Аббила на создание полезных систем, выходящих за рамки чисто исследовательских.

  • Курс «Глубокое обучение без учителя» (CS294-158) — Публично выпущенный цикл лекций, охватывающий генеративные модели, ставший стандартным ресурсом для аспирантского образования в области ML.


Награды и признание

  • ACM Prize in Computing (2021) — Присуждена за вклад в обучение роботов, включая обучение через подражание и глубокое обучение с подкреплением для управления роботами; сопровождается денежным призом в размере $250 000.
  • Presidential Early Career Award for Scientists and Engineers (PECASE)
  • NSF CAREER Award
  • Office of Naval Research Young Investigator Program (ONR-YIP)
  • DARPA Young Faculty Award (DARPA-YFA)
  • MIT Technology Review 35 Under 35 (TR35)
  • IEEE Fellow
  • ACM Fellow (необходимо подтверждение)

Академическая «родословная»

Послужной список Аббила по руководству аспирантами является одним из самых влиятельных в истории ИИ по показателю основания компаний:

  • Джон Шульман — PhD; сооснователь OpenAI; разработал TRPO и PPO; ранее работал в Anthropic; сейчас в Thinking Machines Lab.
  • Челси Финн — PhD; разработала MAML; сооснователь Physical Intelligence; сейчас доцент в Стэнфорде.
  • Аравинд Сринивас — PhD; сооснователь Perplexity AI, поисковой системы на основе ИИ.
  • Сергей Левин — PhD (совместное руководство); сооснователь Physical Intelligence; сейчас доцент в Калифорнийском университете в Беркли.
  • Питер Чен, Рокки Дуан, Тяньхао Чжан — аспиранты, ставшие сооснователями Covariant вместе с Аббилом.
  • Дипак Патхак — Сооснователь Skild.
  • Джонатан Хо — Сооснователь Ideogram; ключевой участник исследований диффузионных моделей.
  • Аджай Джайн — Сооснователь Genmo.
  • Миша Ласкин — Основатель Reflection AI.
  • Рошан Рао — Сооснователь Evolutionary Scale (языковые модели белков).

Ключевые взаимоотношения

  • Эндрю Ын — Научный руководитель (PhD) в Стэнфорде; Аббил был первым докторантом Ына, когда тот был профессором-первогодкой; разработанная ими совместно структура обучения через подражание стала ранним фирменным вкладом Аббила.
  • Джон Шульман — Аспирант и самый давний исследовательский соавтор; их совместная работа над TRPO и GAE является одной из самых цитируемых в глубоком RL; последующее основание Шульманом OpenAI вместе с сетями Аббила завершило цикл «учитель-ученик» необычного масштаба.
  • Челси Финн — Аспирантка; MAML является совместной работой трех авторов — Финн, Аббила и Левина; последующая карьера Финн в Стэнфорде и Physical Intelligence отражает исследовательскую программу, разработанную лабораторией Аббила.
  • Сергей Левин — Выпускник (PhD) и ныне коллега в Беркли; команда основателей Physical Intelligence (Финн и Левин) напрямую происходит из академической «семьи» Аббила; их продолжающиеся отношения совместного руководства в Беркли продолжают сотрудничество.
  • Майкл И. Джордан — Старший коллега в Беркли и соавтор по TRPO; влияние Джордана на математические основы RL-работ Аббила связывает два поколения ML в Беркли.
  • Перси Лян — Соинвестор AIX Ventures; их общая позиция в сообществе ИИ Беркли/Стэнфорда и AIX Ventures отражает плотную институциональную сеть вокруг исследований ИИ в Заливе.

Личный стиль

Исследовательская программа Аббила характеризуется последовательным стремлением сделать роботов по-настоящему полезными в физическом мире, а не впечатляющими в контролируемых лабораторных демонстрациях. Вехи его группы — высший пилотаж вертолета, складывание белья, хирургическое наложение швов, складские манипуляции — были сознательно выбраны из-за сочетания общественной узнаваемости и технической сложности; они демонстрировали, что методы на основе обучения могут справляться с запутанной, деформируемой, частично наблюдаемой реальностью физических задач, а не только с чистыми, жесткими, четко определенными задачами. Его институциональные вложения — BAIR, Covariant, Gradescope, курс Deep Unsupervised Learning, подкаст The Robot Brains — отражают параллельную приверженность инфраструктуре и доступу: созданию платформ, посредством которых проводятся исследования и через которые более широкое сообщество взаимодействует с ними. Его атмосфера в X/Twitter (35,8% «информирование», 21,5% «анонсирование», 10% «обучение») и доминирующая тема продвижения подкаста Robot Brains предполагают коммуникатора, который видит себя не столько первичным исследователем, сколько строителем экосистемы.


Ссылки