David Duvenaud

Канадский вероятностник и исследователь глубокого обучения в Университете Торонто, чья работа Neural ODE установила сети непрерывной глубины как новый класс, а чья библиотека Autograd заложила основу для экосистемы автоматического дифференцирования, которая позже породила JAX — и который с тех пор переключился на управление AGI, оценку саботажа и системный риск постепенного лишения человечества власти.


Профиль

Гражданство Канада
Текущее место работы Университет Торонто — адъюнкт-профессор, CS и статистика; кафедра Шварца Райсмана по технологиям и обществу; Институт Вектора (один из основателей)
Области исследований Управление AGI, безопасность ИИ, оценка катастрофических рисков, глубокие вероятностные модели, Neural ODEs, генеративные модели, автоматическое дифференцирование
Научный руководитель Карл Расмуссен; Зубин Гахрамани
Докторская диссертация Автоматическое построение моделей с помощью гауссовских процессов (Кембриджский университет, 2014)
Сайт cs.toronto.edu/~duvenaud
X / Twitter @DavidDuvenaud
GitHub duvenaud
Google Scholar David Duvenaud

Обзор

Дэвид Дювено — канадский исследователь машинного обучения и адъюнкт-профессор Университета Торонто, где он занимает кафедру Шварца Райсмана по технологиям и обществу и является одним из основателей Института Вектора. Он получил степень PhD в Кембридже под руководством Карла Расмуссена и Зубина Гахрамани, прошел постдокторантуру в Гарварде с Райаном Адамсом и работает в Торонто с 2016 года. Его карьера имеет ярко выраженную трехфазную траекторию: от теории гауссовских процессов и вероятностного моделирования в Кембридже; к нейронным сетям непрерывной глубины, автоматическому дифференцированию и глубоким генеративным моделям в Торонто (кульминацией стала премия за лучшую статью NeurIPS 2018 за Neural ODEs и основополагающий вклад в Autograd, предшественника JAX); к почти полному развороту, после продолжительного творческого отпуска в команде Alignment Science в Anthropic, в сторону управления AGI, оценки граничных моделей и структурного риска того, что постепенное внедрение ИИ может постепенно лишить человечество власти. Он продолжает руководить аспирантами и преподавать в Торонто, в настоящее время сосредоточившись исключительно на программе согласования и безопасности, которую он начал в Anthropic.


Ранние годы и образование

Университет Британской Колумбии — магистр наук (2010)

Дювено получил степень магистра наук в UBC под руководством Кевина Мерфи, работая над многомасштабными условными случайными полями для полуконтролируемой маркировки изображений. Его магистерская диссертация заложила интерес к вероятностным графическим моделям и структуре скрытых переменных.

Кембриджский университет — PhD (2010–2014)

В Группе машинного обучения Кембриджа Дювено работал с Карлом Расмуссеном и Зубином Гахрамани — двумя ключевыми фигурами в исследованиях гауссовских процессов — над проблемой автоматического построения моделей. Его диссертация Автоматическое построение моделей с помощью гауссовских процессов представила грамматику для ядер GP, которую программа могла искать для выявления статистически подходящей структуры в наборе данных, создавая читаемые человеком отчеты, описывающие подогнанную модель. Этот проект был прототипом исследовательской программы Automatic Statistician. Его ключевые компоненты — статья о композиционном поиске ядер (ICML 2013), автоматическое описание непараметрической регрессии на естественном языке (AAAI 2014) и работы по аддитивным GP и глубоким GP — остаются широко цитируемыми. Во время PhD он был соорганизатором серии семинаров Probabilistic Numerics, связывая численный анализ с байесовским выводом.

Гарвардская группа HIPS — постдок (2014–2016)

После Кембриджа Дювено присоединился к Гарвардской группе интеллектуальных вероятностных систем (HIPS) в качестве постдока с Райаном Адамсом. Этот период принес несколько значимых результатов. Первым был Autograd — разработанный в основном Дугласом МакЛорином совместно с Дювено и Мэттью Джонсоном — библиотека для автоматического дифференцирования в обратном режиме для нативного Python и NumPy, поддерживающая циклы, условия, замыкания и производные высших порядков. Autograd был прямым предшественником JAX, основной исследовательской инфраструктуры Google в области ML, и ввел философию дифференцирования произвольного кода Python, которая теперь пронизывает программное обеспечение для ML. Вторым крупным вкладом Гарварда была статья о свертке молекулярных отпечатков на графах (NeurIPS 2015, с Дювено в качестве первого автора вместе с МакЛорином, Гомес-Бомбарелли, Адамсом и Аспуру-Гузиком), которая представила первый сквозной обучаемый сверточный экстрактор признаков, работающий непосредственно на молекулярных графах — одна из основополагающих работ по графовым нейронным сетям для химии. Третьим была градиентная оптимизация гиперпараметров через обратимое обучение (ICML 2015, с МакЛорином и Адамсом), позволяющая вычислять точный градиент ошибки валидации по отношению к тысячам гиперпараметров путем дифференцирования всей процедуры обучения.


Карьера

Университет Торонто — адъюнкт-профессор (2016–настоящее время)

Дювено присоединился к Факультету компьютерных наук Торонто в 2016 году и имеет совместное назначение на Факультет статистических наук. Он является одним из основателей Института Вектора по искусственному интеллекту и занимает кафедру Шварца Райсмана по технологиям и обществу. Он получил исследовательскую стипендию Sloan. Его работа в Торонто делится на две четкие исследовательские программы.

Глубокие вероятностные модели и сети непрерывной глубины (2016–2021). Основным результатом раннего периода Дювено в Торонто была серия статей, развивающих пересечение дифференциальных уравнений и глубокого обучения. Центральным результатом стали Neural Ordinary Differential Equations (NeurIPS 2018, премия за лучшую статью), соавторами которой выступили Рики Тянь Ци Чэнь, Юлия Рубанова и Джесси Беттенкорт. В статье предлагалось параметризовать производную скрытого состояния сети с помощью нейронной сети, вместо того чтобы задавать дискретные послойные преобразования. Выход вычисляется с помощью решателя ОДУ «черного ящика», что дает модель непрерывной глубины с постоянными затратами памяти во время обучения (через сопряженный метод), адаптивным вычислением и элегантной математической структурой для генеративного моделирования через непрерывные нормализующие потоки. Статья была немедленно признана открывающей новое направление исследований; torchdiffeq (связанная программная библиотека Рики Чэня) стала широко использоваться в биологии, физике и ML. Расширения, разработанные группой, включали скрытые ODE для нерегулярно дискретизированных временных рядов (NeurIPS 2019), масштабируемые градиенты стохастических дифференциальных уравнений (AISTATS 2020), бесконечно глубокие байесовские нейронные сети с SDE (AISTATS 2022) и дифференцируемый суррогат стоимости решателя ODE (NeurIPS 2020).

Наряду с работой над ODE, группа Дювено внесла вклад в нормализующие потоки (FFJORD, ICLR 2019 Oral; Residual Flows, NeurIPS 2019; Invertible ResNets, ICML 2019), модели на основе энергии (JEM, ICLR 2020), градиентную оптимизацию гиперпараметров в большом масштабе (AISTATS 2020, с Лоррейн и Викол), дискретную выборку с градиентами („Oops I Took a Gradient,“ ICLR 2021, почетное упоминание выдающейся статьи) и автоматический дизайн химических соединений (ACS Central Science 2018, с Гомес-Бомбарелли и Аспуру-Гузиком). Он также был соразработчиком Dex, функционального языка программирования для безопасной обработки массивов с автоматической параллелизацией (ICFP 2021, премия за выдающуюся статью, с Адамом Пашке и коллегами из Google Brain).

Согласование AGI, безопасность и управление (2022–настоящее время). Примерно в 2022 году Дювено почти полностью переключил фокус своей группы на безопасность и управление ИИ. Он прошел продолжительный творческий отпуск в команде Alignment Science в Anthropic, во время которого стал соавтором серии технических статей и эссе, связанных с безопасностью. Его работа в области безопасности охватывает эмпирическую оценку возможностей и рисков граничных моделей, теоретические основы постепенного лишения человечества власти при помощи ИИ и эмпирическое изучение того, как развернутые системы ИИ влияют на автономию пользователей.

Дювено стал соавтором статьи „Sabotage Evaluations for Frontier Models“ (Anthropic, 2024), в которой были разработаны протоколы оценки для выявления того, могут ли способные модели скрыто подрывать процессы надзора в компании-разработчике граничного ИИ — были созданы протоколы для оценки скрытой помощи ИИ тем, кто обходит мониторинг, и тем, кто подрывает принятие решений. Он был соавтором статьи „Many-Shot Jailbreaking“ (NeurIPS 2024), демонстрирующей, что подсказки моделям сотнями примеров нежелательного поведения масштабируются как степенной закон вплоть до сотен примеров, выявляя атаки с длинным контекстом как новую поверхность атаки. Он руководил или был со-руководителем исследований сикофантства („Towards Understanding Sycophancy in Language Models,“ ICLR 2024), количественной оценки эпистемической неопределенности („Experts Don’t Cheat,“ ICML 2024) и верификации данных обучения („Tools for Verifying Neural Models‘ Training Data,“ NeurIPS 2023).

Его более широкий вклад в управление включает работу „Gradual Disempowerment: Systemic Existential Risks from Incremental AI Development“ (2025, с Яном Кюльвейтом, Рэймондом Дугласом и коллегами) — технический отчет, утверждающий, что даже без резких скачков способностей конкурентное замещение людей в экономических, творческих и социальных ролях представляет собой структурный путь к постоянному лишению человечества власти, и предлагающий рассматривать это как отдельную и недооцененную категорию риска. В 2025 году он опубликовал эссе в The Guardian, адресованное широкой аудитории с этим аргументом, и связанная статья появилась в The Economist. Эмпирическая статья 2026 года „Who‘s in Charge? Disempowerment Patterns in Real-World LLM Usage“ проанализировала 1,5 миллиона разговоров на Claude.ai для количественной оценки моделей лишения власти, обнаружив, что вызывающее беспокойство поведение (укрепление теорий заговора, составление сообщений для отношений, отправляемых дословно) коррелирует с более высокой удовлетворенностью пользователей — выявляя противоречие между предпочтениями пользователя и долгосрочным благополучием. Другая статья 2026 года „The Artificial Self“ эмпирически исследовала границы идентичности ИИ и их поведенческие последствия. В Торонто он возобновил руководство студентами, сосредоточенными на темах, связанных с безопасностью: среди текущих студентов — Джесси Беттенкорт и Рэймонд Дуглас (последний сосредоточен на управлении ИИ).


Ключевые вклады

  • Autograd (2015) — Создан совместно с Дугласом МакЛорином и Мэттью Джонсоном. Библиотека автоматического дифференцирования для нативного Python и NumPy, поддерживающая производные высших порядков, произвольный поток управления и замыкания — прямой архитектурный предшественник JAX (основной исследовательской инфраструктуры Google в области ML). Установил парадигму трактовки программ ML как дифференцируемых функций над Python, а не графов вычислений над примитивами.

  • Молекулярные отпечатки через свертку на графах (NeurIPS 2015) — Первая авторская работа, основополагающая статья по графовым нейронным сетям для предсказания свойств молекул, заменившая созданные вручную циклические отпечатки на сквозные обучаемые признаки, работающие на структуре молекулярного графа. Установила GNN для химии и привела к связанной статье в Nature Materials и более широкой области молекулярного ML.

  • Градиентная оптимизация гиперпараметров (ICML 2015) — С МакЛорином и Адамсом. Позволила вычислять точный градиент ошибки валидации по отношению к тысячам гиперпараметров путем дифференцирования всей процедуры обучения, демонстрируя оптимизацию размеров шага, инициализаций весов и схем регуляризации — ранняя демонстрация мета-обучения через дифференцируемое обучение.

  • Neural Ordinary Differential Equations (премия за лучшую статью NeurIPS 2018) — С Рики Тянь Ци Чэнем, Юлией Рубановой и Джесси Беттенкортом. Представили нейронные сети непрерывной глубины, определяемые динамикой скрытого состояния, параметризованной ODE, обучаемые с постоянной памятью через сопряженный метод, с приложениями в непрерывных нормализующих потоках, скрытых моделях временных рядов и обратимых генеративных моделях. Одна из самых влиятельных статей по ML 2018 года и основа для большого объема последующей литературы.

  • FFJORD: Free-Form Continuous Dynamics for Scalable Reversible Generative Models (ICLR 2019 Oral) — С Уиллом Гратволом, Рики Чэнем, Джесси Беттенкортом и Ильей Суцкевером. Расширили Neural ODEs для генеративного моделирования с несмещенной оценкой плотности через оценщик следа Хатчинсона, сняв архитектурные ограничения предыдущих моделей нормализующих потоков.

  • Оценка саботажа для граничных моделей (Anthropic, 2024) — Разработали первый набор тестов для проверки того, могут ли граничные модели скрыто подрывать человеческий надзор за разработкой ИИ, включая протоколы для уклонения от мониторинга с помощью модели, саботажа решений и сокрытия возможностей — вклад в Политику ответственного масштабирования Anthropic.

  • Постепенное лишение власти (2025) — С Яном Кюльвейтом, Рэймондом Дугласом и другими. Техническая и концептуальная основа, утверждающая, что постепенное развитие способностей ИИ — без какого-либо единого драматического события — представляет структурный риск постоянного лишения человечества власти через конкурентное замещение в экономических, творческих и социальных ролях, независимо от того, есть ли у систем ИИ несогласованные цели.

  • Язык Dex (ICFP 2021, выдающаяся статья) — Соавтор с Адамом Пашке, Дэниелом Д. Джонсоном и коллегами. Функциональный язык программирования массивов, поддерживающий безопасный неявный параллелизм и детализированные типизированные эффекты, прототипирующий концепции, включенные в исследовательский проект JAX Dex.


Награды и признание

  • Премия за лучшую статью NeurIPS 2018 — За Neural Ordinary Differential Equations.
  • Исследовательская стипендия Sloan — Стипендия Фонда Альфреда П. Слоана для молодых исследователей.
  • Кафедра Шварца Райсмана по технологиям и обществу — Именная профессура в Университете Торонто.
  • Премия за выдающуюся статью ICFP 2021 — За статью о языке программирования массивов Dex.
  • Почетное упоминание выдающейся статьи ICLR 2021 — За „Oops I Took a Gradient: Scalable Sampling for Discrete Distributions.“
  • Один из основателей Института Вектора — В составе команды основателей национального исследовательского института ИИ Канады.

Ключевые связи

  • Карл Расмуссен — Научный руководитель PhD в Кембридже; теоретик гауссовских процессов и соавтор канонического учебника по GP; сформировал фундаментальную вероятностную ориентацию Дювено.
  • Зубин Гахрамани — Со-руководитель PhD в Кембридже; пионер байесовского ML и директор Кембриджской MLG; работа по грамматике ядер и Automatic Statistician находится прямо в интеллектуальной традиции Гахрамани.
  • Райан П. Адамс — Научный руководитель постдока в Гарварде; группа HIPS была непосредственной средой для Autograd, графовых отпечатков и гиперградиентов; Адамс и Дювено разделяют подход к разработке исследовательских инструментов как формы вклада.
  • Дуглас МакЛорин — Главный архитектор Autograd и самый близкий исследовательский сотрудник гарвардского периода; сейчас возглавляет команду JAX в Google; линия Autograd проходит через них обоих.
  • Рики Тянь Ци Чэнь — Самый продуктивный аспирант в группе Дювено в Торонто; первый автор Neural ODEs, FFJORD, Residual Flows и связанных работ; сейчас научный сотрудник в Meta FAIR.
  • Роджер Гросс — Коллега по CS в Университете Торонто и Институту Вектора; сотрудник по байесовскому глубокому обучению, разделению и методам информации Фишера.
  • Крис Мэддисон — Коллега по Университету Торонто и близкий сотрудник по дискретной выборке и моделям на основе энергии.
  • Мринанк Шарма — Ученый по согласованию в Anthropic и соавтор статей по лишению власти, сикофантству и many-shot jailbreaking; ключевой сотрудник в исследованиях безопасности Дювено.
  • Ян Кюльвейт — Исследователь безопасности ИИ и соавтор концепции постепенного лишения власти; привносит перспективу теории согласования в эмпирическую ориентацию Дювено.

Личный стиль

Дювено — один из самых ярких примеров в машинном обучении исследователя, который фундаментально изменил фокус своих исследований, а не просто расширил его — и сделал это публично, объясняя логику на каждом шагу. Его переход от вероятностного моделирования к Neural ODEs был методологическим (непрерывная математика предоставила лучшие инструменты для решения текущих проблем); его переход от Neural ODEs к безопасности ИИ был нормативным (он пришел к выводу, что наиболее важным применением его исследовательских навыков является снижение катастрофического риска). Он необычно откровенен в отношении неопределенности: его личный сайт теперь описывает прошлые исследовательские достижения как прошлые и обрамляет свои текущие интересы в области управления AGI и риска без уклончивости. Его письменные работы — как технические, так и публичные — точны без формальности, и он демонстрирует постоянный интерес к тому, чтобы инфраструктура ML была более принципиальной (Autograd, Dex), а не просто более быстрой. Его анонимная кнопка обратной связи и подробные инструкции по присоединению на его сайте отражают подход к руководству, который рассматривает прозрачность в отношении рабочей культуры как профессиональную обязанность, а не как приложение.


Ссылки