Дидерик П. (Дюрк) Кингма

Голландский исследователь машинного обучения, соавтор вариационного автоэнкодера (VAE) и оптимизатора Adam — двух наиболее фундаментальных и цитируемых вкладов в историю глубокого обучения — а впоследствии продвинувший нормализующие потоки (normalizing flows), вариационные диффузионные модели и ответственное развитие ИИ в OpenAI, Google Brain и Anthropic.


Профиль

Родился Нидерланды (дата не раскрывается)
Гражданство Нидерландское
Текущее место работы Anthropic (научный сотрудник, 2024–н.в.)
Области исследований Генеративное моделирование, вариационный вывод, оптимизация, нормализующие потоки, диффузионные модели, крупномасштабное машинное обучение
Научный руководитель Макс Веллинг (Max Welling)
Докторская диссертация Вариационный вывод и глубокое обучение: новый синтез (Амстердамский университет, 2017, cum laude)
Веб-сайт dpkingma.com
X / Twitter @dpkingma
GitHub dpkingma
Google Scholar Diederik P. Kingma

Обзор

Дидрик П. Кингма — известный также по фризскому прозвищу Дурк (произносится как Дирк) — голландский исследователь машинного обучения, чьи два самых признанных вклада — вариационный автоэнкодер (VAE, 2013) и оптимизатор Adam (2014) — входят в число наиболее цитируемых статей в истории компьютерных наук. VAE ввел в обиход репараметризационный трюк и нижнюю границу правдоподобия (evidence lower bound) как основной механизм для масштабируемого глубокого обучения со скрытыми переменными; оптимизатор Adam стал алгоритмом обучения по умолчанию практически для всех нейронных сетей, обучавшихся после 2015 года. Кингма был одним из основателей и руководителем направления алгоритмов в OpenAI (2015–2018), шесть лет проработал научным сотрудником в Google Brain и Google DeepMind (2018–2024), а в октябре 2024 года присоединился к Anthropic, работая удаленно из Нидерландов. Его докторская диссертация в Амстердамском университете, защищенная с отличием cum laude под руководством Макса Веллинга в 2017 году, стала первой такой степенью на факультете компьютерных наук UvA за тридцать лет. Его профиль Google Scholar насчитывает сотни тысяч цитирований, в основном благодаря статье об Adam — одной из самых цитируемых работ в любой научной дисциплине.


Ранние годы и образование

Кингма родился и вырос в Нидерландах. В 2009 году он начал исследования в лаборатории Янна Лекуна (Yann LeCun) в Нью-Йоркском университете в качестве младшего научного сотрудника — это была его первая встреча с программой исследований в области глубокого обучения, которая в то время еще не стала мейнстримом. Он вернулся в лабораторию Лекуна на второй срок в 2012 году. Между этими периодами он стал сооснователем компании Advanza, нидерландской технологической компании, где с 2010 по 2012 год занимал должность технического руководителя; в 2016 году Advanza была успешно приобретена.

Кингма начал докторантуру в 2013 году в Амстердамском университете под руководством Макса Веллинга, работая над глубоким обучением и генеративными моделями. Во время обучения он также провел лето 2014 и 2015 годов в DeepMind в Лондоне для совместной работы, а в 2015 году получил первую европейскую докторскую стипендию Google в области глубокого обучения. В 2017 году он завершил докторантуру с отличием cum laude — высшей наградой в нидерландской системе, — ставшей первой такой наградой на факультете компьютерных наук UvA за тридцать лет. Его диссертация Вариационный вывод и глубокое обучение: новый синтез объединила разработанный им фреймворк вариационного вывода на основе репараметризации с более широким рассмотрением глубоких генеративных моделей.


Карьера

NYU / Advanza (2009–2013)

Первые исследовательские позиции Кингмы в лаборатории Янна Лекуна познакомили его с традицией нейронных сетей, которая вскоре стала доминирующей парадигмой в машинном обучении. Создание Advanza в промежуточные годы добавило к его опыту ранний стартап и создание продукта, что отличало его от чисто академических исследователей.

Амстердамский университет — докторантура (2013–2017)

Две статьи, написанные Кингмой во время докторантуры, изменили эту область.

Вариационный автоэнкодер (ICLR 2014). Статья «Auto-Encoding Variational Bayes», написанная в соавторстве с Максом Веллингом, представила VAE — архитектуру нейронной сети для обучения глубоких моделей со скрытыми переменными, в которой кодировщик отображает входные данные в распределение по скрытому пространству, а декодер восстанавливает входные данные из семплированных скрытых представлений. Ключевым техническим вкладом стал репараметризационный трюк, позволяющий распространять градиенты через стохастические операции семплирования и делающий возможным совместное обучение кодировщика и декодера с помощью стохастического градиентного спуска. VAE впервые объединил вероятностное генеративное моделирование с масштабируемым глубоким обучением, установил нижнюю границу правдоподобия (evidence lower bound, ELBO) как целевую функцию для глубоких генеративных моделей и стал концептуальной основой латентных диффузионных моделей, включая Stable Diffusion. Независимо от него, Данило Резенде (Danilo Rezende), Шакир Мохамед (Shakir Mohamed) и Дан Вирстра (Daan Wierstra) опубликовали тесно связанный подход (SGVB) в то же время. Статья VAE получила премию за проверку временем (Test of Time Award) на конференции ICLR 2024 — в первый год учреждения этой награды — в знак признания ее долгосрочного влияния.

Оптимизатор Adam (ICLR 2015). Статья «Adam: A Method for Stochastic Optimization», написанная в соавторстве с Джимми Ба (Jimmy Ba), представила алгоритм Adam — адаптивный оптимизатор скорости обучения, который поддерживает оценки первого и второго моментов для каждого параметра и применяет коррекцию смещения. Adam объединил преимущества AdaGrad (адаптация к разреженным градиентам) и RMSProp (эффективность в нестационарных условиях) в одном алгоритме с интуитивно понятными гиперпараметрами. Он был немедленно принят в качестве оптимизатора по умолчанию для обучения нейронных сетей практически в любой области и оставался таковым в течение десятилетия. Статья об Adam стала одной из самых цитируемых во всей компьютерной науке и во всех научных дисциплинах, с цитированием в сотни тысяч. Она получила премию за проверку временем на ICLR 2025 (совместно с Джимми Ба).

OpenAI — один из основателей, научный сотрудник, руководитель команды алгоритмов (2015–2018)

Кингма присоединился к OpenAI в качестве одного из основателей в 2015 году и занимал должность научного сотрудника и руководителя команды алгоритмов, сосредоточившись на фундаментальных исследованиях методов генеративного ИИ. В этот период он продолжил разработку фреймворка вариационного вывода (статья «Improved Variational Inference with Inverse Autoregressive Flow», NIPS 2016, с Тимом Салимансом, Рафалом Юзефовичем, Си Чэнем, Ильей Суцкевером и Максом Веллингом — введение нормализующих потоков как пути к более выразительным апостериорным распределениям) и участвовал в работе по полу-контролируемому обучению и обучению представлениям. Он покинул OpenAI в 2018 году.

Google Brain / Google DeepMind — научный сотрудник (2018–2024)

После короткого периода работы внештатным ангельским инвестором и консультантом, Кингма снова присоединился к исследовательской организации Google в июле 2018 года, начав в Google Brain. Он руководил исследовательскими проектами в области генеративных моделей для текста, изображений и видео.

Glow (NeurIPS 2018). Статья «Glow: Generative Flow with Invertible 1×1 Convolutions», написанная в соавторстве с Прафуллой Дхаривалом (Prafulla Dhariwal), представила модель нормализующего потока, использующую обратимые свертки 1×1 в качестве основного архитектурного элемента. Glow генерировал высококачественные фотореалистичные изображения лиц и обеспечивал модель точного правдоподобия — демонстрацию того, что потоки могут достигать визуального качества, сравнимого с GAN, оставаясь при этом основанными на правдоподобии. Демо-версия Glow, выпущенная в виде интерактивного веб-сайта, стала одним из первых общедоступных примеров высококачественной фотореалистичной генерации изображений с помощью ИИ.

Вариационные диффузионные модели (NeurIPS 2021). Статья «Variational Diffusion Models», написанная в соавторстве с Тимом Салимансом, Беном Пулом (Ben Poole) и Джонатаном Хо (Jonathan Ho), объединила фреймворки VAE и диффузионных моделей, показав, что диффузионные модели можно рассматривать как VAE с бесконечной глубиной и определенным шумовым расписанием. Статья продемонстрировала, что эти модели могут достигать наилучших показателей правдоподобия на эталонах оценки плотности изображений, упростила теоретическое понимание диффузионных моделей с помощью формулировки отношения сигнал/шум и доказала эквивалентность между несколькими ранее различными предложенными методами. Она внесла вклад в теоретическое обоснование парадигмы диффузионных моделей, лежащей в основе большинства современных систем генерации изображений и видео.

В период работы в Google Кингма также участвовал в исследованиях больших языковых моделей и других генеративных моделей для текста и видео, что соответствовало расширяющемуся вниманию Google Brain к фундаментальным моделям.

Anthropic — научный сотрудник (2024–н.в.)

В октябре 2024 года Кингма объявил о присоединении к Anthropic, работая в основном удаленно из Нидерландов с регулярными визитами в район залива Сан-Франциско. Объявляя о переходе, он написал, что подход Anthropic к развитию ИИ совпадает с его собственными убеждениями относительно ответственного развития мощных систем ИИ. Его приход продолжил шаблон Anthropic по найму видных исследователей из OpenAI и Google, разделяющих ее ориентированную на безопасность исследовательскую культуру.


Ключевые вклады

  • Вариационный автоэнкодер (VAE, ICLR 2014) — «Auto-Encoding Variational Bayes», совместно с Максом Веллингом. Ввел репараметризационный трюк и нижнюю границу правдоподобия как механизм для масштабируемого обучения глубоких моделей со скрытыми переменными. Установил канонический фреймворк для глубокого генеративного моделирования и обучения представлениям; концептуально является основой для латентных диффузионных моделей, включая Stable Diffusion. Получил первую премию за проверку временем на ICLR 2024. Более 35 000 цитирований.

  • Оптимизатор Adam (ICLR 2015) — «Adam: A Method for Stochastic Optimization», совместно с Джимми Ба. Ввел адаптивную оценку моментов для скорости обучения по каждому параметру с коррекцией смещения. Стал оптимизатором по умолчанию для обучения глубоких нейронных сетей практически во всех областях на протяжении десятилетия. Одна из самых цитируемых научных статей в любой дисциплине — более 200 000 цитирований. Получил премию за проверку временем на ICLR 2025.

  • Инверсный авторегрессионный поток (NIPS 2016) — «Improved Variational Inference with Inverse Autoregressive Flow», совместно с Тимом Салимансом, Рафалом Юзефовичем, Си Чэнем, Ильей Суцкевером и Максом Веллингом. Расширил фреймворк VAE за счет составления гибких нормализующих потоков для обогащения апостериорного распределения, значительно повысив выразительность и производительность вариационного вывода для моделей со скрытыми переменными.

  • Нормализация весов (NIPS 2016) — «Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks», совместно с Тимом Салимансом. Ввел репараметризацию векторов весов по их величине и направлению, ускоряя сходимость и предоставляя более простую альтернативу пакетной нормализации в определенных условиях.

  • Glow (NeurIPS 2018) — «Glow: Generative Flow with Invertible 1×1 Convolutions», совместно с Прафуллой Дхаривалом. Продемонстрировал генерацию изображений с высоким качеством и точным правдоподобием с использованием нормализующих потоков; создал первое широко распространенное общедоступное демо фотореалистичной генерации лиц ИИ, предшествовавшее широкому публичному знакомству с синтезом изображений.

  • Вариационные диффузионные модели (NeurIPS 2021) — «Variational Diffusion Models», совместно с Тимом Салимансом, Беном Пулом и Джонатаном Хо. Обеспечил принципиальный вариационный фреймворк, объединяющий VAE и диффузионные модели, достиг наилучших показателей правдоподобия на эталонах изображений и внес теоретическую ясность в формулировку отношения сигнал/шум диффузионных процессов, лежащую в основе современных систем преобразования текста в изображение.


Награды и признание

  • ICLR 2025 Test of Time Award — за статью об оптимизаторе Adam (совместно с Джимми Ба).
  • ICLR 2024 Test of Time Award (первая) — за статью VAE (совместно с Максом Веллингом), присуждена в первый год введения данной награды.
  • Нидерландская премия в области науки о данных (Dutch Datascience Award, 2019) — от Королевского общества наук и гуманитарных наук Нидерландов за вклад в исследования машинного обучения.
  • Премия ELLIS PhD (2019) — от Европейской лаборатории обучения и интеллектуальных систем за выдающиеся исследовательские достижения в период подготовки диссертации.
  • Степень PhD cum laude, Амстердамский университет (2017) — высшее докторское отличие в Нидерландах; первое на факультете компьютерных наук UvA за тридцать лет.
  • Европейская докторская стипендия Google по глубокому обучению (2015) — первая такая стипендия Google, присужденная в Европе.

Ключевые отношения

  • Макс Веллинг (Max Welling) — научный руководитель докторантуры в Амстердамском университете и соавтор VAE; самое значимое интеллектуальное партнерство в карьере Кингмы. Ориентация Веллинга на вероятностное машинное обучение сформировала всю программу VAE и ее связь с байесовским выводом.
  • Джимми Ба (Jimmy Ba) — соавтор оптимизатора Adam; влияние статьи является одним из наиболее ярких примеров того, как работа двух авторов изменила целую область.
  • Тим Салиманс (Tim Salimans) — самый близкий долгосрочный соавтор Кингмы в годы работы в индустрии; соавтор работ по нормализации весов, инверсному авторегрессионному потоку и вариационным диффузионным моделям как в период OpenAI, так и в Google Brain.
  • Прафулла Дхаривал (Prafulla Dhariwal) — коллега по Google Brain и OpenAI; соавтор Glow; позже известен работами DALL-E и продвижением диффузионных моделей в OpenAI.
  • Джонатан Хо (Jonathan Ho) — соавтор вариационных диффузионных моделей; также известен как ведущий автор DDPM (Denoising Diffusion Probabilistic Models), статьи, которая закрепила современную парадигму диффузионных моделей.
  • Янн Лекун (Yann LeCun) — ранний наставник в лаборатории NYU в 2009 и 2012 годах; один из первых старших исследователей, предоставивших Кингме исследовательский опыт до получения докторской степени.
  • Илья Суцкевер (Ilya Sutskever) — коллега по команде основателей OpenAI и соавтор статьи об инверсном авторегрессионном потоке.
  • Дарио Амодеи (Dario Amodei) — генеральный директор Anthropic и бывший вице-президент по исследованиям OpenAI; его приглашение Кингмы в Anthropic отражает общую историю и ценности периода OpenAI.

Личный стиль

Исследовательская практика Кингмы основана на небольшом количестве фундаментальных идей, разрабатываемых с математической глубиной, а не на широком эмпирическом охвате. Репараметризационный трюк, введенный для VAE, является характерным примером: концептуально простое нововведение, которое устранило давнее препятствие для обучения моделей со скрытыми переменными с помощью градиентного спуска и впоследствии оказалось применимым к широкому кругу задач. Adam устроен аналогично — интуитивно понятный, хорошо обоснованный алгоритм, широкая применимость которого не была сразу очевидна, но который накопил цитирования с темпом, не имеющим аналогов среди большинства теоретических результатов. Его траектория через четыре организации (OpenAI, Google Brain, Google DeepMind, Anthropic) отражает предпочтение среды, в которой фундаментальные исследования рассматриваются как самоцель, а не как средство для запуска продуктов. Он делал мало публичных заявлений, но те, которые он делал — включая его обоснование присоединения к Anthropic — подчеркивают соответствие между ценностями организации и его личными убеждениями относительно ответственного развития ИИ. Он продолжает работать из Нидерландов, сохраняя европейскую базу, что необычно для исследователей его уровня признания в американской ИИ-индустрии.


Ссылки