Голландский исследователь машинного обучения, соавтор вариационного автоэнкодера (VAE) и оптимизатора Adam — двух наиболее фундаментальных и цитируемых вкладов в историю глубокого обучения — а впоследствии продвинувший нормализующие потоки (normalizing flows), вариационные диффузионные модели и ответственное развитие ИИ в OpenAI, Google Brain и Anthropic.
Профиль
| Родился | Нидерланды (дата не раскрывается) |
| Гражданство | Нидерландское |
| Текущее место работы | Anthropic (научный сотрудник, 2024–н.в.) |
| Области исследований | Генеративное моделирование, вариационный вывод, оптимизация, нормализующие потоки, диффузионные модели, крупномасштабное машинное обучение |
| Научный руководитель | Макс Веллинг (Max Welling) |
| Докторская диссертация | Вариационный вывод и глубокое обучение: новый синтез (Амстердамский университет, 2017, cum laude) |
| Веб-сайт | dpkingma.com |
| X / Twitter | @dpkingma |
| GitHub | dpkingma |
| Google Scholar | Diederik P. Kingma |
Обзор
Дидрик П. Кингма — известный также по фризскому прозвищу Дурк (произносится как Дирк) — голландский исследователь машинного обучения, чьи два самых признанных вклада — вариационный автоэнкодер (VAE, 2013) и оптимизатор Adam (2014) — входят в число наиболее цитируемых статей в истории компьютерных наук. VAE ввел в обиход репараметризационный трюк и нижнюю границу правдоподобия (evidence lower bound) как основной механизм для масштабируемого глубокого обучения со скрытыми переменными; оптимизатор Adam стал алгоритмом обучения по умолчанию практически для всех нейронных сетей, обучавшихся после 2015 года. Кингма был одним из основателей и руководителем направления алгоритмов в OpenAI (2015–2018), шесть лет проработал научным сотрудником в Google Brain и Google DeepMind (2018–2024), а в октябре 2024 года присоединился к Anthropic, работая удаленно из Нидерландов. Его докторская диссертация в Амстердамском университете, защищенная с отличием cum laude под руководством Макса Веллинга в 2017 году, стала первой такой степенью на факультете компьютерных наук UvA за тридцать лет. Его профиль Google Scholar насчитывает сотни тысяч цитирований, в основном благодаря статье об Adam — одной из самых цитируемых работ в любой научной дисциплине.
Ранние годы и образование
Кингма родился и вырос в Нидерландах. В 2009 году он начал исследования в лаборатории Янна Лекуна (Yann LeCun) в Нью-Йоркском университете в качестве младшего научного сотрудника — это была его первая встреча с программой исследований в области глубокого обучения, которая в то время еще не стала мейнстримом. Он вернулся в лабораторию Лекуна на второй срок в 2012 году. Между этими периодами он стал сооснователем компании Advanza, нидерландской технологической компании, где с 2010 по 2012 год занимал должность технического руководителя; в 2016 году Advanza была успешно приобретена.
Кингма начал докторантуру в 2013 году в Амстердамском университете под руководством Макса Веллинга, работая над глубоким обучением и генеративными моделями. Во время обучения он также провел лето 2014 и 2015 годов в DeepMind в Лондоне для совместной работы, а в 2015 году получил первую европейскую докторскую стипендию Google в области глубокого обучения. В 2017 году он завершил докторантуру с отличием cum laude — высшей наградой в нидерландской системе, — ставшей первой такой наградой на факультете компьютерных наук UvA за тридцать лет. Его диссертация Вариационный вывод и глубокое обучение: новый синтез объединила разработанный им фреймворк вариационного вывода на основе репараметризации с более широким рассмотрением глубоких генеративных моделей.
Карьера
NYU / Advanza (2009–2013)
Первые исследовательские позиции Кингмы в лаборатории Янна Лекуна познакомили его с традицией нейронных сетей, которая вскоре стала доминирующей парадигмой в машинном обучении. Создание Advanza в промежуточные годы добавило к его опыту ранний стартап и создание продукта, что отличало его от чисто академических исследователей.
Амстердамский университет — докторантура (2013–2017)
Две статьи, написанные Кингмой во время докторантуры, изменили эту область.
Вариационный автоэнкодер (ICLR 2014). Статья «Auto-Encoding Variational Bayes», написанная в соавторстве с Максом Веллингом, представила VAE — архитектуру нейронной сети для обучения глубоких моделей со скрытыми переменными, в которой кодировщик отображает входные данные в распределение по скрытому пространству, а декодер восстанавливает входные данные из семплированных скрытых представлений. Ключевым техническим вкладом стал репараметризационный трюк, позволяющий распространять градиенты через стохастические операции семплирования и делающий возможным совместное обучение кодировщика и декодера с помощью стохастического градиентного спуска. VAE впервые объединил вероятностное генеративное моделирование с масштабируемым глубоким обучением, установил нижнюю границу правдоподобия (evidence lower bound, ELBO) как целевую функцию для глубоких генеративных моделей и стал концептуальной основой латентных диффузионных моделей, включая Stable Diffusion. Независимо от него, Данило Резенде (Danilo Rezende), Шакир Мохамед (Shakir Mohamed) и Дан Вирстра (Daan Wierstra) опубликовали тесно связанный подход (SGVB) в то же время. Статья VAE получила премию за проверку временем (Test of Time Award) на конференции ICLR 2024 — в первый год учреждения этой награды — в знак признания ее долгосрочного влияния.
Оптимизатор Adam (ICLR 2015). Статья «Adam: A Method for Stochastic Optimization», написанная в соавторстве с Джимми Ба (Jimmy Ba), представила алгоритм Adam — адаптивный оптимизатор скорости обучения, который поддерживает оценки первого и второго моментов для каждого параметра и применяет коррекцию смещения. Adam объединил преимущества AdaGrad (адаптация к разреженным градиентам) и RMSProp (эффективность в нестационарных условиях) в одном алгоритме с интуитивно понятными гиперпараметрами. Он был немедленно принят в качестве оптимизатора по умолчанию для обучения нейронных сетей практически в любой области и оставался таковым в течение десятилетия. Статья об Adam стала одной из самых цитируемых во всей компьютерной науке и во всех научных дисциплинах, с цитированием в сотни тысяч. Она получила премию за проверку временем на ICLR 2025 (совместно с Джимми Ба).
OpenAI — один из основателей, научный сотрудник, руководитель команды алгоритмов (2015–2018)
Кингма присоединился к OpenAI в качестве одного из основателей в 2015 году и занимал должность научного сотрудника и руководителя команды алгоритмов, сосредоточившись на фундаментальных исследованиях методов генеративного ИИ. В этот период он продолжил разработку фреймворка вариационного вывода (статья «Improved Variational Inference with Inverse Autoregressive Flow», NIPS 2016, с Тимом Салимансом, Рафалом Юзефовичем, Си Чэнем, Ильей Суцкевером и Максом Веллингом — введение нормализующих потоков как пути к более выразительным апостериорным распределениям) и участвовал в работе по полу-контролируемому обучению и обучению представлениям. Он покинул OpenAI в 2018 году.
Google Brain / Google DeepMind — научный сотрудник (2018–2024)
После короткого периода работы внештатным ангельским инвестором и консультантом, Кингма снова присоединился к исследовательской организации Google в июле 2018 года, начав в Google Brain. Он руководил исследовательскими проектами в области генеративных моделей для текста, изображений и видео.
Glow (NeurIPS 2018). Статья «Glow: Generative Flow with Invertible 1×1 Convolutions», написанная в соавторстве с Прафуллой Дхаривалом (Prafulla Dhariwal), представила модель нормализующего потока, использующую обратимые свертки 1×1 в качестве основного архитектурного элемента. Glow генерировал высококачественные фотореалистичные изображения лиц и обеспечивал модель точного правдоподобия — демонстрацию того, что потоки могут достигать визуального качества, сравнимого с GAN, оставаясь при этом основанными на правдоподобии. Демо-версия Glow, выпущенная в виде интерактивного веб-сайта, стала одним из первых общедоступных примеров высококачественной фотореалистичной генерации изображений с помощью ИИ.
Вариационные диффузионные модели (NeurIPS 2021). Статья «Variational Diffusion Models», написанная в соавторстве с Тимом Салимансом, Беном Пулом (Ben Poole) и Джонатаном Хо (Jonathan Ho), объединила фреймворки VAE и диффузионных моделей, показав, что диффузионные модели можно рассматривать как VAE с бесконечной глубиной и определенным шумовым расписанием. Статья продемонстрировала, что эти модели могут достигать наилучших показателей правдоподобия на эталонах оценки плотности изображений, упростила теоретическое понимание диффузионных моделей с помощью формулировки отношения сигнал/шум и доказала эквивалентность между несколькими ранее различными предложенными методами. Она внесла вклад в теоретическое обоснование парадигмы диффузионных моделей, лежащей в основе большинства современных систем генерации изображений и видео.
В период работы в Google Кингма также участвовал в исследованиях больших языковых моделей и других генеративных моделей для текста и видео, что соответствовало расширяющемуся вниманию Google Brain к фундаментальным моделям.
Anthropic — научный сотрудник (2024–н.в.)
В октябре 2024 года Кингма объявил о присоединении к Anthropic, работая в основном удаленно из Нидерландов с регулярными визитами в район залива Сан-Франциско. Объявляя о переходе, он написал, что подход Anthropic к развитию ИИ совпадает с его собственными убеждениями относительно ответственного развития мощных систем ИИ. Его приход продолжил шаблон Anthropic по найму видных исследователей из OpenAI и Google, разделяющих ее ориентированную на безопасность исследовательскую культуру.
Ключевые вклады
-
Вариационный автоэнкодер (VAE, ICLR 2014) — «Auto-Encoding Variational Bayes», совместно с Максом Веллингом. Ввел репараметризационный трюк и нижнюю границу правдоподобия как механизм для масштабируемого обучения глубоких моделей со скрытыми переменными. Установил канонический фреймворк для глубокого генеративного моделирования и обучения представлениям; концептуально является основой для латентных диффузионных моделей, включая Stable Diffusion. Получил первую премию за проверку временем на ICLR 2024. Более 35 000 цитирований.
-
Оптимизатор Adam (ICLR 2015) — «Adam: A Method for Stochastic Optimization», совместно с Джимми Ба. Ввел адаптивную оценку моментов для скорости обучения по каждому параметру с коррекцией смещения. Стал оптимизатором по умолчанию для обучения глубоких нейронных сетей практически во всех областях на протяжении десятилетия. Одна из самых цитируемых научных статей в любой дисциплине — более 200 000 цитирований. Получил премию за проверку временем на ICLR 2025.
-
Инверсный авторегрессионный поток (NIPS 2016) — «Improved Variational Inference with Inverse Autoregressive Flow», совместно с Тимом Салимансом, Рафалом Юзефовичем, Си Чэнем, Ильей Суцкевером и Максом Веллингом. Расширил фреймворк VAE за счет составления гибких нормализующих потоков для обогащения апостериорного распределения, значительно повысив выразительность и производительность вариационного вывода для моделей со скрытыми переменными.
-
Нормализация весов (NIPS 2016) — «Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks», совместно с Тимом Салимансом. Ввел репараметризацию векторов весов по их величине и направлению, ускоряя сходимость и предоставляя более простую альтернативу пакетной нормализации в определенных условиях.
-
Glow (NeurIPS 2018) — «Glow: Generative Flow with Invertible 1×1 Convolutions», совместно с Прафуллой Дхаривалом. Продемонстрировал генерацию изображений с высоким качеством и точным правдоподобием с использованием нормализующих потоков; создал первое широко распространенное общедоступное демо фотореалистичной генерации лиц ИИ, предшествовавшее широкому публичному знакомству с синтезом изображений.
-
Вариационные диффузионные модели (NeurIPS 2021) — «Variational Diffusion Models», совместно с Тимом Салимансом, Беном Пулом и Джонатаном Хо. Обеспечил принципиальный вариационный фреймворк, объединяющий VAE и диффузионные модели, достиг наилучших показателей правдоподобия на эталонах изображений и внес теоретическую ясность в формулировку отношения сигнал/шум диффузионных процессов, лежащую в основе современных систем преобразования текста в изображение.
Награды и признание
- ICLR 2025 Test of Time Award — за статью об оптимизаторе Adam (совместно с Джимми Ба).
- ICLR 2024 Test of Time Award (первая) — за статью VAE (совместно с Максом Веллингом), присуждена в первый год введения данной награды.
- Нидерландская премия в области науки о данных (Dutch Datascience Award, 2019) — от Королевского общества наук и гуманитарных наук Нидерландов за вклад в исследования машинного обучения.
- Премия ELLIS PhD (2019) — от Европейской лаборатории обучения и интеллектуальных систем за выдающиеся исследовательские достижения в период подготовки диссертации.
- Степень PhD cum laude, Амстердамский университет (2017) — высшее докторское отличие в Нидерландах; первое на факультете компьютерных наук UvA за тридцать лет.
- Европейская докторская стипендия Google по глубокому обучению (2015) — первая такая стипендия Google, присужденная в Европе.
Ключевые отношения
- Макс Веллинг (Max Welling) — научный руководитель докторантуры в Амстердамском университете и соавтор VAE; самое значимое интеллектуальное партнерство в карьере Кингмы. Ориентация Веллинга на вероятностное машинное обучение сформировала всю программу VAE и ее связь с байесовским выводом.
- Джимми Ба (Jimmy Ba) — соавтор оптимизатора Adam; влияние статьи является одним из наиболее ярких примеров того, как работа двух авторов изменила целую область.
- Тим Салиманс (Tim Salimans) — самый близкий долгосрочный соавтор Кингмы в годы работы в индустрии; соавтор работ по нормализации весов, инверсному авторегрессионному потоку и вариационным диффузионным моделям как в период OpenAI, так и в Google Brain.
- Прафулла Дхаривал (Prafulla Dhariwal) — коллега по Google Brain и OpenAI; соавтор Glow; позже известен работами DALL-E и продвижением диффузионных моделей в OpenAI.
- Джонатан Хо (Jonathan Ho) — соавтор вариационных диффузионных моделей; также известен как ведущий автор DDPM (Denoising Diffusion Probabilistic Models), статьи, которая закрепила современную парадигму диффузионных моделей.
- Янн Лекун (Yann LeCun) — ранний наставник в лаборатории NYU в 2009 и 2012 годах; один из первых старших исследователей, предоставивших Кингме исследовательский опыт до получения докторской степени.
- Илья Суцкевер (Ilya Sutskever) — коллега по команде основателей OpenAI и соавтор статьи об инверсном авторегрессионном потоке.
- Дарио Амодеи (Dario Amodei) — генеральный директор Anthropic и бывший вице-президент по исследованиям OpenAI; его приглашение Кингмы в Anthropic отражает общую историю и ценности периода OpenAI.
Личный стиль
Исследовательская практика Кингмы основана на небольшом количестве фундаментальных идей, разрабатываемых с математической глубиной, а не на широком эмпирическом охвате. Репараметризационный трюк, введенный для VAE, является характерным примером: концептуально простое нововведение, которое устранило давнее препятствие для обучения моделей со скрытыми переменными с помощью градиентного спуска и впоследствии оказалось применимым к широкому кругу задач. Adam устроен аналогично — интуитивно понятный, хорошо обоснованный алгоритм, широкая применимость которого не была сразу очевидна, но который накопил цитирования с темпом, не имеющим аналогов среди большинства теоретических результатов. Его траектория через четыре организации (OpenAI, Google Brain, Google DeepMind, Anthropic) отражает предпочтение среды, в которой фундаментальные исследования рассматриваются как самоцель, а не как средство для запуска продуктов. Он делал мало публичных заявлений, но те, которые он делал — включая его обоснование присоединения к Anthropic — подчеркивают соответствие между ценностями организации и его личными убеждениями относительно ответственного развития ИИ. Он продолжает работать из Нидерландов, сохраняя европейскую базу, что необычно для исследователей его уровня признания в американской ИИ-индустрии.
Ссылки
- Личный веб-сайт: dpkingma.com
- Google Scholar: scholar.google.com
- Объявление о найме от TechCrunch (октябрь 2024 г.): techcrunch.com
- Премия ICLR 2024 за проверку временем: blog.iclr.cc
- Премия ICLR 2025 за проверку временем: blog.iclr.cc
- Объявление о команде основателей OpenAI: openai.com
- Профиль на Digg: digg.com/u/x/dpkingma