Ориол Виньялс

Испанский исследователь машинного обучения в Google DeepMind; соавтор обучения «последовательность-в-последовательность» (sequence-to-sequence), создатель Pointer Networks, ведущий исследователь AlphaStar и сотехнический руководитель Gemini.


Основная информация / Профиль

Поле Детали
Полное имя Oriol Vinyals
Дата рождения 1983, Сабадель, Каталония, Испания
Гражданство Испанское
Текущее место работы Google DeepMind
Текущая должность Вице-президент по исследованиям и руководитель направления глубокого обучения; сотехнический руководитель Gemini
Области исследований Глубокое обучение, моделирование последовательностей, обучение с подкреплением, мультиагентные системы, большие языковые модели
Научный руководитель Nelson Morgan
Докторская диссертация Beyond Deep Learning: Scalable Methods and Models for Learning (Калифорнийский университет в Беркли, 2013)
X / Twitter @OriolVinyalsML
GitHub github.com/oriolvinyals
Google Scholar scholar.google.com/citations?user=NkzyCvUAAAAJ
Страница Google Research research.google/people/oriolvinyals

Обзор

Oriol Vinyals — испанский исследователь машинного обучения, чья карьера в Google Brain и Google DeepMind привела к серии фундаментальных архитектурных прорывов в области языка, зрения, игр и пограничных мультимодальных моделей. Как соавтор обучения «последовательность-в-последовательность» (seq2seq) в 2014 году, он помог создать архитектуру кодировщик-декодировщик, которая лежит в основе систем нейронного машинного перевода, синтеза речи и распознавания речи, обслуживающих сегодня миллиарды запросов ежедневно. Его работа Pointer Networks ввела идею использования внимания не как механизма мягкого смешивания, а как жёсткого указателя на входную последовательность, что позволило нейронным сетям решать задачи комбинаторной оптимизации с выходными пространствами переменной длины. Он руководил проектом AlphaStar в DeepMind, создав первого ИИ-агента, достигшего уровня гроссмейстера в StarCraft II — результат, опубликованный на обложке журнала Nature в 2019 году и представляющий собой крупный прорыв в мультиагентном обучении с подкреплением. Как вице-президент по исследованиям и сотехнический руководитель Gemini, он является одним из главных архитекторов флагманской серии пограничных моделей Google DeepMind. Его статьи набрали более 335 000 цитирований.


Ранние годы и образование

Детство в Каталонии

Vinyals родился в 1983 году в Сабаделе, городе в агломерации Барселоны (Каталония). Он получил степень бакалавра по математике и телекоммуникационной инженерии в Политехническом университете Каталонии (UPC) — сочетание, давшее ему как строгий математический фундамент, так и практическую ориентацию на обработку сигналов, что проявилось в его более поздних работах по речи и аудио.

Калифорнийский университет в Сан-Диего — магистратура

После получения степени бакалавра Vinyals переехал в США и получил степень магистра наук в области компьютерных наук в Калифорнийском университете в Сан-Диего, углубив свои знания в статистическом машинном обучении и обработке сигналов.

Калифорнийский университет в Беркли — докторантура (2013)

Vinyals получил степень доктора философии по электротехнике и компьютерным наукам в Калифорнийском университете в Беркли в 2013 году под руководством Nelson Morgan. Его диссертация Beyond Deep Learning: Scalable Methods and Models for Learning была посвящена масштабируемым методам обучения и новым архитектурам моделей для крупномасштабного машинного обучения — теме, которая предвосхитила большую часть его последующей работы в Google Brain над системами, работающими на беспрецедентных масштабах. Он был программным председателем ICLR в 2017 и 2018 годах, а также многократно входил в программные комитеты NeurIPS и ICML.


Карьера

Google Brain — научный сотрудник (2013–ок.2019)

Vinyals присоединился к Google Brain в 2013 году после получения докторской степени. В этот период он написал или стал соавтором наиболее значимой серии влиятельных статей в своей карьере, охватывающих моделирование последовательностей, внимание, связывание изображений и текста, синтаксический анализ и односценарное обучение.

Определяющим вкладом этого периода стало обучение «последовательность-в-последовательность» (seq2seq) (NeurIPS 2014), разработанное совместно с Ильёй Суцкевером и Quoc V. Le. Статья представила архитектуру кодировщик-декодировщик, которая обучает две рекуррентные сети совместно: одну для кодирования входной последовательности переменной длины в фиксированное представление, а другую для декодирования этого представления в выходную последовательность переменной длины. Было показано, что такой подход значительно улучшает качество машинного перевода. Архитектура стала основой нейронной системы Google Translate, пайплайнов синтеза и распознавания речи, а также прямым структурным предшественником архитектуры кодировщик-декодировщик трансформера.

Pointer Networks (NeurIPS 2015, с Meire Fortunato и Navdeep Jaitly) расширили механизм внимания в концептуально ином направлении: вместо использования внимания для создания контекстного вектора, смешивающего состояния кодировщика, сеть использует внимание как дискретный указатель, выбирающий позицию на входе в качестве выхода, что позволяет выходному словарю быть самим входом. Это позволило сети решать такие задачи, как задача коммивояжёра и вычисление выпуклой оболочки, где выход представляет собой перестановку или подмножество входа, и ввело подход, повлиявший на последующие работы по комбинаторной оптимизации с помощью нейронных сетей.

«Покажи и расскажи: генератор подписей к изображениям на основе нейронной сети» (CVPR 2015, с Toshev, Bengio и др.) объединил кодировщик на базе сверточной нейронной сети GoogLeNet с декодировщиком LSTM для генерации описаний изображений на естественном языке, достигнув наилучших результатов на эталонах MSCOCO и Flickr30k и продемонстрировав применимость парадигмы seq2seq к разным модальностям.

«Грамматика как иностранный язык» (NeurIPS 2015, с Kaiser, Koo, Petrov, Sutskever и Hinton) переосмыслила синтаксический анализ на основе составляющих как задачу транслукции seq2seq, показав, что модель, обученная «сквозным» образом без какой-либо специальной инженерии, может соответствовать или превосходить специально созданные синтаксические анализаторы — ранняя демонстрация того, что архитектуры общего назначения вытесняют специализированные NLP-системы.

«Сети сопоставления для односценарного обучения» (NeurIPS 2016) предложили архитектуру мета-обучения, объединяющую внимание и память для классификации новых примеров на основе одного размеченного экземпляра, что повлияло на последующие исследования в области малосценарного обучения и эпизодического обучения.

«Нейронные интерпретаторы программ» (ICLR 2016, с Kaiser и Sutskever) представили рекуррентную композиционную архитектуру, которая учится представлять и выполнять программы, с иерархической схемой выполнения, способной изучать подпрограммы на примерах.

Vinyals также внёс вклад в TensorFlow и ранние работы по дистилляции знаний (2015, с Hinton и Dean), WaveNet и другие проекты Google Brain.

Google DeepMind — ведущий научный сотрудник, затем вице-президент по исследованиям (ок.2019–н.в.)

Vinyals перешёл из Google Brain в DeepMind по мере углубления сотрудничества между двумя организациями, которые в конечном итоге объединились в Google DeepMind в 2023 году. В DeepMind он стал ведущим научным сотрудником, а затем вице-президентом по исследованиям и руководителем направления глубокого обучения.

AlphaStar — Vinyals руководил исследовательской группой, создавшей AlphaStar, первого ИИ-агента, достигшего уровня гроссмейстера в полной версии StarCraft II без каких-либо изменений правил или интерфейса. Опубликованная в качестве статьи на обложке журнала Nature в ноябре 2019 года, AlphaStar использовала архитектуру на основе трансформера, обученную с помощью имитационного обучения на записях игр людей, с последующим мультиагентным обучением с подкреплением, в ходе которого лига агентов играла друг против друга, каждый оптимизируясь против набора прошлых и текущих противников для предотвращения коллапса стратегии. Агент победил нескольких профессиональных игроков в живых матчах. Эта работа стала значительным прорывом в мультиагентном обучении с подкреплением с разреженными долгосрочными наградами и частичной наблюдаемостью — свойствами, отличающими реальные последовательные задачи принятия решений от более ранних игровых эталонов, таких как Atari и Go.

AlphaCode (2022) — Vinyals был старшим участником проекта AlphaCode, системы DeepMind для спортивного программирования. AlphaCode была обучена на коде GitHub и задачах спортивного программирования, генерируя решения-кандидаты путём семплирования и последующей фильтрации; на эталоне Codeforces она достигла примерно уровня среднего участника-человека. Это была одна из первых больших моделей, продемонстрировавших значимую производительность в сложных многошаговых алгоритмических задачах.

Вклад в AlphaFold — Команда Vinyals внесла вклад в компоненты AlphaFold и связанные с этим работы по структурной биологии в DeepMind, что отражает растущее пересечение архитектур моделирования последовательностей и предсказания структуры белков.

Gemini — В качестве сотехнического руководителя наряду с Noam Shazeer и Jeff Dean, Vinyals был центральной фигурой в разработке семейства мультимодальных моделей Gemini от Google DeepMind с самого начала. Когда Gemini 3 достигла доминирующих результатов на эталонах в конце 2025 года, Vinyals описал преимущество модели в характерно прямой манере: секрет заключался просто в лучшем пре-тренинге и лучшем пост-тренинге. По состоянию на середину 2026 года он продолжает руководить командой глубокого обучения и совместно руководить разработкой Gemini в качестве вице-президента по исследованиям.

В 2025 году он получил почётную докторскую степень от своей альма-матер, Политехнического университета Каталонии.


Ключевые достижения

  • Обучение «последовательность-в-последовательность» (seq2seq) (NeurIPS 2014, с Ильёй Суцкевером и Quoc V. Le) — Представлена архитектура RNN-кодировщик-декодировщик для транслукции «вход-выход» переменной длины; стала структурной основой нейронного машинного перевода, внедрена в Google Translate и обслуживает миллиарды запросов; архитектура из статьи также лежит в основе пайплайнов синтеза речи и распознавания речи в Google.
  • Pointer Networks (NeurIPS 2015, с Meire Fortunato и Navdeep Jaitly) — Предложено использование внимания в качестве дискретного указателя на позиции входа, а не весов смешивания состояний кодировщика, что позволило нейронным сетям решать комбинаторные задачи с переменными выходными наборами, такие как сортировка, задача коммивояжёра и выпуклая оболочка; повлияло на дизайн механизмов копирования и архитектур структурированного предсказания.
  • «Покажи и расскажи: нейронная генерация подписей к изображениям» (CVPR 2015) — Объединение кодирования изображения сверточной нейронной сетью с декодированием LSTM в совместно обучаемой системе, достигшей наилучших результатов в генерации подписей к изображениям и продемонстрировавшей межмодальное применение парадигмы seq2seq.
  • «Грамматика как иностранный язык» (NeurIPS 2015, с Kaiser, Koo, Petrov, Sutskever, Hinton) — Показано, что синтаксический анализ на основе составляющих может быть переформулирован как задача seq2seq и решён с помощью общей модели последовательностей, конкурентоспособной со специализированными синтаксическими анализаторами; ранняя демонстрация универсальности архитектур в NLP.
  • Сети сопоставления для односценарного обучения (NeurIPS 2016) — Введены эпизодическое обучение и сравнение на основе внимания между наборами поддержки и запросами для односценарного обобщения; основополагающая работа для литературы по мета-обучению.
  • Нейронные интерпретаторы программ (ICLR 2016, с Kaiser и Sutskever) — Композиционная нейронная архитектура, которая учится представлять и выполнять программные подпрограммы, внося вклад в изучение обучаемых индуктивных смещений для алгоритмических задач.
  • Дистилляция знаний (2015, с Hinton и Dean) — Соавтор канонической формулировки обучения компактных студенческих сетей на основе мягких вероятностных выходов большой модели-учителя; в настоящее время универсальный компонент пайплайнов развёртывания ML в производстве.
  • AlphaStar (Nature, 2019) — Руководил исследованиями, создавшими первый ИИ, достигший уровня гроссмейстера в StarCraft II; проект продвинул мультиагентное обучение с подкреплением, работу с частичной наблюдаемостью, долгосрочным назначением кредита и стратегическим разнообразием через самоиграющую лигу; статья на обложке Nature.
  • AlphaCode (2022) — Старший участник создания первой ИИ-системы, достигшей производительности среднего участника спортивного программирования на эталонах Codeforces, продемонстрировав, что большие языковые модели могут справляться со сложными многошаговыми алгоритмическими задачами.
  • Gemini (2023–н.в.) — Сотехнический руководитель флагманской серии пограничных мультимодальных моделей Google DeepMind; участвовал в разработке Gemini 1.0, 1.5, 2.0, 3.0 и последующих релизов.

Награды и признание

  • MIT Technology Review Innovators Under 35 (2016) — Отмечен за вклад в моделирование последовательностей и глубокое обучение.
  • Почётная докторская степень, Политехнический университет Каталонии (2025) — Присуждена его alma mater за вклад в искусственный интеллект.
  • Программный председатель ICLR (2017, 2018) — Руководил программными комитетами одной из самых избирательных и влиятельных конференций в этой области в течение двух последовательных лет.
  • Более 335 000 цитирований (Google Scholar, по состоянию на середину 2026 года) — Один из самых цитируемых активных исследователей в области машинного обучения.

Ключевые связи

  • Илья Суцкевер — Соавтор seq2seq; трёхстороннее сотрудничество с Суцкевером и Quoc V. Le в Google Brain привело к созданию одной из самых влиятельных статей в истории обработки естественного языка.
  • Quoc V. Le — Соавтор seq2seq; работал в той же когорте Google Brain и продолжал сотрудничать в области языкового и мультимодального моделирования.
  • Джеффри Хинтон — Соавтор статей «Грамматика как иностранный язык» и по дистилляции знаний; интеллектуальное влияние Хинтона на группу Google Brain было значительным в период наиболее продуктивной публикационной активности Vinyals.
  • Jeff Dean — Главный научный сотрудник Google DeepMind и сотехнический руководитель Gemini; Дин руководил инфраструктурой Google Brain, которая позволила Vinyals проводить масштабные обучающие эксперименты, и является со-руководителем текущего проекта Gemini.
  • Noam Shazeer — Сотехнический руководитель Gemini вместе с Vinyals и Дином; все трое совместно руководят важнейшей программой разработки продуктов Google DeepMind.
  • Ян Гудфеллоу — Присоединился к команде глубокого обучения Google DeepMind под руководством Vinyals в 2022 году; Vinyals был руководителем команды, которую Гудфеллоу назвал по имени, объявляя о переходе.
  • Nelson Morgan — Научный руководитель докторской диссертации в Калифорнийском университете в Беркли; исследовательская группа Моргана специализировалась на статистической обработке речи — фон, сформировавший ранние работы Vinyals по акустическому моделированию и масштабируемым методам обучения.

Личный стиль

Публичные высказывания Vinyals отличаются сдержанностью: в его профиле в X перечислены вклады в виде последовательности названий проектов, и он редко даёт развёрнутые интервью, позволяя статьям говорить самим за себя. В исследовательском сообществе его считают обладателем необычайно чистого архитектурного чутья — его самые влиятельные идеи (seq2seq, Pointer Networks, Matching Networks) структурно минималистичны, заменяя сложность одним хорошо выбранным индуктивным смещением. Его характеристика преимущества Gemini 3 как «лучшего пре-тренинга и лучшего пост-тренинга» отражает ту же прямоту: отказ от украшения инженерного прогресса концептуальными излишествами. Он описывал себя как верящего в то, что его поколение станет свидетелем появления машинного интеллекта на уровне человека или выше, и его карьерные решения — последовательная сосредоточенность на сложных долгосрочных задачах, таких как StarCraft и спортивное программирование, а теперь и пограничное мультимодальное моделирование — отражают последовательную ставку на масштабирование и универсальность как на основные рычаги.


Ссылки