Американский самоучка-исследователь ИИ, бросивший колледж, чьи основополагающие работы в OpenAI — DCGAN, серия GPT, CLIP и Whisper — заложили парадигму генеративного предтренировочного обучения, лежащую в основе большинства современных ИИ.
Краткая справка
| Родился | Апрель 1993, Техас, США |
| Гражданство | Американец |
| Текущее место работы | Независимый исследователь; Thinking Machines Lab (консультант) |
| Сферы исследований | Генеративные модели, большие языковые модели, мультимодальное обучение, распознавание речи, неконтролируемое обучение представлениям |
| Образование | Учился в Инженерном колледже Олин (2011–2014, степень не получена) |
| Веб-сайт | newmu.github.io |
| X / Twitter | @AlecRad |
| GitHub | Newmu |
| Google Scholar | Алек Рэдфорд |
Обзор
Алек Рэдфорд — американский исследователь ИИ, который, не имея степени бакалавра и, по большей части, официальной академической подготовки, написал в качестве автора или соавтора серию статей — DCGAN (2015), GPT-1 (2018), GPT-2 (2019), CLIP (2021) и Whisper (2022), — которые по отдельности и в совокупности изменили то, на что способны системы ИИ. Он проработал в OpenAI около восьми лет, прежде чем покинуть её в декабре 2024 года, чтобы заняться независимыми исследованиями, и с тех пор присоединился к Thinking Machines Lab в качестве консультанта. Генеральный директор OpenAI Сэм Альтман публично назвал его «гением уровня Эйнштейна» и приписал ему создание «GPT-1 и последующих версий»; исследователь Джефф Клюн назвал его «отцом современного генеративного ИИ». Он является одним из самых необычайно продуктивных исследователей в истории машинного обучения, учитывая его формальные регалии и публичный профиль — он редко даёт интервью, удалил большую часть своей публичной истории в социальных сетях и в основном действует через свои научные работы.
Ранние годы и образование
Рэдфорд вырос в пригороде агломерации Даллас-Форт-Уэрт в Техасе. Он учился в подготовительной школе Цистерцианского аббатства в Ирвинге, частной католической школе, которую окончил в 2011 году и за это время достиг звания разведчика-орла. Он поступил в Инженерный колледж Олин — небольшое, очень престижное инженерное училище примерно на 400 студентов недалеко от Бостона, штат Массачусетс, — где быстро увлёкся машинным обучением. В Olin он стал соучредителем стартапа Indico вместе с однокурсниками Слейтером Виктороффом, Дианой Юань и Мэдисон Мэй, создавая инструменты обработки естественного языка с помощью нейронных сетей в то время, когда большинство специалистов в этой области считали такой подход непрактичным. Он бросил колледж Olin в августе 2014 года, чтобы работать над Indico полный рабочий день, и с тех пор не получал формального образования.
Карьера
Indico — Соучредитель (2013–2016)
Рэдфорд стал соучредителем Indico, работая из комнаты общежития колледжа Олин, и компания стала ранним коммерческим применением глубокого обучения для NLP. В 2015 году к команде присоединился пятый участник — Люк Мец. Самым значительным результатом Рэдфорда в период Indico стала статья DCGAN (конец 2015 года), написанная им в соавторстве с Луком Мецем (Indico) и Сумитом Чинтала из Facebook AI Research. Чинтала заметил, что Рэдфорд опубликовал, возможно, первое в истории изображение, созданное GAN, в Twitter в июле 2015 года, и связался с ним для сотрудничества.
В статье DCGAN („Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks“, ICLR 2016) были представлены архитектурные ограничения — свертки с шагом вместо объединяющих слоёв, пакетная нормализация, активации ReLU и Leaky ReLU, — которые стабилизировали обучение GAN и впервые позволили получать фотореалистичные образцы изображений в масштабе. Эта работа была широко принята как стандартная архитектура GAN в последующие несколько лет. В апреле 2016 года Дженсен Хуанг продемонстрировал изображения, созданные GAN, в ключевом докладе Nvidia, приписав технологию лаборатории Янна Лекуна; команда Indico, которая на самом деле провела лежащее в основе исследование, не получила упоминания. По словам Виктороффа, это упущение «сразило» команду.
OpenAI — Научный сотрудник (2016–2024)
Рэдфорд присоединился к OpenAI примерно в 2016 году и провёл там восемь лет, будучи одним из самых стабильно влиятельных исследователей, внося вклад в четыре различные модальности за этот период.
Unsupervised Sentiment Neuron (2017). Первый крупный результат Рэдфорда в OpenAI был получен благодаря исследованию, а не проектированию. После того как ранние эксперименты по обучению языковых моделей на больших наборах данных Reddit не принесли полезных результатов, он обучил мультипликативную LSTM на корпусе отзывов на продукты Amazon. Изучая внутренности модели, он обнаружил один нейрон, который спонтанно научился кодировать тональность отзыва, не проходя обучение на этом сигнале. Это открытие убедило Илью Суцкевера, тогдашнего научного руководителя OpenAI, в том, что достаточно большая модель, обученная на разнородных языковых данных, может научиться кодировать гораздо более структурированные представления смысла — концептуальный предшественник программы GPT.
GPT-1 (2018). Статья „Improving Language Understanding by Generative Pre-Training“ представила подход генеративного предварительного обучения для языковых моделей: обучение декодер Transformer на больших неконтролируемых текстовых корпусах, а затем тонкая настройка с минимальным количеством специальных данных для задач. Статья показала, что одна предварительно обученная модель может достичь самых современных результатов на разнообразных задачах NLP после тонкой настройки, установив шаблон для всех последующих моделей семейства GPT. Рэдфорд был ведущим автором.
GPT-2 (2019). Статья „Language Models are Unsupervised Multitask Learners“ совместно с Джеффом Ву, Риуоном Чайлдом, Дэвидом Луаном, Дарио Амодеи и Ильёй Суцкевером масштабировала подход GPT до 1,5 миллиардов параметров и показала, что при достаточном масштабе языковая модель, обученная только на предсказании следующего токена, начинает хорошо справляться с задачами, на которых её никогда специально не обучали — результат нулевого обобщения. Необычное решение OpenAI о поэтапном выпуске GPT-2 из-за опасений по поводу неправомерного использования привлекло значительное внимание общественности и вызвало дискуссии об ответственном раскрытии информации в исследованиях ИИ. Рэдфорд был ведущим автором.
CLIP (2021). Статья „Learning Transferable Visual Models From Natural Language Supervision“, написанная с большой командой соавторов, представила контрастивное предварительное обучение языку и изображениям (Contrastive Language-Image Pre-training): совместное обучение энкодера изображений и текстового энкодера для предсказания того, какие изображения и текстовые описания образуют пары, с использованием 400 миллионов пар изображение-текст из интернета. CLIP изучил визуальные представления исключительной обобщающей способности, позволяя осуществлять перенос с нулевым обучением на широкий круг задач классификации изображений, поиска и описания без специализированных обучающих данных. Он стал основополагающим слоем представления „зрение-язык“ для DALL-E и целого поколения моделей преобразования текста в изображение.
DALL-E (2021). Рэдфорд был одним из авторов DALL-E, первой системы OpenAI для генерации изображения из текста, которая объединяет представления CLIP с авторегрессионной моделью генерации изображений для создания новых изображений по описаниям на естественном языке.
Whisper (2022). Статья „Robust Speech Recognition via Large-Scale Weak Supervision“ обучила Transformer типа „sequence-to-sequence“ на 680 000 часах многоязычных, многозадачных аудиоданных из интернета — наборе данных на порядок больше, чем всё, что использовалось в предыдущих исследованиях ASR, — и достигла надёжной транскрипции на разных языках, с разными акцентами и в различных акустических условиях без специализированной тонкой настройки. Рэдфорд руководил проектом. OpenAI выпустила веса и код модели Whisper с открытым исходным кодом, сделав современную технологию распознавания речи свободно доступной. Whisper получила широкое распространение и стала основой для многочисленных инструментов транскрипции.
Уход (декабрь 2024 года). В декабре 2024 года Рэдфорд сообщил коллегам, что покидает OpenAI, чтобы заняться независимыми исследованиями. Он указал, что планирует сотрудничать с OpenAI и другими разработчиками ИИ. Об его уходе сообщалось одновременно с уходом других ведущих исследователей в период, связанный с структурными изменениями в OpenAI.
Независимые исследования и консультирование в Thinking Machines Lab (2025–настоящее время)
После своего ухода Рэдфорд занимается независимыми исследованиями. Примерно в марте 2025 года он присоединился к Thinking Machines Lab, исследовательскому стартапу в области ИИ Миры Мурати, в качестве консультанта — вместе с бывшим главным научным сотрудником OpenAI Бобом МакГрю. Характер его независимой исследовательской программы не был раскрыт публично.
Ключевые достижения
-
DCGAN (ICLR 2016) — „Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks“ в соавторстве с Луком Мецем и Сумитом Чинтала. Представлен архитектурный рецепт, который впервые сделал обучение GAN стабильным и практичным, позволив создавать фотореалистичный синтез изображений в масштабе. Стал стандартным базовым уровнем для GAN на несколько лет и утвердил Рэдфорда как значимого исследователя ещё до того, как он получил какую-либо официальную принадлежность к крупной лаборатории.
-
Unsupervised Sentiment Neuron (2017) — Обнаружено, что LSTM, обученная на отзывах о продуктах Amazon, спонтанно развила один нейрон, кодирующий тональность, без специального обучения. Результат повлиял на мнение Ильи Суцкевера о том, что большие неконтролируемые модели могут изучать богатые семантические структуры, что непосредственно мотивировало программу GPT.
-
GPT-1 (2018) — „Improving Language Understanding by Generative Pre-Training“. Установил парадигму генеративного предварительного обучения и тонкой настройки для конкретных задач, которая стала шаблоном для всех последующих больших языковых моделей. Ведущий автор.
-
GPT-2 (2019) — „Language Models are Unsupervised Multitask Learners“. Продемонстрировал многозадачное обобщение с нулевым обучением с 1,5 миллиардами параметров и представил масштабированное причинное языковое моделирование как универсальное предварительное обучение для NLP. Одна из самых влиятельных статей в истории ИИ, на которую напрямую ссылаются в линии GPT-3 и InstructGPT. Ведущий автор.
-
CLIP (2021) — „Learning Transferable Visual Models From Natural Language Supervision“. Ввел контрастивное предварительное обучение зрение-язык в масштабе, создав очень общие визуальные представления, которые переносятся с нулевым обучением на самые разные задачи. Основополагающий для генерации изображений из текста, мультимодального ИИ и, в более широком смысле, зрения с нулевым обучением.
-
Whisper (2022) — „Robust Speech Recognition via Large-Scale Weak Supervision“. Обучил сквозную систему ASR на 680 000 часах многоязычного веб-аудио, достигнув надежной многоязычной транскрипции без тонкой настройки. Выпущен с открытым исходным кодом, став самой широко используемой открытой системой распознавания речи в мире.
Награды и признание
- Основание линии GPT — Сэм Альтман публично приписывает Рэдфорду создание „GPT-1 и последующих версий“, лично приписывая ему основополагающую программу языковой модели.
- „Отец современного генеративного ИИ“ — Характеристика, данная Джеффом Клюном, видным исследователем ИИ, отражающая совокупное влияние работы Рэдфорда от DCGAN до GPT и CLIP.
- Профиль цитирования в Google Scholar — Одна лишь статья CLIP набрала более 30 000 цитирований; GPT-2 и DCGAN привлекли десятки тысяч цитирований каждая, что ставит Рэдфорда в ряд самых цитируемых исследователей ИИ своего поколения.
Ключевые отношения
- Илья Суцкевер — Самые значимые профессиональные отношения в карьере Рэдфорда. Суцкевер завербовал его в OpenAI, а открытие Sentiment Neuron напрямую повлияло на интуицию Суцкевера относительно потенциала крупномасштабного неконтролируемого языкового моделирования. Их интеллектуальное единство способствовало программе GPT.
- Люк Мец — Соучредитель Indico и соавтор DCGAN; давний коллаборатор, позже работавший в Google Brain, а затем ставший соучредителем Thinking Machines Lab — компании, которую Рэдфорд теперь консультирует.
- Сумит Чинтала — Инженер Facebook AI Research, который связался с Рэдфордом после того, как увидел его ранние эксперименты с GAN в Twitter; соавтор DCGAN; их сотрудничество показало, как неформальная активность с открытым исходным кодом может привести к основополагающим исследованиям.
- Джефф Ву, Риуон Чайлд, Дэвид Луан, Дарио Амодеи — Соавторы GPT-2; основная команда, стоящая за статьёй, которая установила масштабированное причинное языковое моделирование как универсальный подход.
- Сэм Альтман — Генеральный директор OpenAI, который публично приписал исключительное значение вкладу Рэдфорда; они оставались вместе в OpenAI на протяжении всего восьмилетнего пребывания Рэдфорда.
- Мира Мурати — Бывший технический директор OpenAI, ныне генеральный директор Thinking Machines Lab, где Рэдфорд работает консультантом; их сотрудничество продолжает роль Рэдфорда в исследовательской экосистеме после OpenAI.
- Слейтер Викторофф, Диана Юань, Мэдисон Мэй — Однокурсники по колледжу Olin и соучредители Indico, создавшие среду, в которой проводились ранние исследования Рэдфорда по GAN.
Личный стиль
Рэдфорд является необычным среди исследователей его уровня из-за своей почти полной публичной замкнутости. Он удалил историю своей учетной записи в Twitter/X как минимум до апреля 2019 года, редко даёт публичные доклады или интервью, и у него нет личного блога или записей публичных выступлений, за исключением небольшого числа институциональных видео. Его влияние осуществляется почти полностью через сами научные работы и описания коллег. В OpenAI он был известен своим глубоко эмпирическим, исследовательским подходом — проведение экспериментов, изучение внутренностей модели на предмет неожиданной структуры и построение интуиции на основе того, что показывают модели, а не на основе нисходящих теоретических рамок. История с Sentiment Neuron, в которой он обнаружил эмерджентное представление тональности через любопытное изучение модели, обученной совершенно для другой цели, характерна. Он продуктивно работал в области зрения, языка и аудио, не замыкаясь в одной специализации, следуя за неожиданными результатами, куда бы они ни вели. Сочетание высокой продуктивности, низкого профиля и отсутствия формальных полномочий делает его по-настоящему аномальной фигурой в исследовательском ландшафте.
Ссылки
- Википедия: Алек Рэдфорд
- Личный сайт: newmu.github.io
- GitHub: github.com/Newmu
- Google Scholar: scholar.google.com
- Профиль IQ.wiki: iq.wiki/wiki/alec-radford
- Boston Globe (2023): bostonglobe.com
- Профиль The Atlantic (2023): theatlantic.com
- The Information (Декабрь 2024): сообщение об уходе
- TechCrunch (Апрель 2025): Назначение консультантом в Thinking Machines Lab
- Профиль Digg: digg.com/u/x/alecrad