アレック・ラドフォード

アメリカ出身の独学のAI研究者で、大学を中退しながらも、OpenAIでの基礎研究 — DCGAN、GPTシリーズ、CLIP、Whisper — によって、現代のAIの多くを支える生成的プレトレーニングというパラダイムを確立した人物。


プロフィール

生誕 1993年4月、アメリカ合衆国テキサス州
国籍 アメリカ合衆国
現在の所属機関 独立研究者;Thinking Machines Lab(アドバイザー)
研究分野 生成モデル、大規模言語モデル、マルチモーダル学習、音声認識、教師なし表現学習
学歴 オーリン工科大学在学(2011~2014年、学位なし)
ウェブサイト newmu.github.io
X / Twitter @AlecRad
GitHub Newmu
Google Scholar Alec Radford

概要

アレック・ラドフォードは、学士号を持たず、正式なアカデミックな訓練もほとんど受けていないにもかかわらず、DCGAN(2015年)、GPT-1(2018年)、GPT-2(2019年)、CLIP(2021年)、Whisper(2022年)という一連の論文を単独あるいは共同で執筆し、それらの論文が個別にも全体としてもAIシステムの能力を一変させたアメリカのAI研究者である。彼は約8年間OpenAIに在籍した後、2024年12月に独立した研究を追求するために退社し、その後Thinking Machines Labのアドバイザーに就任した。OpenAIのCEOであるサム・アルトマンは公の場で彼を「アインシュタイン級の天才」と呼び、「GPT-1以降」の生みの親であると評価している。また、研究者のジェフ・クラウンは彼を「現代の生成AIの父」と呼んでいる。彼は、機械学習の歴史において、その正式な資格や公的なプロフィールに対して異常なほど生産的な研究者の一人である。彼はインタビューに応じることは滅多になく、公開されているソーシャルメディアの履歴のほとんどを削除し、主に論文自体を通じて活動している。


生い立ちと教育

ラドフォードはテキサス州ダラス・フォートワース大都市圏の郊外で育った。アーヴィングにあるカトリック系の独立学校、シスタシアン・プレパラトリー・スクールに通い、2011年に卒業。その間、イーグルスカウトの称号を取得した。彼はマサチューセッツ州ボストン郊外にある、学生数約400人の小規模で選抜性の高い工学専門学校、オーリン工科大学に入学し、すぐに機械学習に傾倒した。オーリン在学中、クラスメートのスレイター・ビクトロフ、ダイアナ・ユアン、マディソン・メイとともにスタートアップのIndicoを共同設立し、当時はほとんどの分野で実用的ではないと考えられていたアプローチであるニューラルネットワークを用いた自然言語処理ツールを構築した。彼は2014年8月にオーリン大学を中退し、Indicoに専念するようになり、その後は正式な学位を取得していない。


経歴

Indico — 共同創業者(2013~2016年)

ラドフォードはオーリン大学の寮の部屋からIndicoを共同設立し、同社はNLPにおけるディープラーニングの初期の商業的応用例となった。2015年にはルーク・メッツが5人目のメンバーとして加わった。ラドフォードがIndico在籍期間に生み出した最も重要な成果は、メッツ(Indico)およびFacebook AI Researchのスミット・チンタラと共同執筆したDCGAN論文(2015年終盤)である。チンタラは、ラドフォードが2015年7月にツイッターに投稿した、おそらく史上初のGANによる生成画像に気づき、協力を呼びかけた。

DCGAN論文(「Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks」、ICLR 2016)では、プーリング層をストライド畳み込みに置き換え、バッチ正規化、ReLUおよびLeaky ReLU活性化関数を導入するというアーキテクチャ上の制約を導入し、これによりGANの学習が安定し、初めて大規模にフォトリアリスティックな画像サンプルを生成できるようになった。この研究は、その後数年間、標準的なGANアーキテクチャとして広く採用された。2016年4月、ジェンセン・フアンはNvidiaの大規模基調講演でGANによる生成画像を披露し、その技術をヤン・ルカンの研究室の功績と称した。しかし、実際に基礎研究を行ったIndicoチームは一切のクレジットを得られなかった。ビクトロフによると、この見落としはチームの士気を「打ちのめした」という。

OpenAI — 研究科学者(2016~2024年)

ラドフォードは2016年頃にOpenAIに加わり、8年間にわたって最も一貫して影響力のある研究者の一人として、その期間に4つの異なるモダリティに貢献した。

教師なし感情ニューロン(2017年)。 ラドフォードのOpenAIでの最初の大きな成果は、設計よりも探索によって発見された。Redditの大規模データセットで言語モデルを学習させる初期の実験が実用的な結果を生まなかった後、彼はアマゾンの製品レビューのコーパスで乗法的LSTMを学習させた。モデルの内部を調べたところ、明示的に感情という信号について教師あり学習をしていないにもかかわらず、感情をエンコードすることを自発的に学習した単一のニューロンを発見した。この発見は、当時OpenAIのチーフサイエンティストだったイリヤ・サツケバーに、多様な言語データで学習された十分に大規模なモデルは、意味のはるかに構造化された表現をエンコードすることを学習できるという確信を与えた。これはGPT計画の概念的な前兆となるものだった。

GPT-1(2018年)。 「言語理解の改善のための生成的プレトレーニング」では、言語モデルのための生成的プレトレーニングアプローチを導入した。つまり、大規模な教師なしテキストコーパスでTransformerデコーダーを学習させ、その後、タスク固有のデータを最小限にしてファインチューニングするという方法である。この論文は、単一のプレトレーニング済みモデルが、ファインチューニングによって多様なNLPベンチマークで最先端の結果を達成できることを実証し、その後のすべてのGPTファミリーモデルのテンプレートを確立した。ラドフォードが筆頭著者である。

GPT-2(2019年)。 「言語モデルは教師なしのマルチタスク学習者である」は、ジェフ・ウー、リウォン・チャイルド、デビッド・ルアン、ダリオ・アモデイ、イリヤ・サツケバーとの共著で、GPTアプローチを15億パラメータにスケールし、十分な規模であれば、次トークン予測のみで学習された言語モデルが、明示的に学習したことのないタスクでも良好に機能し始めること(ゼロショット汎化結果)を実証した。誤用の懸念からGPT-2のリリースを段階的に行うというOpenAIの異例の決定は、AI研究における責任ある開示について、かなりの世間の注目と議論を呼んだ。ラドフォードが筆頭著者である。

CLIP(2021年)。 「自然言語の監視から転移可能な視覚モデルを学習する」は、大規模な共著チームによるもので、対照的な言語-画像プレトレーニングを導入した。つまり、400万の画像とテキストのペアを使用して、視覚エンコーダとテキストエンコーダを共同で学習させ、どの画像とテキストの説明がペアになっているかを予測させるものである。CLIPは例外的に汎用性の高い視覚表現を学習し、タスク固有の学習データを必要とせずに、広範囲の画像分類、検索、キャプション生成タスクへのゼロショット転移を可能にした。これはDALL-Eや世代のテキストから画像へのモデルにとって基礎となる視覚-言語表現層となった。

DALL-E(2021年)。 ラドフォードは、OpenAI初のテキストから画像への生成システムであるDALL-Eの貢献者の一人であり、CLIP表現と自己回帰画像生成モデルを組み合わせて、自然言語の説明から新しい画像を生成した。

Whisper(2022年)。 「大規模な弱い監視によるロバストな音声認識」は、ウェブから収集した68万時間の多言語・マルチタスク音声データ(従来のASR研究で使用されたどのデータセットよりも一桁大きいデータセット)でシーケンス・トゥ・シーケンスTransformerを学習させ、タスク固有のファインチューニングなしで、言語、アクセント、音響条件を超えたロバストな文字起こしを達成した。ラドフォードがプロジェクトを主導した。OpenAIはWhisperのモデルの重みとコードをオープンソースとして公開し、最先端の音声認識を自由に利用できるようにした。Whisperは広く採用され、数多くの下流の文字起こしツールの基礎となっている。

退社(2024年12月)。 2024年12月、ラドフォードは同僚にOpenAIを離れて独立した研究を行うと伝えた。彼はOpenAIや他のAI開発者と協力する計画があることを示唆した。彼の退社は、OpenAIの組織的変革期における他の上級研究者の退社と同時期に報じられた。

独立研究とThinking Machines Labアドバイザー(2025年~現在)

退社後、ラドフォードは独立した研究を行っている。2025年3月頃、彼はミラ・ムラティのAI研究スタートアップであるThinking Machines Labに、元OpenAI最高研究責任者のボブ・マクグリューとともにアドバイザーとして加わった。彼の独立した研究課題の内容は公には明らかにされていない。


主な貢献

  • DCGAN(ICLR 2016) — 「教師なし表現学習のための深層畳み込み生成敵対的ネットワーク」、ルーク・メッツ、スミット・チンタラとの共著。GANの学習を初めて安定させ実用的にするアーキテクチャ上のレシピを導入し、大規模なフォトリアリスティックな画像合成を実現した。その後数年間、標準的なGANのベースラインとなり、ラドフォードが主要な研究所に正式に所属する以前から、彼を有力な研究者として確立させた。

  • 教師なし感情ニューロン(2017年) — アマゾンの製品レビューで学習されたLSTMが、明示的な教師なしで感情をエンコードする単一のニューロンを自発的に発達させることを発見。この結果は、大規模な教師なしモデルが豊かな意味構造を学習できるというイリヤ・サツケバーの信念に影響を与え、GPT計画を直接的に動機づけた。

  • GPT-1(2018年) — 「言語理解の改善のための生成的プレトレーニング」。その後のすべての大規模言語モデルのテンプレートとなる、生成的プレトレーニングとタスク固有のファインチューニングというパラダイムを確立。筆頭著者。

  • GPT-2(2019年) — 「言語モデルは教師なしのマルチタスク学習者である」。15億パラメータでのゼロショットマルチタスク汎化を実証し、スケールされた因果的言語モデリングを普遍的なNLPプレトレーニング目標として導入。AI史上最も影響力のある論文の一つであり、GPT-3およびInstructGPTの系譜に直接引用されている。筆頭著者。

  • CLIP(2021年) — 「自然言語の監視から転移可能な視覚モデルを学習する」。大規模な対照的視覚-言語プレトレーニングを導入し、多様なタスクにゼロショットで転移する高度に汎用的な視覚表現を生成。テキストから画像への生成、マルチモーダルAI、そしてより広範なゼロショットビジョンの基礎となる。

  • Whisper(2022年) — 「大規模な弱い監視によるロバストな音声認識」。68万時間の多言語ウェブ音声でエンドツーエンドのASRシステムを学習させ、ファインチューニングなしでロバストな多言語文字起こしを達成。オープンソースとして公開され、世界で最も広く使用されているオープン音声認識システムとなった。


受賞と評価

  • 基礎的なGPTの系譜 — サム・アルトマンは公の場でラドフォードを「GPT-1以降」の生みの親と評価し、基礎的な言語モデル計画を個人的に彼の功績としている。
  • 「現代の生成AIの父」 — 著名なAI研究者であるジェフ・クラウンによる特徴づけ。DCGANからGPT、CLIPに至るラドフォードの研究の累積的な影響を反映している。
  • Google Scholar被引用プロファイル — CLIP論文だけでも3万件以上の被引用数を記録。GPT-2とDCGANもそれぞれ数万件の被引用数を集めており、ラドフォードは同世代のAI研究者の中で最も多く引用される研究者の一人に位置づけられている。

主要な関係者

  • イリヤ・サツケバー — ラドフォードのキャリアの中で最も重要な仕事上の関係。サツケバーは彼をOpenAIに引き抜き、感情ニューロンの発見は大規模な教師なし言語モデリングの可能性に関するサツケバーの直感に直接影響を与えた。彼らの知的連携がGPT計画を推進した。
  • ルーク・メッツ — Indicoの共同創業者でありDCGANの共著者。長年にわたる共同研究者で、後にGoogle Brainで働き、その後ラドフォードが現在アドバイザーを務めるThinking Machines Labの共同創業者となった。
  • スミット・チンタラ — Facebook AI Researchのエンジニア。ラドフォードの初期のGAN実験をTwitterで見て連絡を取り、DCGANを共同執筆。彼らの協力は、非公式なオープンソースの活動が基礎研究を生み出し得ることを示した。
  • ジェフ・ウー、リウォン・チャイルド、デビッド・ルアン、ダリオ・アモデイ — GPT-2の共著者。スケールされた因果的言語モデリングを普遍的なアプローチとして確立した論文のコアチーム。
  • サム・アルトマン — OpenAIのCEO。公の場でラドフォードの貢献に特別な地位を与えている。ラドフォードの8年間の在籍期間中、二人は共にOpenAIに留まった。
  • ミラ・ムラティ — 元OpenAIのCTO、現在はThinking Machines LabのCEOであり、ラドフォードはアドバイザーを務めている。彼らの協力関係は、ポストOpenAIの研究エコシステムにおけるラドフォードの役割を継続している。
  • スレイター・ビクトロフ、ダイアナ・ユアン、マディソン・メイ — オーリン大学のクラスメートでありIndicoの共同創業者。ラドフォードの初期のGAN研究が行われた環境を形成した。

人物像

ラドフォードは、その地位にある研究者としては異例なほど、公の場ではほぼ完全に沈黙している。少なくとも2019年4月までのTwitter/Xアカウントの履歴を削除し、公の講演やインタビューに応じることは滅多になく、個人のブログも持たず、録画された公の場への登場は少数の機関のビデオのみである。彼の影響力は、ほとんど専ら論文自体と、同僚による彼の描写を通じて発揮されている。OpenAI内部では、彼は深く経験的で探索的なアプローチで知られていた。つまり、実験を試し、モデルの内部を調べて予期せぬ構造を探り、トップダウンの理論的枠組みではなく、モデルが明らかにするものから直感を構築するというアプローチである。感情ニューロンの話は、全く異なる目的で学習されたモデルを好奇心を持って調べた結果、創発的な感情表現を発見したというものであり、彼の特徴をよく表している。彼は視覚、言語、音声にわたって生産的に研究を行い、単一の専門分野に留まることなく、予期せぬ結果をどこまでも追求してきた。高いアウトプット、低いプロフィール、そして正式な資格がないことの組み合わせは、彼を研究環境において真に異例な人物にしている。


参考文献