ドイツ出身のAI安全性研究者。AnthropicのAlignment Scienceチームを率いる。人間からのフィードバックによる強化学習(RLHF)の共同プロトタイピングと、安全性への懸念からOpenAIを公開辞任したことで知られる。
プロフィール
| 生年月 | 1986年または1987年、ドイツ |
| 国籍 | ドイツ |
| 現在の所属機関 | Anthropic(Alignment Scienceチームリーダー) |
| 研究分野 | AIアライメント、人間からのフィードバックによる強化学習(RLHF)、スケーラブルな監視、弱から強への一般化、自動化されたアライメント研究 |
| 博士課程指導教官 | Marcus Hutter |
| 博士論文 | Nonparametric General Reinforcement Learning(オーストラリア国立大学、2016年) |
| 個人ウェブサイト | jan.leike.name |
| ブログ | aligned.substack.com |
| X / Twitter | @janleike |
| GitHub | janleike |
| Google Scholar | Jan Leike |
概要
Jan Leikeは、AIアライメントの歴史において最も重要な研究者の一人であり、基礎理論と最先端システムの研究の交点という稀有な位置を占めている。DeepMindの研究者として、彼は人間からのフィードバックによる強化学習(RLHF)を共同プロトタイピングした。これは現代の整合的な言語モデルのバックボーンとなった技術である。OpenAIではIlya Sutskeverと共にSuperalignmentチームを共同で率い、InstructGPT、ChatGPT、GPT-4のアライメントを監督し、超知能システムのアライメントに関する同分野で最も著名な研究ロードマップを共同執筆した。2024年5月のOpenAI辞任は、安全性文化が「派手な製品に後回しにされた」とする公開声明を伴い、AI安全性の公の歴史における決定的な瞬間の一つとなった。その後すぐにAnthropicに加わり、Alignment Scienceチームを率いている。TIME誌は、2023年と2024年の両方で、AI分野で最も影響力のある100人の一人に彼を選出した。
生い立ちと教育
Leikeはドイツで育った。フライブルク大学で学士号を取得し、コンピューターサイエンスの修士号を取得後、Marcus Hutterの指導の下、オーストラリア国立大学で機械学習の博士号を取得した。Hutterは、普遍的に知的なエージェントの理論モデルであるAIXIの考案者であり、Leikeの博士研究の知的枠組み——ノンパラメトリック一般強化学習——は、Hutterが先駆けたアルゴリズム情報理論の伝統に根ざしている。彼の博士論文『Nonparametric General Reinforcement Learning』(2016年)は、パラメトリックな仮定なしに環境におけるRLエージェントの理論的限界に関する根本的な問題を取り扱った。
博士号取得後、Leikeはオックスフォード大学人間の未来研究所で6ヶ月間の博士研究員として研究し、その後DeepMindに加わり経験的AI安全性研究に注力した。
経歴
DeepMind(2016年頃~2021年)
ロンドンのDeepMind安全性チームで、Leikeは人間からのフィードバックによる強化学習をプロトタイピングした。画期的な論文『Deep Reinforcement Learning from Human Preferences』(NeurIPS 2017年)は、Paul Christiano、Tom Brown、Miljan Martic、Shane Legg、Dario Amodeiとの共同執筆で、人手で指定された報酬関数ではなく、軌跡セグメント間の非専門家による人間の比較を用いてRLエージェントを訓練することを提案した。この論文は、従来人間からのフィードバックで学習されたどの環境よりもかなり複雑な環境において、約1時間の人間の時間で複雑な新しい行動を学習できることを実証した。この研究によりRLHFは実用的なアライメント技術として確立され、後にInstructGPT、ChatGPT、Claudeの中核的方法論となった。
この時期、LeikeはDavid Krueger、Tom Everitt、Shane Leggとの共著『Scalable Agent Alignment via Reward Modeling: A Research Direction』(2018年)も発表し、反復的な報酬モデリングによるアライメントのスケーリングのための研究プログラムを概説した。これは後にSuperalignment計画となるものの初期の形式的な明確化であった。
OpenAI(2021年~2024年5月)
Leikeは2021年にアライメント責任者としてOpenAIに加わった。彼はInstructGPT、ChatGPTの開発、GPT-4のアライメントに関与し、InstructGPT論文(NeurIPS 2022年)の共著者である。この論文は、教師ありファインチューニングとそれに続くRLHF訓練を導入し、人間の指示によりよく従うモデルを生成した。
2023年6月、彼とIlya Sutskeverは新たに導入されたSuperalignmentプロジェクトの共同リーダーとなり、4年以内に将来の人工超知能をどのようにアライメントするかを決定することを目指した。このプロジェクトは、OpenAIが計算資源の20%をSuperalignment研究に割り当てるという公約と共に発表された。Leikeはまた、OpenAIのアライメント研究へのアプローチを開発し、Superalignmentチームの研究ロードマップを共同執筆した。
辞任。 2024年5月、LeikeはIlya Sutskeverの辞任から数時間以内にOpenAIを辞任した。Xでの公開辞任声明は異例なほど直接的なものだった。彼はOpenAIとそのリーダーたちが派手な製品を優先して安全性文化を軽視していると非難し、「かなり長い間、会社の中核的優先事項についてOpenAIの指導部と意見が一致しておらず、ついに限界点に達した」と述べた。彼は「人間より賢い機械を構築することは本質的に危険な試みである」と書き、「OpenAIは安全性第一のAGI企業にならなければならない」と記した。彼は自身のチームが「逆風の中を航海して」おり、OpenAIの公約にもかかわらず計算資源の確保に苦労していたと指摘した。数日以内に、OpenAIはSuperalignmentチームを完全に解散し、メンバーを他の研究グループに再配置した。
Anthropic(2024年5月~現在)
2024年5月、Leikeは元OpenAI社員によって設立されたAI企業Anthropicに加わった。彼はAlignment Scienceチームを率いており、人間による評価が難しい、または不十分なタスクにおいてAIシステムが意図された通りに動作するようにするための、最も難しい未解決問題に取り組んでいる。彼のチームは、自動化されたアライメント研究者をどうアライメントするか、スケーラブルな監視、弱から強への一般化、脱獄に対する堅牢性について研究している。
主な貢献
-
Deep Reinforcement Learning from Human Preferences(NeurIPS 2017年)——DeepMindでのPaul Christiano、Tom Brown、Miljan Martic、Shane Legg、Dario Amodeiとの共著。この論文はRLHFの実用的なバージョンを導入し、軌跡セグメントの非専門家による人間の比較からエージェントを訓練した。InstructGPT、ChatGPT、Claudeなどを含む現代の大規模言語モデルのアライメントの方法論的基盤となった。
-
Scalable Agent Alignment via Reward Modeling(2018年)——Krueger、Everitt、Martic、Maini、Leggとの共著。反復的な報酬モデリングをスケーラブルなアライメントへの道筋として体系的な研究計画を概説。後にSuperalignment計画の基盤となる初期の設計図。
-
InstructGPT – Training Language Models to Follow Instructions with Human Feedback(NeurIPS 2022年)——InstructGPTを導入した論文のシニア著者。教師ありファインチューニングとRLHFを組み合わせ、人間の意図と大幅に良く整合した言語モデルを生成。この研究はChatGPTの開発を直接可能にした。
-
Superalignment Research Roadmap(2023年)——Ilya Sutskeverとの共同リーダーシップ。現在または近い将来のAIを用いてアライメント研究を自動化することで、4年以内に超知能システムをアライメントするための技術計画を共同執筆。中核的な技術的アプローチとして弱から強への一般化の概念を導入。
-
Weak-to-Strong Generalisation(ICML 2024年)——Collin Burns、Pavel Izmailov、Jan Hendrik Kirchner、およびIlya Sutskeverらとの共著。弱いモデルによる監視を用いて、より強力なモデルの強力な能力を引き出せることを提案し、実証した。これは監督者よりも賢いシステムをアライメントするための重要なメカニズムである。
-
LLM Critics Help Catch LLM Bugs(2024年)——OpenAIアライメントチームによる最初の研究で、GPT-4が自身の出力の誤りを有意な割合で特定できることを実証し、スケーラブルな監視研究プログラムに貢献。
-
Aligned Substack——Leikeがアライメントの概念についてアクセスしやすい論考を公開する活発な研究ブログ。「アライメントの難しい問題」、スケーラブルな監視、自動化されたアライメント研究に関する基礎的なエッセイを含み、この分野の概念的語彙の形成に影響力を持つ。
受賞と認知
- TIME100 AI(2023年および2024年)——両方の版に掲載された非常に少数の研究者の一人。AIアライメント研究への貢献と、安全性リスクに関する公の率直な意見について評価。
- 公開辞任声明(2024年5月)——AI安全性の公の歴史における分水嶺の瞬間として広く記述され、主要メディアで世界的に報じられ、最先端AI研究所内の安全性文化の議論の可視性を高めたと評価されている。
主要な関係性
- Marcus Hutter——オーストラリア国立大学での博士課程指導教官。AIXIと理論的普遍知能フレームワークの考案者であり、これがLeikeのノンパラメトリック一般RLに関する初期の研究を形成した。
- Paul Christiano——2017年RLHF論文の主たる共著者。後にAlignment Research Center(ARC)、次いで機構的解釈可能性とアライメントチームを設立。Leikeのキャリアにおいて最も密接な知的協力者の一人。
- Shane Legg——2017年RLHF論文と2018年報酬モデリング論文の両方の共著者。DeepMind共同創業者。LeikeのDeepMindでの研究はLeggの安全性の領域内で行われた。
- Dario Amodei——2017年RLHF論文の共著者(当時OpenAI)。現在はAnthropicのCEOであり、LeikeがOpenAI辞任後に加わった組織。彼らの研究協力は、この10年のAI安全性の物語を象徴している。
- Ilya Sutskever——Superalignmentチームの共同リーダー。2024年5月のほぼ同時期のOpenAI退社は、この分野の歴史において、最先端のAI研究所からの最も注目を集めた安全性重視の退職となった。
- Sam Altman——OpenAIのCEO。Leikeが会社の安全性優先事項に関して「限界点」に達した相手。この公の意見の不一致は、最先端研究所におけるガバナンスと価値観に関するより広範な議論を具体化した。
個人のスタイル
Leikeの公の発言は、商業的に競争の激しい業界の上級担当者としては異例なほど直接的で原則に基づいている。2024年の辞任声明は、特定の組織的不備を公に匿名ではなく具体的に名指しすることを厭わない姿勢が珍しく、一貫したパターンを反映している。彼はAIアライメントをニッチな技術的関心事ではなく、文明上の義務として捉え、安全性に関する組織の信頼性は、ミッションステートメントによって主張されるのではなく、一貫した行動によって勝ち取られなければならないと扱っている。彼の研究執筆は技術的に正確だがアクセスしやすく、彼のSubstackブログはML実践者から政策志向の読者までを含む読者に向けてアライメントの概念を明確に述べている。彼のキャリアは、Marcus Hutterの下での理論的RLの基礎から、DeepMindでの経験的RLHFプロトタイピング、OpenAIでのシステムレベルのアライメント、そして現在のAnthropicへと一貫した糸をたどっている。常に抽象的な安全性の問いが展開されたシステムと出会う境界にある。
参考文献
- 個人ウェブサイト: jan.leike.name
- Wikipedia: en.wikipedia.org/wiki/Jan_Leike
- Google Scholar: scholar.google.com — Jan Leike
- アライメントブログ: aligned.substack.com
- Xプロフィール: digg.com/u/x/janleike
- TIME100 AI 2024: time.com/7012867/jan-leike
- RLHF論文(arXiv 1706.03741): arxiv.org/abs/1706.03741
- Crypto Briefing — 「Jan Leike、Anthropicのアライメントサイエンスチームを率いる」(2026年5月): cryptobriefing.com/jan-leike-anthropic-alignment-science
- OpenAI Superalignment発表(2023年6月): openai.com/blog/introducing-superalignment
- Fast Company — 辞任報道(2024年5月): fastcompany.com/91127491