DDIM(Denoising Diffusion Implicit Models)の発明者であり、Luma AIの元チーフサイエンティスト。加速拡散サンプリングに関する研究により、拡散モデルを学術的な好奇心から生成AI産業の原動力へと変貌させることに貢献した。
| 生誕 | 1994年頃、中国 |
| 国籍 | 中華人民共和国 |
| 現在の所属機関 | 独立研究者(2026年6月時点);元Luma AI(チーフサイエンティスト) |
| 研究分野 | 拡散モデル、スコアベース生成モデル、映像&マルチモーダル生成、ベイズ最適化、強化学習、模倣学習 |
| 博士課程指導教官 | Stefano Ermon |
| 博士論文 | 『教師あり学習による圧縮、生成、推論』(スタンフォード大学、2021年) |
| ウェブサイト | tsong.me |
| X / Twitter | @baaadas |
| GitHub | jiamings |
| Google Scholar | Jiaming Song — 引用数35,900以上 |
概要
Jiaming Song(宋嘉明)は、中国出身の生成AI研究者であり、DDIM(Denoising Diffusion Implicit Models)の開発者として最もよく知られている。DDIMは拡散モデルを実用的な規模で計算可能にする加速サンプラーであり、Stable Diffusion、DALL·E 2、Imagenなどのシステムで標準的な構成要素となっている。清華大学とスタンフォード大学でStefano Ermonの下で学び、深い確率論的理论とインパクトのある工学的洞察を組み合わせることで評判を築いた。スタンフォードでの博士研究員期間とNVIDIA Researchでの勤務を経て、Luma AIにチーフサイエンティストとして入社。同社では3D再構成から映像生成、統合マルチモーダルモデリングへと3度にわたるプロダクトの方向転換を研究チームとともに主導し、Dream Machine(Ray)映像モデルとUni-1マルチモーダル推論システムを生み出した。2026年半ばにLuma AIを退社し、次の動向は明らかにされていない。
生い立ちと教育
宋は清華大学で学部教育を受け、2012年から2016年にかけてコンピュータ科学技術の工学士号を取得。クラス内のトップ1%にあたる優秀栄誉賞を受賞し、計算機科学科の最高賞である鍾士模奨学金(トップ0.75%)、Google優秀奨学金(中国全土で58名に授与)、また卓越した研究に対してQualcomm奨学金も受賞した。早期からの才能は競技数学やコンピューティングでも発揮され、2011年の全国情報学オリンピックで銅賞、2015年の学際的モデリングコンテストで優秀優勝(トップ0.3%)を果たしている。学部在学中はデューク大学のInformation Initiativeに客員研究員として参加(2015年夏季)、時間的シグモイド信念ネットワークに取り組み、確率的生成モデルへの初期の方向性を示した。
2016年9月、宋はスタンフォード大学のコンピュータ科学博士課程に入学し、スタンフォードAIラボのStefano Ermon教授の研究グループに参加。博士論文『教師あり学習による圧縮、生成、推論』では、明示的な正規化を必要とせずに複雑な分布を学習する統一フレームワークを開発し、スコアベース生成モデリング、暗黙的確率モデル、およびそれらの逆問題への応用を結びつけた。博士課程在学中にはOpenAI(2017年夏季)でインターンシップを行い、言語からの解釈可能なスキル抽象化に取り組み、Facebook AI Research(2018年夏季)では衛星画像からの大規模物体計数に貢献した。2021年9月に博士号を取得し、その後1年間(2022年6月まで)スタンフォード大学でErmonの下で博士研究員として研究を継続した。
経歴
スタンフォード大学、Ermon研究グループ(2016年~2022年)
宋の博士課程における最も重要な貢献は、2020年10月にarXivで公開されChenlin MengおよびStefano Ermonと共同執筆、ICLR 2021で発表された**Denoising Diffusion Implicit Models (DDIM)**である。当時、Denoising Diffusion Probabilistic Models(DDPM)は1枚の画像を生成するために1,000ステップ以上のマルコフ連鎖のシミュレーションを必要とし、実用的な展開には不向きだった。宋の重要な洞察は、DDPMの学習目的が、より少ない反復で逆ステップを解くことができる非マルコフ的拡散過程のより広いファミリーと互換性があることだった。DDIMは必要なサンプリングステップを最大50分の1に削減し、画質を維持しながら、潜在空間での意味的補間を可能にする決定論的サンプリングという新たな機能を導入した。この論文は生成AIの歴史の中で最も引用された研究の一つとなり、DDIMサンプラーはStable Diffusion、DALL·E 2、Imagen、Midjourneyを含む下流システムにほぼ普遍的に統合された。
その他の博士課程時代の重要な貢献としては、SDEdit(ICLR 2022)がある。これは、敵対的学習なしにストローク誘導画像生成を可能にする拡散モデル事前分布に基づく画像合成・編集手法である。DDRM(Denoising Diffusion Restoration Models、NeurIPS 2022)は、拡散モデルを超解像、デブラリング、インペインティングを含む一般的な線形逆問題に拡張した。D2C(Diffusion-Denoising Models for Few-shot Conditional Generation、NeurIPS 2021)もある。ICLR 2022の優秀論文賞は、純粋な生成モデリングを超えた別の研究 ―「意思決定に影響を与える差異を測定することによる分布の比較」― によって受賞した。
博士研究員(2021年~2022年)として、宋はベイズ最適化と生成モデルの交差点での出版を続け、例えば「A General Recipe for Likelihood-free Bayesian Optimization」(ICML 2022 Long Oral、トップ2.2%)がある。
NVIDIA Research(2022年6月~2023年頃)
宋はNVIDIA Researchに研究員として入社し、マルチモーダル生成と基盤モデル研究のための拡散モデルに焦点を当てた。同社ではeDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers(TMLR 2023)を共同執筆。この研究は、拡散サンプリングプロセスの異なる段階が専門化されたモデルの専門知識から利益を得ることを実証し、高解像度のテキストから画像への合成のための実用的な専門家混合型デノイザーフレームワークを提案した。
Luma AI、チーフサイエンティスト(2023年頃~2026年6月)
宋は、Luma AIがNeRF(Neural Radiance Field)ベースの3D再構成から生成型映像・マルチモーダルAIへと方向転換する過程で、チーフサイエンティストとして同社に入社。アーキテクチャ、訓練インフラ、データパイプラインにわたる研究を主導し、3つの製品フェーズを経て研究を推進した。
GenieはLumaの3D生成ラインであり、拡散ベースの技術を制御可能な物体・シーン合成に適用した。宋はこの基盤から映像生成への移行を主導した。
Ray / Dream Machine(2024年6月に公開)はLumaの映像生成モデルファミリーであり、時間的一貫性、カメラ認識動作、テキストまたは画像プロンプトからの創造的制御に焦点を当てている。Dream Machineはリリースから4日以内に100万人以上のユーザーを獲得した。このモデルにより、Luma AIはSora(OpenAI)、Gen-3(Runway)、Kling(Kuaishou)と並んでAI映像生成分野の主要プレイヤーとしての地位を確立した。この業績により、宋は2024年にMITテクノロジーレビューの「Innovators Under 35」に選出された。
Uni-1(2025年リリース)は、意図理解、空間推論、参照誘導生成、文化的認識に基づく視覚生成を中心に構築された、Lumaの統合マルチモーダル推論モデルである。画像生成と編集を目的としており、エージェント的で指示に従うマルチモーダルAIへのLumaの動きを象徴している。
製品開発と並行して、宋は基礎的な生成モデリング問題に関する出版を続けた。2025年初頭には、Linqi Zhouとの共著で「Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms」を発表し、自己回帰と拡散の間の誤った二分法に反論し、フローマップが推論時計算を可能にし生成的事前学習の質を向上させることを提案した。この考えは彼のブログ記事「Inference-Time Scaling for Generative Pre-Training」でも詳述されている。また、Linqi ZhouおよびStefano Ermonとの共著「Inductive Moment Matching」や「Terminal Velocity Matching」など、効率的な生成モデル訓練の理論を前進させる研究を共同執筆した。
宋は2026年6月にLuma AIを退職することを確認した。彼の個人ウェブサイトでは「汎用知能のためのマルチモーダルAIシステム」を構築していると説明されており、執筆時点で次の事業や役割は公開されていない。
主な貢献
- DDIM(Denoising Diffusion Implicit Models) — 既存のDDPM訓練を再利用しながら、10~50倍高速なサンプリングと決定論的潜在空間内挿を可能にする非マルコフ的拡散過程のクラスを導入。Stable Diffusion、DALL·E 2、Imagen、Midjourneyを含むプロダクション画像生成システムでほぼ普遍的に採用された。この論文は宋のスカラープロフィール全体で35,900以上の被引用数を記録。DDIMだけで現代の深層学習で最も引用された論文の一つである。
- SDEdit: Guide Image Synthesis via Stochastic Differential Equations(ICLR 2022) — 敵対的学習やタスク固有モデルなしに、拡散事前分布を通じてストローク誘導および参照誘導の画像編集を可能にし、広範な下流影響を持つ制御可能生成研究のラインを開拓した。
- DDRM: Denoising Diffusion Restoration Models(NeurIPS 2022) — 拡散フレームワークを線形逆問題ファミリー(デブラリング、超解像、インペインティング)に拡張し、5倍の速度で再構成品質と知覚的忠実度において先行の教師なし手法を凌駕した。
- eDiff-I(TMLR 2023) — テキストから画像への生成のための専門家デノイザーアンサンブルアーキテクチャを提案。異なるデノイジングタイムステップが専門化されたネットワークから利益を得ることを実証し、NVIDIAの生成AIロードマップに貢献した。
- Dream Machine / Ray(Luma AI、2024年) — クリエイターに広く採用され、カメラ一貫性があり物理的に妥当なAI映像における画期的な進歩と認められた映像生成モデルの研究を主導。リリースから4日で100万ユーザーを達成。
- Uni-1(Luma AI、2025年) — 自然言語の意図によって導かれる単一アーキテクチャの下で、画像理解、生成、編集を組み合わせた統合マルチモーダルモデルの開発を主導。
- 生成的事前学習のための推論時スケーリング(2025年) — 推論時計算が拡散およびフローベースの事前学習を体系的に改善できると主張し、言語モデルにおける連鎖思考スケーリングと類似した含意を持つ、新たな研究の方向性。
受賞歴と評価
- MIT Technology Review Innovators Under 35 — Asia Pacific (2024) — Dream Machineの開発を主導し、大規模AI映像生成への画期的な貢献が認められた。
- ICLR 2022 Outstanding Paper Award — 「Comparing Distributions by Measuring Differences that Affect Decision Making」に対して。国際学習表現会議(ICLR)で最も高く評価された論文の一つ。
- ICML 2022 Long Oral presentation(トップ2.2%) — 「A General Recipe for Likelihood-free Bayesian Optimization」に対して。
- Qualcomm Innovation Fellowship (2018) — プロジェクト「Safe Multi-Agent Imitation Learning for Self-Driving」に対して全国で8名の受賞者の一人。
- Qualcomm Scholarship, Tsinghua University (2016) — 清華大学の学部生トップ1%に、卓越した研究成果により授与。
- Google Excellence Scholarship (2015) — 学術的および研究的優秀性により、中国全土の学部・大学院生58名に授与。
- Outstanding Winner, Interdisciplinary Contest in Modeling (2015) — 世界トップ0.3%。
- Outstanding Undergraduate, China Computer Federation (2014) — 清華大学から2名の受賞者の一人。
- Zhong Shimo Scholarship, Tsinghua CS Department (2013) — 同学科最高の奨学金、トップ0.75%。
- Bronze Prize, National Olympiad in Informatics (2011) — 競技プログラミングにおける全国レベルの表彰。
主要な関係者
- Stefano Ermon — スタンフォード大学での博士課程および博士研究員時代の指導教官。コンピュータ科学教授、スタンフォードAIラボの確率モデリンググループのリーダー。Ermonのスコアベース生成モデルに関する基礎的研究がDDIMを直接可能にし、両氏は宋のキャリアを通じて共同執筆を継続しており、2025年のInductive Moment Matching論文も含まれる。
- Chenlin Meng — 博士課程時代の最も近い共同研究者であり、DDIMとSDEditの両方の共同筆頭著者。現在はスタンフォードの研究者であり独立系スタートアップ創業者。両氏はErmonグループから生まれた最も影響力のある論文のいくつかの原動力であった。
- Yang Song — Ermonグループの共通研究者であり、SDEによるスコアベース生成モデル(ICLR 2021 Best Paper)に関する研究が、Jiaming SongのDDIMに対する連続時間の理論的補完を形成した。両氏は並行して、現代の拡散モデル文献の二重の基盤となる研究を行った。
- Linqi Zhou — 最近の頻繁な共同研究者(Terminal Velocity Matching、Inductive Moment Matching、推論時スケーリング)。元Luma AIの同僚であり、退職後も研究パートナーとして関係を継続。
- Ambrish Rawat / Luma AIチーム — GenieからRay、Uni-1への製品軸の転換を通じて協働。Lumaにおける宋の研究リーダーシップは、密接なエンジニアリングチームによって補完され、モデルから製品への変換を可能にした。
人物像
宋は、真に基礎的な理論的貢献 ―DDIMは拡散サンプリングの数学を書き換えたのであって、その実装だけではない― を行いながら、複数の完全な戦略的転換を通じて企業を導く製品感覚も示すという、生成AIの分野では稀な地位を占めている。彼の公表された著作、例えば2025年3月の推論時スケーリングに関するブログ記事は、コンセンサスフレームに挑戦する姿勢で注目に値する。彼は、自己回帰アプローチと拡散アプローチの対立は誤った二分法であり、フローベースの目的が事前学習のための新たな理論的領域を切り開くと主張している。ハンドル名@baaadasでのX/Twitterでの存在は控えめだが的確であり、仕事を通じて語ることを好む研究者像と一致している。清華大学での競技受賞から、DDIM導出の簡潔な優雅さ、そして最近のモーメントマッチングと速度マッチングに関する理論的論文に至るまで、一貫して複雑に見える問題の下にある最もすっきりした数学的構造を見つけることを好む姿勢が見て取れる。
参考文献
- 個人ウェブサイト: tsong.me
- Hello.cv履歴書: hello.cv/quchao-1
- Google Scholar: scholar.google.com/citations?user=6dP660cAAAAJ
- DBLP: dblp.org/pid/173/5104.html
- Semantic Scholar: semanticscholar.org/author/Jiaming-Song/51453887
- スタンフォード博士論文: purl.stanford.edu/zy983tp3399 (『教師あり学習による圧縮、生成、推論』のDBLPレコード)
- DDIM論文 (ICLR 2021): arxiv.org/abs/2010.02502
- MIT Technology Review Innovators Under 35 (2024): innovatorsunder35.com/the-list/jiaming-song
- Luma AI Uni-1: lumalabs.ai/uni-1
- Luma AI Ray: lumalabs.ai/ray
- ブログ「Inference-Time Scaling for Generative Pre-Training」: tsong.me/blog/inference-time-scaling