Jiaming Song

DDIM的发明者、Luma AI前首席科学家,其加速扩散采样方面的贡献帮助将扩散模型从学术界的奇思妙想转变为生成式AI行业的引擎。


出生 约1994年,中国
国籍 中国
现任职机构 独立(截至2026年6月);曾任职Luma AI(首席科学家)
研究领域 扩散模型、基于得分的生成模型、视频与多模态生成、贝叶斯优化、强化学习、模仿学习
博士导师 Stefano Ermon
博士论文 Compression, Generation, and Inference via Supervised Learning(斯坦福大学,2021)
网站 tsong.me
X / Twitter @baaadas
GitHub jiamings
Google Scholar Jiaming Song - 引用数35,900+

概述

Jiaming Song(宋佳铭)是一位中国生成式AI研究员,以创建DDIM(去噪扩散隐式模型)而闻名。DDIM是一种加速采样器,使得扩散模型在规模化生产环境中变得计算上可行,并成为包括Stable Diffusion、DALL·E 2和Imagen在内的系统中的标准组件。他曾在清华大学和斯坦福大学求学,师从Stefano Ermon,以其将深度概率理论与高影响力工程洞察相结合而著称。在斯坦福大学博士后阶段及英伟达研究院短暂工作后,他加入Luma AI担任首席科学家,领导研究团队经历了三次连续的产品转型——从3D重建到视频生成,再到统一多模态建模——最终推出了Dream Machine(Ray)视频模型和Uni-1多模态推理系统。他于2026年年中离开了Luma AI,下一步动向尚未公开。


早年经历与教育

宋佳铭在清华大学接受了本科教育,于2012年至2016年期间完成了计算机科学与技术工学学士学位。他以优秀荣誉(班级前1%)毕业,获得了钟士模奖学金——计算机系最高荣誉奖(前0.75%)——以及谷歌卓越奖学金(颁给全中国58名学生)和高通奖学金以表彰其杰出的研究。他早期的成就还包括竞赛数学和编程:2011年获得全国青少年信息学奥林匹克竞赛铜牌,2015年在美国大学生数学建模竞赛中荣获特等奖(前0.3%)。本科期间,他于2015年夏季在杜克大学信息学计划担任访问研究员,从事时序 sigmoid 信念网络的研究,这标志着他早期对概率生成模型方向的探索。

2016年9月,宋佳铭进入斯坦福大学攻读计算机科学博士学位,加入斯坦福人工智能实验室Stefano Ermon教授的研究小组。他的博士论文《通过监督学习进行压缩、生成与推理》建立了一个无需显式归一化即可学习复杂分布的通用框架,将基于得分的生成建模、隐式概率模型及其在逆问题中的应用联系在一起。博士期间,他曾在OpenAI(2017年夏季)实习,从事基于语言的可解释技能抽象研究,并在Facebook AI Research(2018年夏季)实习,参与基于卫星图像的大规模目标计数工作。他于2021年9月获得博士学位,并在Ermon指导下作为博士后学者在斯坦福大学继续工作了一年(至2022年6月)。


职业生涯

斯坦福大学,Ermon研究组(2016–2022)

宋佳铭博士阶段最具影响力的贡献是2020年10月在arXiv上发表的去噪扩散隐式模型(DDIM),与Chenlin Meng和Stefano Ermon合作,并在ICLR 2021上展示。当时,去噪扩散概率模型(DDPMs)需要模拟一个包含1000步或更多步骤的马尔可夫链才能生成一张图像,使得它们在大多数生产部署中不实用。宋佳铭的关键洞察在于,DDPM的训练目标与更广泛的非马尔可夫扩散过程族兼容,这些过程的逆向步骤可以用更少的迭代次数求解。DDIM将所需的采样步骤减少了多达50倍,同时保持了图像质量,并引入了一项新能力:能够在潜在空间中进行语义插值的确定性采样。该论文成为生成式AI历史上被引用最多的作品之一,DDIM采样器几乎被普遍集成到包括Stable Diffusion、DALL·E 2、Imagen和Midjourney在内的下游系统中。

其他重要的博士阶段贡献包括SDEdit(ICLR 2022),一种基于扩散模型先验的图像合成与编辑方法,能够在不进行对抗训练的情况下实现笔触引导的图像生成;DDRM(去噪扩散恢复模型,NeurIPS 2022),将扩散模型扩展到一般的线性逆问题,包括超分辨率、去模糊和图像修复;以及D2C(面向少样本条件生成的扩散去噪模型,NeurIPS 2021)。他因另一条独立的研究工作线——“通过测量影响决策的差异来比较分布”——获得了ICLR 2022杰出论文奖,证明其研究范围超越了纯粹的生成建模。

作为博士后(2021–2022),宋佳铭继续在贝叶斯优化与生成模型的交叉领域发表论文,包括《免似然贝叶斯优化的通用方法》(ICML 2022长报告,前2.2%)。

英伟达研究院(2022年6月 – 约2023年)

宋佳铭加入英伟达研究院担任研究科学家,专注于多模态生成和基础模型研究中的扩散模型。在那里,他合作发表了eDiff-I:集成专家去噪器的文本到图像扩散模型(TMLR 2023),该研究表明扩散采样过程的不同阶段受益于专门的模型专业知识,并提出了一个实用的去噪器混合框架,用于高分辨率文本到图像合成。

Luma AI,首席科学家(约2023年 – 2026年6月)

宋佳铭加入Luma AI担任首席科学家时,该公司正从基于神经辐射场(NeRF)的3D重建领域转型,转向生成式视频和多模态AI。他领导了贯穿整个建模堆栈的研究——架构、训练基础设施和数据管道——历经三个连续的产品阶段。

Genie是Luma的3D生成产品线,应用基于扩散的技术进行可控对象和场景合成。宋佳铭领导了从这个基础向视频生成的过渡。

Ray / Dream Machine(于2024年6月公开推出)是Luma的视频生成模型系列,专注于时间连贯性、相机感知运动以及通过文本或图像提示进行创意控制。Dream Machine在发布四天内吸引了超过一百万的用户。该模型确立了Luma AI在AI视频生成领域与Sora(OpenAI)、Gen-3(Runway)和可灵(快手)并驾齐驱的领先地位。由于这项工作,宋佳铭于2024年入选了《麻省理工科技评论》“35岁以下科技创新35人”榜单。

Uni-1(2025年发布)是Luma的统一多模态推理模型,用于图像生成和编辑,围绕意图理解、空间推理、参考引导生成和文化感知视觉创作构建——这代表了Luma向智能体式、指令跟随的多模态AI的迈进。

在产品工作之外,宋佳铭继续发表关于基础生成建模问题的论文。2025年初,他合作发表了《推理时扩展可以惠及生成式预训练算法》(与Linqi Zhou合作),反对自回归与扩散之间的错误二分法,并提出流图可以使推理时计算用于提升生成式预训练的质量——他还在其博客文章《生成式预训练的推理时扩展》中阐述了这个思路。他合作发表了《归纳矩匹配》(与Linqi Zhou和Stefano Ermon合作)和《末端速度匹配》,两者都推动了高效生成模型训练理论的发展。

宋佳铭确认于2026年6月离开Luma AI。他的个人网站将其描述为正在构建“面向通用智能的多模态AI系统”,截至本文撰写时,他的下一个创业项目或职务尚未公开。


主要贡献

  • DDIM(去噪扩散隐式模型)——引入了一类非马尔可夫扩散过程,可复用现有的DDPM训练,同时实现10-50倍的采样加速和确定性潜在插值;几乎被所有生产级图像生成系统(包括Stable Diffusion、DALL·E 2、Imagen和Midjourney)普遍采用。该论文在宋佳铭的学者资料中累积了35,900+次引用;仅DDIM本身就是现代深度学习中被引用最多的论文之一。
  • SDEdit:基于随机微分方程的引导图像合成(ICLR 2022)——无需对抗训练或特定任务模型,通过扩散先验实现笔触引导和参考引导的图像编辑,开辟了一条具有广泛下游影响力的可控生成研究路线。
  • DDRM:去噪扩散恢复模型(NeurIPS 2022)——将扩散框架扩展到线性逆问题族(去模糊、超分辨率、图像修复),在重建质量和感知保真度方面优于之前的无监督方法,速度提升5倍。
  • eDiff-I(TMLR 2023)——提出了一个集成专家去噪器的架构用于文本到图像生成,表明不同去噪时间步受益于专门的网络;为英伟达的生成式AI路线图做出了贡献。
  • Dream Machine / Ray(Luma AI,2024年)——领导了一个被创作者广泛采用、被誉为相机视角一致、物理上合理的AI视频领域突破性变化的视频生成模型的研究;发布四天内用户数达到100万+。
  • Uni-1(Luma AI,2025年)——领导开发了一个统一的多模态模型,将图像理解、生成和编辑整合到单一架构下,并由自然语言意图引导。
  • 生成式预训练的推理时扩展(2025年)——一个新兴的研究方向,主张推理时计算可以系统地改进基于扩散和流的预训练,其影响类似于语言模型中的思维链扩展。

奖项与荣誉

  • 《麻省理工科技评论》“35岁以下科技创新35人” – 亚太区(2024年)——因领导开发Dream Machine以及对大规模AI视频生成的突破性贡献而获认可。
  • ICLR 2022 杰出论文奖——因《通过测量影响决策的差异来比较分布》而获奖,该论文是国际学习表征大会上获得最高认可的论文之一。
  • ICML 2022 长报告(前2.2%)——因《免似然贝叶斯优化的通用方法》而获奖。
  • 高通创新奖学金(2018年)——全美八位获得者之一,项目为《用于自动驾驶的安全多智能体模仿学习》。
  • 清华大学高通奖学金(2016年)——颁发给清华大学前1%的本科生,以表彰其杰出的研究成果。
  • 谷歌卓越奖学金(2015年)——颁发给全中国58名本科生和研究生,以表彰其学术和研究成就。
  • 美国大学生数学建模竞赛特等奖(2015年)——全球前0.3%。
  • 中国计算机学会优秀大学生奖(2014年)——清华大学两位获得者之一。
  • 清华大学计算机系钟士模奖学金(2013年)——系内最高奖学金,前0.75%。
  • 全国青少年信息学奥林匹克竞赛铜牌(2011年)——国家级竞赛编程认可。

关键关系

  • Stefano Ermon——斯坦福大学博士及博士后导师;计算机科学教授,斯坦福人工智能实验室概率建模组负责人。Ermon在基于得分的生成模型方面的基础性工作直接促成了DDIM,两人在宋佳铭的整个职业生涯中持续合作,包括2025年的《归纳矩匹配》论文。
  • Chenlin Meng——博士阶段最亲密的合作者,DDIM和SDEdit的共同第一作者;现为斯坦福大学研究员和独立创业公司创始人。两人是Ermon研究组几篇最具影响力论文的主要推动力。
  • Yang Song——Ermon研究组内重叠的研究员,其基于SDE的得分生成模型工作(ICLR 2021最佳论文)是宋佳铭DDIM的连续时间理论补充;两人并行工作,共同构成了现代扩散模型文献的双基础。
  • Linqi Zhou——近期频繁的合作者(末端速度匹配、归纳矩匹配、推理时扩展);前Luma AI同事,离职后继续合作的研究伙伴。
  • Ambrish Rawat / Luma AI团队——在Genie → Ray → Uni-1的产品转型中合作;宋佳铭在Luma的研究领导力由一个紧密的工程团队补充,使得模型能成功转化为产品。

个人风格

宋佳铭在生成式AI领域占据着一个罕见的地位:他做出了真正基础性的理论贡献——DDIM重写了扩散采样的数学原理,而不仅是其实现——同时展现出引导一家公司完成多次完整战略转型的产品直觉。他的公开写作,包括2025年3月关于推理时扩展的博文,以其愿意挑战共识框架而著称:他认为自回归与扩散方法之间的对立是一种错误的二分法,并且基于流的目标为预训练开辟了新的理论领域。他在X/Twitter上以@baaadas为账号的发言不多但切中要害,符合一位更愿意通过工作本身发言的研究人员的形象。从他在清华的竞赛获奖,经过DDIM推导的简洁优雅,到他最近关于矩匹配和速度匹配的理论论文,这条主线表明他始终倾向于在看似复杂的问题下找到最简洁的数学结构。


参考文献