Jiaming Song

ref · 6월 3, 2026, 4:07오후

DDIM의 발명가이자 Luma AI의 전 최고 과학자로, 가속화된 확산 샘플링에 대한 연구는 확산 모델을 학문적 호기심에서 생성형 AI 산업의 엔진으로 변화시키는 데 일조했습니다.


출생	c. 1994, 중국
국적	중국
현 소속	독립 연구자 (2026년 6월 기준); 이전 Luma AI (최고 과학자)
연구 분야	확산 모델, 점수 기반 생성 모델, 비디오 및 멀티모달 생성, 베이지안 최적화, 강화 학습, 모방 학습
박사 지도교수	Stefano Ermon
박사 학위 논문	지도 학습을 통한 압축, 생성 및 추론 (스탠포드 대학교, 2021)
웹사이트	tsong.me
X / 트위터	@baaadas
GitHub	jiamings
Google Scholar	Jiaming Song — 35,900회 이상 인용

개요

지밍 송은 DDIM(Denoising Diffusion Implicit Models)을 만든 것으로 가장 잘 알려진 중국의 생성형 AI 연구자입니다. DDIM은 확산 모델을 프로덕션 규모에서 계산적으로 실현 가능하게 만든 가속 샘플러로, Stable Diffusion, DALL·E 2, Imagen을 포함한 시스템의 표준 구성 요소가 되었습니다. 칭화대학교와 스탠포드 대학교에서 수학하고 스테파노 에르몬의 지도 아래 연구한 송은 깊은 확률론적 이론과 영향력이 큰 엔지니어링 통찰력을 결합한 것으로 명성을 얻었습니다. 스탠포드에서의 박사후 연구 기간과 NVIDIA Research에서의 경력을 거쳐 Luma AI에 최고 과학자로 합류하여 3D 재구성에서 비디오 생성, 통합 멀티모달 모델링에 이르는 세 번의 연속적인 제품 피벗을 통해 연구팀을 이끌었으며, 그 결과 Dream Machine (Ray) 비디오 모델과 Uni-1 멀티모달 추론 시스템이 탄생했습니다. 그는 2026년 중반에 Luma AI를 떠났으며, 이후의 방향은 공개되지 않았습니다.

초기 생애 및 교육

송은 칭화대학교에서 학부 교육을 받았으며, 2012년부터 2016년까지 컴퓨터 과학 기술 학사 학위를 취득했습니다. 그는 최우수 졸업(상위 1%)의 영예를 안았으며, 컴퓨터 과학과 최고의 장학금인 Zhong Shimo 장학금(상위 0.75%), Google 우수 장학금(중국 전역 58명의 학생에게 수여), 탁월한 연구에 대한 Qualcomm 장학금을 받았습니다. 그의 초기 인지도는 경쟁 수학 및 컴퓨팅 분야로 확장되어 2011년 전국 정보 올림피아드에서 동상을 수상했고, 2015년 학제 간 모델링 대회에서 Outstanding Winner(상위 0.3%)에 선정되었습니다. 학부 시절 그는 듀크 대학교 정보 이니셔티브(2015년 여름)에서 방문 연구원으로 일하며 시간적 시그모이드 신뢰망을 연구했는데, 이는 확률적 생성 모델에 대한 초기 관심을 보여줍니다.

2016년 9월 송은 스탠포드 대학교에서 컴퓨터 과학 박사 과정에 등록하여 스탠포드 AI 연구소의 스테파노 에르몬 교수 연구 그룹에 합류했습니다. 그의 논문인 지도 학습을 통한 압축, 생성 및 추론은 명시적 정규화 없이 복잡한 분포를 학습하기 위한 통합 프레임워크를 개발하여 점수 기반 생성 모델링, 암시적 확률 모델 및 역문제에 대한 응용을 연결했습니다. 박사 과정 동안 그는 OpenAI(2017년 여름)에서 인턴으로 언어로부터 해석 가능한 기술 추상화에 대해 작업했으며, Facebook AI Research(2018년 여름)에서 위성 이미지의 대규모 객체 계수에 기여했습니다. 그는 2021년 9월에 박사 학위를 마치고 1년 더(2022년 6월까지) 스탠포드 대학교에서 에르몬 밑에서 박사후 연구원으로 재직했습니다.

경력

스탠포드 대학교, Ermon 그룹 (2016–2022)

송의 가장 중요한 대학원 수준의 기여는 2020년 10월 DDIM(Denoising Diffusion Implicit Models) 논문이 Chenlin Meng 및 Stefano Ermon과 공동으로 arXiv에 발표되고 ICLR 2021에서 발표된 것입니다. 당시 Denoising Diffusion Probabilistic Models(DDPM)는 단일 이미지를 생성하기 위해 1,000단계 이상의 마르코프 체인 시뮬레이션이 필요하여 대부분의 프로덕션 배포에 비실용적이었습니다. 송의 핵심 통찰력은 DDPM의 훈련 목표가 역방향 단계를 훨씬 적은 반복으로 해결할 수 있는 더 넓은 비마르코프 확산 과정군과 호환된다는 것이었습니다. DDIM은 이미지 품질을 유지하면서 필요한 샘플링 단계를 최대 50배까지 줄였고, 잠재 공간에서 의미론적 보간을 가능하게 하는 결정론적 샘플링이라는 새로운 기능을 도입했습니다. 이 논문은 생성형 AI 역사상 가장 많이 인용된 연구 중 하나가 되었으며, DDIM 샘플러는 Stable Diffusion, DALL·E 2, Imagen, Midjourney를 포함한 다운스트림 시스템에 거의 보편적으로 통합되었습니다.

박사 시절의 다른 중요한 기여로는 확산 모델 사전을 기반으로 적대적 훈련 없이 획 기반 이미지 생성을 가능하게 한 SDEdit(ICLR 2022), 초해상도, 디블러링, 인페인팅을 포함한 일반 선형 역문제로 확산 모델을 확장한 DDRM(NeurIPS 2022), 그리고 D2C(NeurIPS 2021)가 있습니다. 그의 ICLR 2022 우수 논문상은 "의사 결정에 영향을 미치는 차이를 측정하여 분포 비교"라는 별도의 연구 라인으로 순수 생성 모델링을 넘어선 범위를 입증했습니다.

박사후 연구원(2021-2022)으로서 송은 베이지안 최적화와 생성 모델의 교차점에서 계속 출판했으며, 여기에는 “A General Recipe for Likelihood-free Bayesian Optimization”(ICML 2022 Long Oral, 상위 2.2%)이 포함됩니다.

NVIDIA Research (2022년 6월 ~ 2023년경)

송은 연구 과학자로 NVIDIA Research에 합류하여 멀티모달 생성을 위한 확산 모델 및 기초 모델 연구에 집중했습니다. 그곳에서 그는 eDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers(TMLR 2023)를 공동 저술했는데, 이는 확산 샘플링 과정의 여러 단계가 전문 모델의 전문성의 혜택을 받는다는 것을 보여주고 고해상도 텍스트-이미지 합성을 위한 실용적인 전문가 혼합 디노이저 프레임워크를 제안했습니다.

Luma AI, 최고 과학자 (2023년경 ~ 2026년 6월)

송은 Luma AI에 최고 과학자로 합류했으며, 당시 회사는 신경 방사 필드(NeRF) 기반 3D 재구성의 기원에서 생성 비디오 및 멀티모달 AI로 방향을 전환하고 있었습니다. 그는 세 번의 연속적인 제품 단계를 통해 모델링 스택 전체(아키텍처, 훈련 인프라, 데이터 파이프라인)에 걸쳐 연구를 주도했습니다.

Genie는 Luma의 3D 생성 라인으로, 확산 기반 기술을 제어 가능한 객체 및 장면 합성에 적용했습니다. 송은 이 기반에서 비디오 생성으로의 전환을 주도했습니다.

Ray / Dream Machine(2024년 6월 공개 출시)은 시간적 일관성, 카메라 인식 모션 및 텍스트 또는 이미지 프롬프트의 창의적 제어에 중점을 둔 Luma의 비디오 생성 모델 제품군입니다. Dream Machine은 출시 4일 만에 100만 명 이상의 사용자를 유치했습니다. 이 모델은 Sora(OpenAI), Gen-3(Runway), Kling(Kuaishou)과 함께 Luma AI를 AI 비디오 생성 분야의 선두 주자로 자리매김하게 했습니다. 이 작업으로 송은 2024년 MIT Technology Review 35세 미만 혁신가 목록에 선정되었습니다.

Uni-1(2025년 출시)은 의도 이해, 공간 추론, 참조 기반 생성 및 문화 인식 시각 생성을 기반으로 구축된 이미지 생성 및 편집을 위한 Luma의 통합 멀티모달 추론 모델로, 에이전틱하고 명령을 따르는 멀티모달 AI로의 Luma의 움직임을 나타냅니다.

제품 작업과 함께 송은 기본 생성 모델링 문제에 대한 출판을 계속했습니다. 2025년 초 그는 “Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms”(Linqi Zhou와 공동)을 공동 저술하여 자기회귀와 확산 사이의 잘못된 이분법에 반대하고 흐름 맵이 추론 시간 계산을 통해 생성 사전 훈련의 품질을 향상시킬 수 있다고 제안했습니다. 이는 그가 블로그 게시물 "Inference-Time Scaling for Generative Pre-Training"에서 자세히 설명한 사고 방식입니다. 그는 “Inductive Moment Matching”(Linqi Zhou 및 Stefano Ermon과 공동) 및 "Terminal Velocity Matching"을 공동 저술하여 효율적인 생성 모델 훈련 이론을 발전시켰습니다.

송은 2026년 6월 Luma AI에서의 퇴사를 확인했습니다. 그의 개인 웹사이트는 자신을 "일반 지능을 위한 멀티모달 AI 시스템"을 구축하는 사람으로 설명하며, 그의 다음 벤처 또는 역할은 작성 시점을 기준으로 공개적으로 발표되지 않았습니다.

주요 기여

DDIM (Denoising Diffusion Implicit Models) — 기존 DDPM 훈련을 재사용하면서 10~50배 더 빠른 샘플링과 결정론적 잠재 보간을 가능하게 하는 비마르코프 확산 과정 클래스를 도입했습니다. Stable Diffusion, DALL·E 2, Imagen, Midjourney를 포함한 프로덕션 이미지 생성 시스템에서 거의 보편적으로 채택되었습니다. 이 논문은 Song의 학술 프로필 전반에 걸쳐 35,900회 이상의 총 인용을 기록했습니다. DDIM 단독으로도 현대 딥러닝에서 가장 많이 인용된 논문 중 하나입니다.
SDEdit: 확률적 미분 방정식을 통한 안내 이미지 합성(ICLR 2022) — 적대적 훈련이나 작업별 모델 없이 확산 사전을 통해 획 기반 및 참조 기반 이미지 편집을 가능하게 하여 광범위한 다운스트림 영향력을 가진 제어 가능한 생성 연구 라인을 열었습니다.
DDRM: Denoising Diffusion Restoration Models(NeurIPS 2022) — 확산 프레임워크를 선형 역문제군(디블러링, 초해상도, 인페인팅)으로 확장하여 5배 빠른 속도로 재구성 품질 및 지각적 충실도에서 이전의 비지도 방법을 능가했습니다.
eDiff-I(TMLR 2023) — 텍스트-이미지 생성을 위한 전문가 디노이저 앙상블 아키텍처를 제안하여, 다른 디노이징 타임스텝이 특수 네트워크의 혜택을 받는다는 것을 보여주었습니다. NVIDIA의 생성 AI 로드맵에 기여했습니다.
Dream Machine / Ray(Luma AI, 2024) — 창작자에게 널리 채택되고 카메라 일관성 있고 물리적으로 그럴듯한 AI 비디오의 단계적 변화로 인정받은 비디오 생성 모델에 대한 연구를 주도했습니다. 출시 4일 만에 100만 명 이상의 사용자에게 도달했습니다.
Uni-1(Luma AI, 2025) — 이미지 이해, 생성 및 편집을 자연어 의도에 의해 안내되는 단일 아키텍처 아래 결합한 통합 멀티모달 모델 개발을 주도했습니다.
생성 사전 훈련을 위한 추론 시간 스케일링(2025) — 추론 시간 계산이 확산 및 흐름 기반 사전 훈련을 체계적으로 개선할 수 있다고 주장하는 새로운 연구 방향으로, 언어 모델의 사고 사슬 스케일링과 유사한 의미를 갖습니다.

수상 및 표창

MIT Technology Review 35세 미만 혁신가 — 아시아 태평양(2024) — Dream Machine 개발을 주도하고 대규모 AI 비디오 생성에 획기적인 기여를 한 공로를 인정받았습니다.
ICLR 2022 우수 논문상 — "의사 결정에 영향을 미치는 차이를 측정하여 분포 비교"로 국제 학습 표현 학회(ICLR)에서 가장 높은 평가를 받은 논문 중 하나입니다.
ICML 2022 구두 발표(Long Oral, 상위 2.2%) — "A General Recipe for Likelihood-free Bayesian Optimization"으로 선정되었습니다.
Qualcomm 혁신 펠로우십(2018) — “자율 주행을 위한 안전한 다중 에이전트 모방 학습” 프로젝트로 전국 8명의 수상자 중 한 명입니다.
칭화대학교 Qualcomm 장학금(2016) — 탁월한 연구 성과를 인정받아 칭화대학교 학부생 상위 1%에게 수여됩니다.
Google 우수 장학금(2015) — 학업 및 연구 우수성을 인정받아 중국 전역의 학부생 및 대학원생 58명에게 수여됩니다.
Outstanding Winner, 학제 간 모델링 대회(2015) — 글로벌 상위 0.3%입니다.
중국 컴퓨터 연맹 우수 학부생상(2014) — 칭화대학교에서 2명의 수상자 중 한 명입니다.
칭화대학교 컴퓨터 과학과 Zhong Shimo 장학금(2013) — 학과 내 최고 장학금, 상위 0.75%입니다.
전국 정보 올림피아드 동상(2011) — 경쟁 프로그래밍 분야의 국가적 인정입니다.

주요 관계

Stefano Ermon — 스탠포드 대학교 박사 및 박사후 지도교수, 컴퓨터 과학 교수이자 스탠포드 AI 연구소 확률 모델링 그룹의 리더. 에르몬의 점수 기반 생성 모델에 대한 기초 작업은 DDIM을 직접적으로 가능하게 했으며, 두 사람은 2025년 Inductive Moment Matching 논문을 포함하여 송의 경력 전반에 걸쳐 공동 저술을 계속했습니다.
Chenlin Meng — 가장 가까운 박사 시절 협력자이자 DDIM 및 SDEdit의 공동 제1저자. 현재 스탠포드 대학교 연구원이자 독립 스타트업 창업자. 두 사람은 에르몬 그룹에서 나온 가장 영향력 있는 여러 논문의 주요 추진력이었습니다.
Yang Song — 에르몬 그룹의 연구자로, SDE를 통한 점수 기반 생성 모델(ICLR 2021 최우수 논문)에 대한 연구는 지밍 송의 DDIM에 대한 연속 시간 이론적 보완을 형성했습니다. 두 사람은 현대 확산 모델 문헌의 이중 기초가 된 연구를 병렬로 진행했습니다.
Linqi Zhou — 최근 빈번한 협력자(Terminal Velocity Matching, Inductive Moment Matching, 추론 시간 스케일링). 전 Luma AI 동료이자 퇴사 후에도 계속된 연구 파트너.
Ambrish Rawat / Luma AI 팀 — Genie → Ray → Uni-1 제품 피벗 전반에 걸쳐 협력. Luma에서 송의 연구 리더십은 모델-제품 변환을 가능하게 하는 긴밀한 엔지니어링 팀에 의해 보완되었습니다.

개인 스타일

송은 생성형 AI 환경에서 진정으로 기초적인 이론적 기여를 한 사람으로서 드문 위치를 차지하고 있습니다. DDIM은 단순한 구현이 아니라 확산 샘플링의 수학을 재구성하는 동시에, 완전한 전략 피벗을 통해 회사를 안내할 수 있는 제품 본능을 입증했습니다. 그의 공개 저술은 2025년 3월 추론 시간 스케일링에 관한 블로그 게시물을 포함하여 합의된 프레임워크에 도전하려는 의지로 주목할 만합니다. 그는 자기회귀 접근 방식과 확산 접근 방식 사이의 대립이 잘못된 이분법이며, 흐름 기반 목표가 사전 훈련을 위한 새로운 이론적 영역을 연다고 주장합니다. @baaadas 핸들의 그의 X/Twitter 활동은 드물지만 날카로우며, 작업을 통해 말하는 것을 선호하는 연구자와 일치합니다. 칭화대학교 경시 대회 수상에서 DDIM 유도의 간결한 우아함, 최근 순간 일치 및 속도 일치에 대한 이론적 논문에 이르기까지의 흐름은 복잡해 보이는 문제 아래에서 가장 깔끔한 수학적 구조를 찾는 지속적인 선호를 시사합니다.

참고자료

개인 웹사이트: tsong.me
Hello.cv 이력서: hello.cv/quchao-1
Google Scholar: scholar.google.com/citations?user=6dP660cAAAAJ
DBLP: dblp.org/pid/173/5104.html
Semantic Scholar: semanticscholar.org/author/Jiaming-Song/51453887
스탠포드 대학교 박사 논문: purl.stanford.edu/zy983tp3399 (지도 학습을 통한 압축, 생성 및 추론에 대한 DBLP 기록)
DDIM 논문 (ICLR 2021): arxiv.org/abs/2010.02502
MIT Technology Review 35세 미만 혁신가 (2024): innovatorsunder35.com/the-list/jiaming-song
Luma AI Uni-1: lumalabs.ai/uni-1
Luma AI Ray: lumalabs.ai/ray
블로그: “Inference-Time Scaling for Generative Pre-Training”: tsong.me/blog/inference-time-scaling