Jiaming Song

ref · 3. Juni 2026 um 16:07

Erfinder von DDIM und ehemaliger Chief Scientist bei Luma AI, dessen Arbeiten zum beschleunigten Diffusions-Sampling dazu beigetragen haben, Diffusionsmodelle von einer akademischen Kuriosität zur treibenden Kraft der generativen KI-Industrie zu transformieren.


Geboren	ca. 1994, China
Nationalität	Chinesisch
Derzeitige Institution(en)	Unabhängig (Stand Juni 2026); zuvor Luma AI (Chief Scientist)
Forschungsbereiche	Diffusionsmodelle, Score-basierte generative Modelle, Video- & multimodale Generierung, Bayes’sche Optimierung, Reinforcement Learning, Imitationslernen
Doktorvater	Stefano Ermon
Doktorarbeit	Compression, Generation, and Inference via Supervised Learning (Stanford University, 2021)
Website	tsong.me
X / Twitter	@baaadas
GitHub	jiamings
Google Scholar	Jiaming Song — 35.900+ Zitationen

Überblick

Jiaming Song ist ein chinesischer Forscher im Bereich der generativen KI, der vor allem für die Entwicklung von DDIM (Denoising Diffusion Implicit Models) bekannt ist – dem beschleunigten Sampler, der Diffusionsmodelle im Produktionsmaßstab recheneffizient machte und zu einem Standardbestandteil von Systemen wie Stable Diffusion, DALL·E 2 und Imagen wurde. Song absolvierte seine Ausbildung an der Tsinghua-Universität und in Stanford, wo er unter Stefano Ermon arbeitete, und erwarb sich einen Ruf für die Kombination tiefer wahrscheinlichkeitstheoretischer Kenntnisse mit wirkungsvollen Ingenieurslösungen. Nach einer Postdoc-Zeit in Stanford und einer Station bei NVIDIA Research wurde er Chief Scientist bei Luma AI, wo er das Forschungsteam durch drei aufeinanderfolgende Produktpivots führte – von der 3D-Rekonstruktion über die Videogenerierung bis hin zur einheitlichen multimodalen Modellierung –, die im Video-Modell Dream Machine (Ray) und dem multimodalen Denksystem Uni-1 gipfelten. Mitte 2026 verließ er Luma AI; sein weiterer Weg ist nicht bekannt.

Frühes Leben & Ausbildung

Song absolvierte sein Grundstudium an der Tsinghua-Universität, wo er zwischen 2012 und 2016 einen Bachelor of Engineering in Informatik und Technologie erwarb. Er schloss mit Auszeichnung (Top 1 % seines Jahrgangs) ab und erhielt das Zhong-Shimo-Stipendium – die höchste Auszeichnung in der Informatikfakultät (Top 0,75 %) – sowie das Google Excellence Scholarship (vergeben an 58 Studierende in ganz China) und das Qualcomm-Stipendium für herausragende Forschung. Seine frühen Erfolge erstreckten sich auch auf die Wettbewerbsmathematik und -informatik: Er gewann eine Bronzemedaille bei der Nationalen Informatik-Olympiade im Jahr 2011 und wurde 2015 als Outstanding Winner (Top 0,3 %) beim Interdisciplinary Contest in Modeling ausgezeichnet. Während seines Studiums war er im Sommer 2015 als Gastforscher an der Duke University tätig, wo er an zeitlichen Sigmoid-Belief-Netzwerken arbeitete, was eine frühe Hinwendung zu probabilistischen generativen Modellen signalisierte.

Im September 2016 begann Song sein Promotionsstudium der Informatik an der Stanford University und schloss sich der Forschungsgruppe von Professor Stefano Ermon im Stanford AI Lab an. Seine Dissertation mit dem Titel Compression, Generation, and Inference via Supervised Learning entwickelte einen einheitlichen Rahmen für das Erlernen komplexer Verteilungen ohne explizite Normalisierung und verknüpfte score-basierte generative Modellierung, implizite probabilistische Modelle und deren Anwendungen auf inverse Probleme. Während seiner Promotion absolvierte er Praktika bei OpenAI (Sommer 2017), wo er an interpretierbaren Fähigkeitsabstraktionen aus Sprache arbeitete, und bei Facebook AI Research (Sommer 2018), wo er zur großflächigen Objektzählung aus Satellitenbildern beitrug. Er schloss seine Promotion im September 2021 ab und blieb für ein weiteres Jahr als Postdoktorand unter Ermon in Stanford (bis Juni 2022).

Karriere

Stanford University, Ermon Group (2016–2022)

Songs bedeutendster Beitrag während seiner Promotionszeit war die Veröffentlichung von Denoising Diffusion Implicit Models (DDIM) auf arXiv im Oktober 2020, gemeinsam verfasst mit Chenlin Meng und Stefano Ermon, und präsentiert auf der ICLR 2021. Zu dieser Zeit erforderte die Simulation von Denoising Diffusion Probabilistic Models (DDPMs) eine Markov-Kette von 1.000 oder mehr Schritten, um ein einziges Bild zu erzeugen, was sie für die meisten Produktionseinsätze unpraktikabel machte. Songs entscheidende Erkenntnis war, dass das Trainingsziel von DDPMs mit einer größeren Familie nicht-Markov’scher Diffusionsprozesse kompatibel ist, deren Umkehrschritte mit weitaus weniger Iterationen gelöst werden können. DDIM reduzierte die erforderlichen Sampling-Schritte um bis zu das 50-Fache, während die Bildqualität erhalten blieb und eine neue Fähigkeit eingeführt wurde: deterministisches Sampling, das semantische Interpolation im latenten Raum ermöglicht. Die Arbeit wurde zu einer der meistzitierten in der Geschichte der generativen KI, und der DDIM-Sampler wurde nahezu universell in nachgelagerte Systeme integriert, darunter Stable Diffusion, DALL·E 2, Imagen und Midjourney.

Weitere bedeutende Beiträge aus der Promotionszeit sind SDEdit (ICLR 2022), eine auf Diffusionsmodell-Priors basierende Bildsynthese- und -bearbeitungsmethode, die strichgeführte Bildgenerierung ohne adversariales Training ermöglicht; DDRM (Denoising Diffusion Restoration Models, NeurIPS 2022), die Diffusionsmodelle auf allgemeine lineare inverse Probleme wie Super-Resolution, Entblurring und Inpainting ausdehnt; und D2C (Diffusion-Denoising Models for Few-shot Conditional Generation, NeurIPS 2021). Sein Outstanding Paper Award der ICLR 2022 wurde für eine separate Arbeit verliehen – „Comparing Distributions by Measuring Differences that Affect Decision Making“ –, die seine Reichweite über die reine generative Modellierung hinaus demonstriert.

Als Postdoktorand (2021–2022) forschte Song weiterhin an der Schnittstelle von Bayes’scher Optimierung und generativen Modellen, unter anderem mit „A General Recipe for Likelihood-free Bayesian Optimization“ (ICML 2022 Long Oral, Top 2,2 %).

NVIDIA Research (Juni 2022 – ca. 2023)

Song wechselte als Research Scientist zu NVIDIA Research und konzentrierte sich auf Diffusionsmodelle für multimodale Generierung und Foundation-Model-Forschung. Dort war er Mitautor von eDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (TMLR 2023), das zeigte, dass verschiedene Phasen des Diffusions-Sampling-Prozesses von spezialisierter Modell-Expertise profitieren, und schlug ein praktisches Mixture-of-Denoisers-Framework für die hochauflösende Text-zu-Bild-Synthese vor.

Luma AI, Chief Scientist (ca. 2023 – Juni 2026)

Song kam als Chief Scientist zu Luma AI, als das Unternehmen gerade von seinen Ursprüngen in der auf neuronalen Radiance Fields (NeRF) basierenden 3D-Rekonstruktion hin zu generativer Video- und multimodaler KI wechselte. Er leitete die Forschung über den gesamten Modellierungs-Stack – Architektur, Trainingsinfrastruktur und Datenpipelines – durch drei aufeinanderfolgende Produktphasen.

Genie war Lumas 3D-Generierungslinie, die diffusionsbasierte Techniken auf die kontrollierbare Objekt- und Szenensynthese anwandte. Song führte den Übergang von dieser Grundlage zur Videogenerierung an.

Ray / Dream Machine (im Juni 2024 öffentlich gestartet) ist Lumas Familie von Videogenerierungsmodellen, die sich auf zeitliche Kohärenz, kamerabewusste Bewegungen und kreative Kontrolle durch Text- oder Bild-Prompts konzentriert. Dream Machine gewann innerhalb von vier Tagen nach der Veröffentlichung über eine Million Nutzer. Das Modell etablierte Luma AI als führenden Akteur im Bereich der KI-Videogenerierung neben Sora (OpenAI), Gen-3 (Runway) und Kling (Kuaishou). Für diese Arbeit wurde Song 2024 in die Liste der Innovatoren unter 35 des MIT Technology Review aufgenommen.

Uni-1 (veröffentlicht 2025) ist Lumas einheitliches multimodales Denkmodell für Bildgenerierung und -bearbeitung, das auf Intentionsverständnis, räumlichem Denken, referenzgeführter Generierung und kulturell bewusster visueller Erstellung basiert – es repräsentiert Lumas Hinwendung zu agentischer, anweisungsfolgender multimodaler KI.

Neben seiner Produktarbeit veröffentlichte Song weiterhin zu grundlegenden Problemen der generativen Modellierung. Anfang 2025 war er Mitautor von „Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms“ (mit Linqi Zhou), in dem er die falsche Dichotomie zwischen Autoregression und Diffusion kritisierte und vorschlug, dass Flow-Maps Inferenz-Zeit-Berechnung nutzen können, um die Qualität des generativen Pre-Trainings zu verbessern – eine Denklinie, die er auch in seinem Blogbeitrag „Inference-Time Scaling for Generative Pre-Training“ ausführte. Er war Mitautor von „Inductive Moment Matching“ (mit Linqi Zhou und Stefano Ermon) und „Terminal Velocity Matching“, die beide die Theorie des effizienten Trainings generativer Modelle voranbrachten.

Song bestätigte seinen Abschied von Luma AI im Juni 2026. Auf seiner persönlichen Website beschreibt er sich selbst als jemanden, der „multimodale KI-Systeme für allgemeine Intelligenz“ entwickelt; sein nächstes Vorhaben oder seine nächste Rolle waren zum Zeitpunkt der Erstellung dieses Artikels nicht öffentlich bekannt.

Wichtigste Beiträge

DDIM (Denoising Diffusion Implicit Models) – Einführung einer nicht-Markov’schen Klasse von Diffusionsprozessen, die das bestehende DDPM-Training wiederverwendet und gleichzeitig eine 10- bis 50-fache Beschleunigung des Samplings sowie deterministische latente Interpolation ermöglicht; nahezu universell in Produktionssystemen zur Bildgenerierung eingesetzt, darunter Stable Diffusion, DALL·E 2, Imagen und Midjourney. Das Papier hat insgesamt über 35.900 Zitationen auf Songs Scholar-Profil; DDIM allein gehört zu den am häufigsten zitierten Arbeiten im modernen Deep Learning.
SDEdit: Guided Image Synthesis via Stochastic Differential Equations (ICLR 2022) – Ermöglichte strichgeführte und referenzgeführte Bildbearbeitung durch Diffusions-Priors ohne adversariales Training oder aufgabenspezifische Modelle und eröffnete eine Linie kontrollierbarer Generierungsforschung mit weitreichendem nachgelagerten Einfluss.
DDRM: Denoising Diffusion Restoration Models (NeurIPS 2022) – Erweiterte das Diffusions-Framework auf die Familie der linearen inversen Probleme (Entblurring, Super-Resolution, Inpainting) und übertraf frühere unüberwachte Methoden in Bezug auf Rekonstruktionsqualität und Wahrnehmungstreue bei 5-facher Geschwindigkeit.
eDiff-I (TMLR 2023) – Schlug eine Ensemble-of-Expert-Denoisers-Architektur für die Text-zu-Bild-Generierung vor und zeigte, dass verschiedene Denoising-Zeitschritte von spezialisierten Netzwerken profitieren; trug zur NVIDIA-Roadmap für generative KI bei.
Dream Machine / Ray (Luma AI, 2024) – Leitete die Forschung an einem Videogenerierungsmodell, das von Kreativen weit verbreitet angenommen wurde und als Schrittwechsel hin zu kamerakonsistenten, physikalisch plausiblen KI-Videos anerkannt ist; erreichte über 1 Million Nutzer innerhalb von vier Tagen nach dem Start.
Uni-1 (Luma AI, 2025) – Leitete die Entwicklung eines einheitlichen multimodalen Modells, das Bildverständnis, -generierung und -bearbeitung unter einer einzigen Architektur vereint, die von natürlichsprachlicher Absicht geleitet wird.
Inference-Time Scaling für generatives Pre-Training (2025) – Eine aufkommende Forschungsrichtung, die argumentiert, dass Inferenz-Zeit-Berechnung systematisch diffusions- und flowbasiertes Pre-Training verbessern kann, mit Implikationen, die analog zum Chain-of-Thought-Scaling in Sprachmodellen sind.

Auszeichnungen & Anerkennung

MIT Technology Review Innovators Under 35 – Asia Pacific (2024) – Anerkannt für die Leitung der Entwicklung von Dream Machine und bahnbrechende Beiträge zur großflächigen KI-Videogenerierung.
ICLR 2022 Outstanding Paper Award – Für „Comparing Distributions by Measuring Differences that Affect Decision Making“, einer der am höchsten ausgezeichneten Beiträge auf der International Conference on Learning Representations.
ICML 2022 Long Oral Präsentation (Top 2,2 %) – Für „A General Recipe for Likelihood-free Bayesian Optimization“.
Qualcomm Innovation Fellowship (2018) – Einer von acht landesweit Empfängern für das Projekt „Safe Multi-Agent Imitation Learning for Self-Driving“.
Qualcomm-Stipendium, Tsinghua-Universität (2016) – Vergeben an die besten 1 % der Tsinghua-Studenten für herausragende Forschungsleistungen.
Google Excellence Scholarship (2015) – Vergeben an 58 Bachelor- und Masterstudenten in ganz China für akademische und forscherische Exzellenz.
Outstanding Winner, Interdisciplinary Contest in Modeling (2015) – Top 0,3 % weltweit.
Outstanding Undergraduate, China Computer Federation (2014) – Einer von zwei Empfängern an der Tsinghua.
Zhong-Shimo-Stipendium, Tsinghua CS Department (2013) – Höchstes Fachbereichsstipendium, Top 0,75 %.
Bronzemedaille, Nationale Informatik-Olympiade (2011) – Nationale Anerkennung im Bereich Wettbewerbsprogrammierung.

Wichtige Beziehungen

Stefano Ermon – PhD- und Postdoktoranden-Betreuer in Stanford; Professor für Informatik und Leiter der Gruppe für probabilistische Modellierung im Stanford AI Lab. Ermons grundlegende Arbeit zu score-basierten generativen Modellen ermöglichte DDIM direkt, und die beiden haben im Laufe von Songs Karriere weiterhin gemeinsam publiziert, darunter das 2025er Papier zu Inductive Moment Matching.
Chenlin Meng – Engste Mitarbeiterin während der Promotionszeit und Co-Erstautorin von DDIM und SDEdit; heute Forscherin in Stanford und Startup-Gründerin. Die beiden waren die treibende Kraft hinter mehreren der einflussreichsten Arbeiten aus der Ermon-Gruppe.
Yang Song – Überschneidender Forscher in der Ermon-Gruppe, dessen Arbeit zu score-basierten generativen Modellen mittels SDEs (ICLR 2021 Best Paper) das zeitkontinuierliche theoretische Gegenstück zu Jiaming Songs DDIM bildete; die beiden arbeiteten parallel an dem, was zur dualen Grundlage der modernen Diffusionsmodell-Literatur wurde.
Linqi Zhou – Häufige Mitarbeiterin der letzten Zeit (Terminal Velocity Matching, Inductive Moment Matching, Inference-Time Scaling); ehemalige Kollegin bei Luma AI und andauernde Forschungspartnerin nach Songs Ausscheiden.
Ambrish Rawat / Luma AI Team – Zusammenarbeit über die Produkt-Pivots Genie → Ray → Uni-1 hinweg; Songs Forschungsleitung bei Luma wurde durch ein enges Ingenieursteam ergänzt, das die Übersetzung vom Modell zum Produkt ermöglichte.

Persönlicher Stil

Song nimmt eine seltene Position in der Landschaft der generativen KI ein: Er hat sowohl wirklich grundlegende theoretische Beiträge geleistet – DDIM schreibt die Mathematik des Diffusions-Samplings neu, nicht nur seine Implementierung – als auch das Produktgefühl bewiesen, ein Unternehmen durch mehrere vollständige Strategiewechsel zu führen. Seine veröffentlichten Texte, darunter ein Blogbeitrag vom März 2025 über Inference-Time Scaling, zeichnen sich durch die Bereitschaft aus, vorherrschende Rahmen infrage zu stellen: Er argumentiert, dass der Gegensatz zwischen autoregressiven und diffusionsbasierten Ansätzen eine falsche Dichotomie ist und dass flowbasierte Ziele neues theoretisches Terrain für das Pre-Training eröffnen. Seine X/Twitter-Präsenz unter dem Handle @baaadas ist spärlich, aber pointiert, was zu einem Forscher passt, der lieber durch seine Arbeit spricht. Der rote Faden von seinen Tsinghua-Wettbewerbspreisen über die schlichte Eleganz der DDIM-Herleitung bis zu seinen jüngsten theoretischen Arbeiten zu Moment Matching und Velocity Matching deutet auf eine beständige Vorliebe hin, die sauberste mathematische Struktur unter einem scheinbar komplexen Problem zu finden.

Referenzen

Persönliche Website: tsong.me
Hello.cv Lebenslauf: hello.cv/quchao-1
Google Scholar: scholar.google.com/citations?user=6dP660cAAAAJ
DBLP: dblp.org/pid/173/5104.html
Semantic Scholar: semanticscholar.org/author/Jiaming-Song/51453887
Stanford-Dissertation: purl.stanford.edu/zy983tp3399 (DBLP-Eintrag für Compression, Generation, and Inference via Supervised Learning)
DDIM-Papier (ICLR 2021): arxiv.org/abs/2010.02502
MIT Technology Review Innovators Under 35 (2024): innovatorsunder35.com/the-list/jiaming-song
Luma AI Uni-1: lumalabs.ai/uni-1
Luma AI Ray: lumalabs.ai/ray
Blog: „Inference-Time Scaling for Generative Pre-Training“: tsong.me/blog/inference-time-scaling