Jiaming Song

ref · 3 Junho , 2026 16:07

Inventor do DDIM e ex-Cientista Chefe da Luma AI, cujo trabalho em amostragem acelerada por difusão ajudou a transformar modelos de difusão de uma curiosidade acadêmica no motor da indústria de IA generativa.


Nascimento	c. 1994, China
Nacionalidade	Chinês
Instituição Atual	Independente (a partir de junho de 2026); anteriormente Luma AI (Cientista Chefe)
Áreas de Pesquisa	Modelos de Difusão, Modelos Generativos Baseados em Score, Geração de Vídeo e Multimodal, Otimização Bayesiana, Aprendizado por Reforço, Aprendizado por Imitação
Orientador de Doutorado	Stefano Ermon
Tese de Doutorado	Compression, Generation, and Inference via Supervised Learning (Stanford University, 2021)
Website	tsong.me
X / Twitter	@baaadas
GitHub	jiamings
Google Scholar	Jiaming Song — 35.900+ citações

Visão Geral

Jiaming Song é um pesquisador chinês de IA generativa mais conhecido por criar o DDIM (Modelos Implícitos de Difusão por Remoção de Ruído), o amostrador acelerado que tornou os modelos de difusão computacionalmente viáveis em escala de produção e se tornou um componente padrão em sistemas como Stable Diffusion, DALL·E 2 e Imagen. Formado pela Universidade Tsinghua e Stanford, onde trabalhou sob orientação de Stefano Ermon, Song conquistou a reputação de combinar teoria probabilística profunda com percepção de engenharia de alto impacto. Após um período de pós-doutorado em Stanford e uma passagem pela NVIDIA Research, ele se juntou à Luma AI como Cientista Chefe, onde liderou a equipe de pesquisa por três pivôs sucessivos de produtos — de reconstrução 3D para geração de vídeo e, em seguida, modelagem multimodal unificada — culminando no modelo de vídeo Dream Machine (Ray) e no sistema de raciocínio multimodal Uni-1. Ele deixou a Luma AI em meados de 2026, com seu próximo destino não divulgado.

Início da Vida e Educação

Song recebeu sua educação de graduação na Universidade Tsinghua, concluindo um Bacharelado em Engenharia da Computação e Tecnologia entre 2012 e 2016. Ele se formou com Honra Extraordinária (Top 1% de sua turma), recebendo a Bolsa Zhong Shimo — o prêmio de maior mérito no departamento de Ciência da Computação (Top 0,75%) —, bem como a Bolsa Google de Excelência (concedida a 58 estudantes em toda a China) e a Bolsa Qualcomm para pesquisa excepcional. Seu reconhecimento precoce também se estendeu à matemática e computação competitivas: ele ganhou um Bronze na Olimpíada Nacional de Informática em 2011 e ficou como Vencedor de Destaque (Top 0,3%) no Concurso Interdisciplinar de Modelagem em 2015. Durante seus anos de graduação, foi pesquisador visitante na Iniciativa de Informação da Duke University (verão de 2015), onde trabalhou em redes sigmoides de crença temporais, sinalizando uma orientação precoce para modelos generativos probabilísticos.

Em setembro de 2016, Song se matriculou na Stanford University para estudos de doutorado em Ciência da Computação, juntando-se ao grupo de pesquisa do Professor Stefano Ermon no Stanford AI Lab. Sua dissertação, Compression, Generation, and Inference via Supervised Learning, desenvolveu uma estrutura unificada para aprender distribuições complexas sem exigir normalização explícita, entrelaçando modelagem generativa baseada em score, modelos probabilísticos implícitos e suas aplicações a problemas inversos. Durante seu doutorado, ele estagiou na OpenAI (verão de 2017), onde trabalhou em abstração interpretável de habilidades a partir da linguagem, e no Facebook AI Research (verão de 2018), contribuindo para a contagem de objetos em grande escala a partir de imagens de satélite. Ele concluiu seu doutorado em setembro de 2021 e permaneceu em Stanford como Pesquisador de Pós-Doutorado sob Ermon por mais um ano (até junho de 2022).

Carreira

Stanford University, Grupo Ermon (2016–2022)

A contribuição mais consequente de Song durante a graduação veio em outubro de 2020 com a publicação de Modelos Implícitos de Difusão por Remoção de Ruído (DDIM) no arXiv, em coautoria com Chenlin Meng e Stefano Ermon, e apresentada no ICLR 2021. Na época, os Modelos Probabilísticos de Difusão por Remoção de Ruído (DDPMs) exigiam simular uma cadeia de Markov de 1.000 ou mais passos para gerar uma única imagem, tornando-os impraticáveis para a maioria das implantações em produção. A percepção-chave de Song foi que o objetivo de treinamento dos DDPMs é compatível com uma família mais ampla de processos de difusão não-Markovianos cujos passos reversos podem ser resolvidos com muito menos iterações. O DDIM reduziu os passos de amostragem necessários em até 50×, preservando a qualidade da imagem e introduzindo uma nova capacidade: amostragem determinística que permite interpolação semântica no espaço latente. O artigo se tornou um dos trabalhos mais citados na história da IA generativa, e o amostrador DDIM foi integrado quase universalmente em sistemas downstream, incluindo Stable Diffusion, DALL·E 2, Imagen e Midjourney.

Outras contribuições significativas da era do doutorado incluem SDEdit (ICLR 2022), um método de síntese e edição de imagens baseado em priores de modelo de difusão que possibilitou a geração de imagens guiada por traços sem treinamento adversarial; DDRM (Modelos de Restauração por Difusão por Remoção de Ruído, NeurIPS 2022), estendendo modelos de difusão para problemas inversos lineares gerais, incluindo super-resolução, desfocagem e inpainting; e D2C (Modelos de Remoção de Ruído por Difusão para Geração Condicional com Poucos Exemplos, NeurIPS 2021). Seu Prêmio de Artigo de Destaque do ICLR 2022 foi conquistado por uma linha de trabalho separada — „Comparing Distributions by Measuring Differences that Affect Decision Making“ — demonstrando alcance além da modelagem generativa pura.

Como pós-doutorando (2021–2022), Song continuou publicando na interseção de otimização bayesiana e modelos generativos, incluindo „A General Recipe for Likelihood-free Bayesian Optimization“ (ICML 2022 Long Oral, Top 2,2%).

NVIDIA Research (Junho de 2022 – c. 2023)

Song ingressou na NVIDIA Research como Cientista de Pesquisa, com foco em modelos de difusão para geração multimodal e pesquisa de modelos de base. Lá, ele coautorou eDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (TMLR 2023), que demonstrou que diferentes estágios do processo de amostragem por difusão se beneficiam de expertise modelar especializada e propôs uma estrutura prática de mistura de removedores de ruído para síntese de texto para imagem de alta resolução.

Luma AI, Cientista Chefe (c. 2023 – Junho de 2026)

Song ingressou na Luma AI como Cientista Chefe enquanto a empresa estava fazendo o pivô de suas origens em reconstrução 3D baseada em NeRF (neural radiance field) para vídeo generativo e IA multimodal. Ele liderou a pesquisa em toda a pilha de modelagem — arquitetura, infraestrutura de treinamento e pipelines de dados — através de três fases sucessivas de produto.

Genie foi a linha de geração 3D da Luma, aplicando técnicas baseadas em difusão à síntese controlável de objetos e cenas. Song liderou a transição dessa base para a geração de vídeo.

Ray / Dream Machine (lançado publicamente em junho de 2024) é a família de modelos de geração de vídeo da Luma, focada em coerência temporal, movimento consciente de câmera e controle criativo a partir de prompts de texto ou imagem. O Dream Machine atraiu mais de um milhão de usuários em quatro dias de lançamento. O modelo estabeleceu a Luma AI como um player líder no espaço de geração de vídeo por IA ao lado de Sora (OpenAI), Gen-3 (Runway) e Kling (Kuaishou). Por este trabalho, Song foi nomeado para a lista Innovators Under 35 da MIT Technology Review em 2024.

Uni-1 (lançado em 2025) é o modelo de raciocínio multimodal unificado da Luma para geração e edição de imagens, construído em torno de compreensão de intenção, raciocínio espacial, geração guiada por referência e criação visual culturalmente consciente — representando o movimento da Luma em direção a uma IA multimodal agentiva e que segue instruções.

Junto com seu trabalho de produto, Song continuou publicando sobre problemas fundamentais de modelagem generativa. No início de 2025, ele coautorou „Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms“ (com Linqi Zhou), argumentando contra a falsa dicotomia entre autoregressão e difusão e propondo que mapas de fluxo podem permitir computação em tempo de inferência para melhorar a qualidade do pré-treinamento generativo — uma linha de pensamento que ele também elaborou em sua postagem de blog „Inference-Time Scaling for Generative Pre-Training“. Ele coautorou „Inductive Moment Matching“ (com Linqi Zhou e Stefano Ermon) e „Terminal Velocity Matching“, ambos avançando a teoria do treinamento eficiente de modelos generativos.

Song confirmou sua saída da Luma AI em junho de 2026. Seu site pessoal o descreve como construindo „sistemas multimodais de IA para inteligência geral“, e seu próximo empreendimento ou função não havia sido anunciado publicamente até o momento desta redação.

Principais Contribuições

DDIM (Modelos Implícitos de Difusão por Remoção de Ruído) — Introduziu uma classe não-Markoviana de processos de difusão que reutilizam o treinamento DDPM existente, permitindo amostragem 10–50× mais rápida e interpolação latente determinística; adotado quase universalmente em sistemas de geração de imagens em produção, incluindo Stable Diffusion, DALL·E 2, Imagen e Midjourney. O artigo acumulou mais de 35.900 citações no perfil acadêmico de Song; só o DDIM está entre os artigos mais citados no aprendizado profundo moderno.
SDEdit: Guided Image Synthesis via Stochastic Differential Equations (ICLR 2022) — Permitiu edição de imagens guiada por traços e referências através de priores de difusão sem treinamento adversarial ou modelos específicos de tarefa, abrindo uma linha de pesquisa em geração controlável com influência downstream generalizada.
DDRM: Denoising Diffusion Restoration Models (NeurIPS 2022) — Estendeu a estrutura de difusão para a família de problemas inversos lineares (desfocagem, super-resolução, inpainting), superando métodos não supervisionados anteriores em qualidade de reconstrução e fidelidade perceptual a 5× a velocidade.
eDiff-I (TMLR 2023) — Propôs uma arquitetura de conjunto de removedores de ruído especialistas para geração de texto para imagem, demonstrando que diferentes timesteps de remoção de ruído se beneficiam de redes especializadas; contribuiu para o roadmap de IA generativa da NVIDIA.
Dream Machine / Ray (Luma AI, 2024) — Liderou a pesquisa em um modelo de geração de vídeo amplamente adotado por criadores e reconhecido como uma mudança de patamar em vídeo de IA consistente com câmera e fisicamente plausível; alcançou mais de 1 milhão de usuários em quatro dias de lançamento.
Uni-1 (Luma AI, 2025) — Liderou o desenvolvimento de um modelo multimodal unificado combinando compreensão, geração e edição de imagens sob uma única arquitetura guiada por intenção em linguagem natural.
Inference-time scaling for generative pre-training (2025) — Uma direção de pesquisa emergente argumentando que a computação em tempo de inferência pode melhorar sistematicamente o pré-treinamento baseado em difusão e fluxo, com implicações análogas ao escalonamento de cadeias de pensamento em modelos de linguagem.

Prêmios e Reconhecimento

MIT Technology Review Innovators Under 35 — Ásia Pacífico (2024) — Reconhecido por liderar o desenvolvimento do Dream Machine e contribuições inovadoras para a geração de vídeo por IA em larga escala.
Prêmio de Artigo de Destaque do ICLR 2022 — Por „Comparing Distributions by Measuring Differences that Affect Decision Making“, um dos artigos mais bem reconhecidos na Conferência Internacional de Representações de Aprendizagem.
Apresentação Long Oral do ICML 2022 (Top 2,2%) — Por „A General Recipe for Likelihood-free Bayesian Optimization“.
Qualcomm Innovation Fellowship (2018) — Um dos oito beneficiários nacionalmente pelo projeto „Safe Multi-Agent Imitation Learning for Self-Driving“.
Bolsa Qualcomm, Universidade Tsinghua (2016) — Concedida ao top 1% dos alunos de graduação da Tsinghua por produção excepcional de pesquisa.
Bolsa Google de Excelência (2015) — Concedida a 58 alunos de graduação e pós-graduação em toda a China por distinção acadêmica e de pesquisa.
Vencedor de Destaque, Concurso Interdisciplinar de Modelagem (2015) — Top 0,3% globalmente.
Aluno de Graduação de Destaque, Federação Chinesa de Computação (2014) — Um dos dois beneficiários na Tsinghua.
Bolsa Zhong Shimo, Departamento de Ciência da Computação da Tsinghua (2013) — Maior bolsa departamental, Top 0,75%.
Bronze, Olimpíada Nacional de Informática (2011) — Reconhecimento nacional em programação competitiva.

Principais Relacionamentos

Stefano Ermon — Orientador de doutorado e pós-doutorado em Stanford; Professor de Ciência da Computação e líder do grupo de modelagem probabilística do Stanford AI Lab. O trabalho fundamental de Ermon sobre modelos generativos baseados em score possibilitou diretamente o DDIM, e a dupla continuou a coautorar ao longo da carreira de Song, incluindo o artigo Inductive Moment Matching de 2025.
Chenlin Meng — Colaborador mais próximo da era do doutorado e co-primeiro autor de DDIM e SDEdit; agora pesquisadora em Stanford e fundadora de startup independente. Os dois foram a principal força motriz por trás de vários dos artigos mais influentes a emergir do grupo Ermon.
Yang Song — Pesquisador sobreposto no grupo Ermon cujo trabalho em modelos generativos baseados em score via EDEs (ICLR 2021 Best Paper) formou o complemento teórico de tempo contínuo ao DDIM de Jiaming Song; os dois trabalharam em paralelo no que se tornou a fundação dupla da literatura moderna de modelos de difusão.
Linqi Zhou — Colaborador frequente recente (Terminal Velocity Matching, Inductive Moment Matching, inference-time scaling); ex-colega da Luma AI e parceiro de pesquisa contínuo após a saída.
Ambrish Rawat / equipe Luma AI — Colaborou nos pivôs de produto Genie → Ray → Uni-1; a liderança de pesquisa de Song na Luma foi complementada por uma equipe de engenharia coesa que permitiu a tradução de modelo para produto.

Estilo Pessoal

Song ocupa uma posição rara no panorama da IA generativa como alguém que fez contribuições teóricas genuinamente fundamentais — o DDIM reescreve a matemática da amostragem por difusão, não apenas sua implementação — enquanto também demonstra os instintos de produto para guiar uma empresa através de múltiplos pivôs estratégicos completos. Sua escrita publicada, incluindo uma postagem de blog de março de 2025 sobre inference-time scaling, é notável por sua disposição de desafiar o consenso: ele argumenta que a oposição entre abordagens autoregressivas e de difusão é uma falsa dicotomia, e que objetivos baseados em fluxo abrem novo território teórico para o pré-treinamento. Sua presença no X/Twitter sob o handle @baaadas é esparsa, mas incisiva, consistente com um pesquisador que prefere falar através do trabalho. A linha condutora de seus prêmios de competição na Tsinghua, passando pela elegância espartana da derivação do DDIM, até seus artigos teóricos recentes sobre moment matching e velocity matching, sugere uma preferência persistente por encontrar a estrutura matemática mais limpa subjacente a um problema aparentemente complexo.

Referências

Site pessoal: tsong.me
Currículo Hello.cv: hello.cv/quchao-1
Google Scholar: scholar.google.com/citations?user=6dP660cAAAAJ
DBLP: dblp.org/pid/173/5104.html
Semantic Scholar: semanticscholar.org/author/Jiaming-Song/51453887
Dissertação de Stanford: purl.stanford.edu/zy983tp3399 (registro DBLP para Compression, Generation, and Inference via Supervised Learning)
Artigo DDIM (ICLR 2021): arxiv.org/abs/2010.02502
MIT Technology Review Innovators Under 35 (2024): innovatorsunder35.com/the-list/jiaming-song
Luma AI Uni-1: lumalabs.ai/uni-1
Luma AI Ray: lumalabs.ai/ray
Blog: „Inference-Time Scaling for Generative Pre-Training“: tsong.me/blog/inference-time-scaling