Jascha Sohl-Dickstein

Chercheur américain en apprentissage automatique qui a inventé les modèles génératifs basés sur la diffusion en 2015 — le fondement mathématique de Stable Diffusion, DALL-E 2, Sora, et pratiquement tous les autres grands systèmes d’IA générative d’images et de vidéos — après une carrière qui a commencé par la navigation des rovers martiens et a inclus de profondes contributions à la théorie des réseaux de neurones, au méta-apprentissage et à l’évaluation des grands modèles de langage (LLM).


Profil

Nationalité Américaine
Institution(s) actuelle(s) Anthropic (Membre du personnel technique)
Domaines de recherche Modèles génératifs, Modèles de diffusion, Physique statistique, Théorie des réseaux de neurones, Méta-apprentissage, Réseaux de largeur infinie, Évaluation des LLM
Directeur de thèse Bruno Olshausen
Thèse de doctorat Doctorat, Redwood Center for Theoretical Neuroscience, UC Berkeley (2012)
Site web sohldickstein.com
Blog sohl-dickstein.github.io
X / Twitter @jaschasd
GitHub Sohl-Dickstein
Google Scholar Jascha Sohl-Dickstein

Aperçu

Jascha Sohl-Dickstein est un chercheur américain en apprentissage automatique, actuellement membre du personnel technique chez Anthropic, surtout connu comme l’inventeur des modèles génératifs à base de diffusion. L’article de 2015 à l’ICML dont il est le premier auteur — « Deep Unsupervised Learning using Nonequilibrium Thermodynamics » — a introduit le cadre mathématique du bruitage direct itératif et du débruitage inverse appris, emprunté à la physique statistique hors d’équilibre, qui sous-tend toute la famille moderne des modèles de diffusion : DDPM, l’appariement de scores, les modèles de diffusion latents, Stable Diffusion, DALL-E 2, Imagen et Sora. L’article a été largement ignoré pendant cinq ans, jusqu’à ce que l’article DDPM de Jonathan Ho et ses collègues (2020) en démontre le potentiel pratique à grande échelle, après quoi tout le domaine a rétroactivement reconnu la formulation de Sohl-Dickstein de 2015 comme la contribution fondatrice. Au-delà des modèles de diffusion, il a apporté des contributions significatives à la théorie des réseaux de neurones surparamétrés et de largeur infinie (y compris la co-création de la bibliothèque Neural Tangents), au méta-apprentissage des optimiseurs appris, et au benchmark BIG-Bench pour l’évaluation des grands modèles de langage. Son parcours est inhabituellement large pour un chercheur en apprentissage automatique : il a étudié la physique et les neurosciences théoriques, a travaillé sur la mission Mars Exploration Rover au JPL (où il a brièvement vécu à l’heure martienne), a passé du temps comme résident académique à la Khan Academy, et a occupé un poste de chercheur invité dans le laboratoire de Surya Ganguli à Stanford avant un mandat de dix ans en tant que scientifique principal chez Google Brain et Google DeepMind.


Jeunesse & Formation

Mars Exploration Rover — JPL (avant le doctorat)

Avant d’entrer dans l’apprentissage automatique académique, Sohl-Dickstein a travaillé au Jet Propulsion Laboratory de la NASA sur la mission Mars Exploration Rover — le projet de rover jumeau qui a fait atterrir Spirit et Opportunity sur Mars en janvier 2004. Son rôle l’obligeait à fonctionner à « l’heure martienne » : parce que le jour martien dure environ 24 heures et 37 minutes, les contrôleurs de mission devaient synchroniser leurs cycles de sommeil et d’éveil avec le lever et le coucher du soleil martiens, décalant leur horaire terrestre de 37 minutes chaque jour. Il a décrit cela comme l’exigence professionnelle la plus inhabituelle de sa carrière, et cela a duré trois mois.

Doctorat — Redwood Center for Theoretical Neuroscience, UC Berkeley (–2012)

Sohl-Dickstein a terminé son doctorat au Redwood Center for Theoretical Neuroscience de l’UC Berkeley — un centre spécialisé dans les modèles computationnels et mathématiques des systèmes neuronaux biologiques — sous la direction de Bruno Olshausen. Sa thèse s’appuyait sur l’intersection de la physique, des neurosciences et de l’apprentissage automatique, développant des modèles probabilistes pour les distributions de données ayant leurs origines dans la physique statistique. Un résultat précoce clé a été « Minimum Probability Flow Learning » (ICML 2011, avec Peter Battaglino et Michael DeWeese), qui proposait une nouvelle méthode d’estimation des paramètres évitant de calculer des constantes de normalisation intraîtables ou d’échantillonner à partir de distributions d’équilibre en exploitant la dynamique du flux hors d’équilibre — préfigurant les intuitions thermodynamiques qui allaient plus tard définir le cadre du modèle de diffusion.

Après le doctorat : Stanford et Khan Academy

Après Berkeley, Sohl-Dickstein a occupé un poste de chercheur invité dans le laboratoire de neurosciences théoriques de Surya Ganguli à Stanford, travaillant à l’intersection de la physique statistique et de l’apprentissage automatique qui produirait l’article sur les modèles de diffusion. Il a également passé du temps comme résident académique à la Khan Academy, l’organisation éducative à but non lucratif, reflétant un intérêt pour la manière dont l’apprentissage automatique pourrait être appliqué à la technologie éducative.


Carrière

Google Brain — Scientifique principal (env. 2015–2023)

Sohl-Dickstein a rejoint Google Brain peu après la soumission de l’article sur les modèles de diffusion en 2015, devenant scientifique principal et y restant environ huit ans jusqu’à la fusion Brain-DeepMind en 2023. Son travail chez Google Brain couvrait plusieurs directions de recherche parallèles.

Modèles de diffusion (2015, reconnus 2020–). L’article ICML 2015 « Deep Unsupervised Learning using Nonequilibrium Thermodynamics », co-écrit avec Eric Weiss, Niru Maheswaranathan et Surya Ganguli, a introduit le cadre du modèle probabiliste de diffusion. L’idée centrale, tirée de la thermodynamique hors d’équilibre, est élégante : une chaîne de Markov directe détruit progressivement la structure d’une distribution de données en ajoutant du bruit gaussien étape par étape ; une chaîne de Markov inverse, paramétrée par un réseau de neurones profond, est entraînée à inverser ce processus, restaurant la structure à partir du bruit. Parce que chaque étape du processus inverse est une petite opération de débruitage bien comportée, le modèle est facile à entraîner et à échantillonner malgré la grande flexibilité de la distribution apprise. L’article a démontré la technique sur MNIST, CIFAR-10 et d’autres ensembles de données, mais a reçu une attention et des citations limitées de la communauté pendant cinq ans. En 2020, Jonathan Ho, Ajay Jain et Pieter Abbeel ont publié « Denoising Diffusion Probabilistic Models » (DDPM) à NeurIPS, passant à l’échelle de l’approche pour la synthèse d’images de haute qualité et créditant explicitement la formulation de Sohl-Dickstein de 2015 comme le travail fondateur antérieur. L’explosion ultérieure du domaine — Stable Diffusion, DALL-E 2, Imagen, modèles basés sur les scores, modèles de diffusion latents, Sora — découle directement de l’article de 2015. En 2025, il avait accumulé plus de 20 000 citations, ce qui en fait l’un des articles les plus conséquents sur la modélisation générative de l’histoire.

Théorie des réseaux de neurones — surparamétrisation et réseaux de largeur infinie. Travaillant principalement avec Samuel Schoenholz, Sohl-Dickstein a développé une série d’articles sur les propriétés théoriques des réseaux de neurones profonds, notamment « Deep Information Propagation » (ICLR 2017) caractérisant les propriétés de propagation du signal et de flux de gradient qui déterminent si des réseaux très profonds peuvent être entraînés, et une série d’articles établissant la correspondance entre les réseaux de neurones de largeur infinie et les processus gaussiens (la correspondance NNGP). Ce travail a contribué à l’analyse formelle de l’espace fonctionnel des réseaux de neurones à largeur infinie, qui a ensuite été synthétisé dans le cadre du noyau tangent neuronal (NTK).

Neural Tangents (2020). Sohl-Dickstein a co-créé Neural Tangents, une bibliothèque JAX open source qui permet de calculer exactement le noyau du processus gaussien du réseau de neurones (NNGP) et le noyau tangent neuronal (NTK) pour les réseaux finis et analytiquement pour les réseaux de largeur infinie de profondeur et d’architecture arbitraires. La bibliothèque est devenue l’outil standard pour étudier les réseaux de neurones surparamétrés d’un point de vue noyau et bayésien, et a été largement utilisée dans les études empiriques de la dynamique d’apprentissage des réseaux de neurones.

BIG-Bench: Beyond the Imitation Game (2022). Sohl-Dickstein a été un contributeur principal à BIG-Bench, un benchmark collaboratif pour évaluer les capacités et les limites des modèles de langage avec 444 auteurs de plus de 130 institutions. BIG-Bench a rassemblé 204 tâches conçues pour sonder les aspects du raisonnement, des connaissances du monde et de la compréhension du langage au-delà de ce que les benchmarks standard pouvaient évaluer, et a testé des modèles, notamment GPT-3, les prédécesseurs de GPT-4, PaLM et d’autres. L’article qui en a résulté a fourni l’une des caractérisations publiques les plus complètes des capacités des LLM de pointe disponibles au moment de la publication et a été largement utilisé dans les travaux ultérieurs sur les lois d’échelle et l’analyse des capacités.

Optimiseurs appris (2022). Sohl-Dickstein a co-écrit « Learned Optimizers that Outperform Adam on Wall-Clock and Test Loss » (2022), démontrant que des optimiseurs basés sur des réseaux de neurones méta-entraînés pouvaient surpasser Adam à la fois en vitesse de convergence et en qualité finale du modèle sur une variété de tâches. Le travail a étendu les résultats antérieurs sur le méta-apprentissage des algorithmes d’optimisation et a résolu des obstacles pratiques qui avaient précédemment empêché le déploiement à grande échelle des optimiseurs appris.

Connectivité en mode linéaire. Avec Jonathan Frankle, Gintare Karolina Dziugaite, Daniel Roy et Michael Carbin, Sohl-Dickstein a co-écrit « Linear Mode Connectivity and the Lottery Ticket Hypothesis » (ICML 2020), qui a caractérisé la structure géométrique des paysages de perte des réseaux de neurones et a montré que les solutions trouvées par la descente de gradient stochastique sont linéairement connectées dans l’espace des poids après une courte période d’entraînement initiale — avec des implications pour l’hypothèse du ticket gagnant (lottery ticket hypothesis) et la stabilité du modèle.

Google DeepMind (2023)

Après la fusion de Google Brain et DeepMind en 2023, Sohl-Dickstein a brièvement occupé le titre de scientifique principal de l’institution combinée avant de partir pour Anthropic.

Anthropic — Membre du personnel technique (env. 2024–présent)

Sohl-Dickstein a rejoint Anthropic en tant que membre du personnel technique. Son site web personnel, mis à jour en janvier 2024, confirme cette affiliation. Compte tenu de l’accent mis par Anthropic sur la sécurité de l’IA, l’interprétabilité et le développement de modèles de pointe, son arrivée a apporté l’inventeur des modèles de diffusion et une décennie de théorie des réseaux de neurones à grande échelle dans un environnement de recherche axé sur la sécurité.


Contributions clés

  • Modèles probabilistes de diffusion (ICML 2015) — « Deep Unsupervised Learning using Nonequilibrium Thermodynamics », avec Eric Weiss, Niru Maheswaranathan et Surya Ganguli. A introduit le cadre du bruitage direct et du débruitage inverse appris comme paradigme de modélisation générative, en s’appuyant sur la thermodynamique hors d’équilibre. L’article fondateur de toute la famille des modèles de diffusion qui alimente maintenant Stable Diffusion, DALL-E 2, Imagen et Sora. A accumulé plus de 20 000 citations. Largement décrit comme le « plus grand titre de gloire » de Sohl-Dickstein — selon ses propres mots.

  • Apprentissage par flux de probabilité minimum (ICML 2011) — A développé une méthode d’estimation des paramètres pour les modèles probabilistes qui évite de calculer les fonctions de partition en exploitant la dynamique hors d’équilibre — la première démonstration de l’approche distinctive de Sohl-Dickstein consistant à importer des concepts de physique statistique dans l’apprentissage automatique, qui a ensuite défini la contribution du modèle de diffusion.

  • Bibliothèque Neural Tangents (2020) — A co-créé la bibliothèque open source standard pour le calcul des noyaux NNGP et NTK pour les réseaux de neurones de largeur infinie et finie en JAX. Devenue l’outil de référence pour la recherche sur les réseaux de neurones de largeur infinie.

  • Propagation profonde de l’information (ICLR 2017) — Avec Samuel Schoenholz. A caractérisé la théorie du champ moyen de la propagation du signal dans les réseaux profonds, fournissant le premier cadre de principes pour analyser l’entraînabilité en fonction de la profondeur, de l’initialisation et de l’architecture — influençant directement la compréhension ultérieure de l’explosion et de la disparition du gradient dans les réseaux très profonds.

  • BIG-Bench: Beyond the Imitation Game (2022) — Contributeur principal au benchmark collaboratif de 444 auteurs fournissant l’évaluation la plus complète des capacités des modèles de langage de pointe disponibles à l’époque, sur 204 tâches diverses de raisonnement et de connaissances.

  • Optimiseurs appris (2022) — Travail co-écrit démontrant que les optimiseurs de réseaux de neurones méta-entraînés peuvent surpasser Adam à grande échelle, faisant progresser la viabilité pratique de l’optimisation apprise.


Prix & Reconnaissance

  • Candidat au meilleur article ICML 2015 — L’article sur les modèles de diffusion a été présenté à l’ICML 2015 ; sa reconnaissance rétroactive comme l’un des articles ML les plus conséquents de la décennie se reflète dans plus de 20 000 citations en 2025.
  • Article exceptionnel NeurIPS 2022 (BIG-Bench) — L’article BIG-Bench a reçu la reconnaissance d’article exceptionnel.
  • Identification Semantic Scholar — Constamment identifié comme l’un des chercheurs les plus cités dans le domaine de la modélisation générative.

Relations clés

  • Bruno Olshausen — Directeur de thèse au Redwood Center for Theoretical Neuroscience de l’UC Berkeley ; pionnier du codage parcimonieux et des neurosciences computationnelles qui a façonné l’approche de Sohl-Dickstein, informée par la physique, de l’apprentissage automatique.
  • Surya Ganguli — Professeur de neurosciences théoriques à Stanford et collaborateur ; co-auteur de l’article original sur les modèles de diffusion de 2015 ; Sohl-Dickstein a été chercheur invité dans son laboratoire, et les deux partagent un engagement à connecter la physique statistique avec la théorie de l’apprentissage automatique.
  • Eric Weiss et Niru Maheswaranathan — Co-auteurs de l’article original sur la diffusion de 2015 ; tous deux faisaient partie du laboratoire Ganguli ou du réseau du Redwood Center.
  • Jonathan Ho — Auteur principal de DDPM (2020), qui s’est directement appuyé sur l’article de Sohl-Dickstein de 2015 et a amené les modèles de diffusion à une utilité pratique à grande échelle ; l’article de Ho est le lien entre la contribution fondatrice de Sohl-Dickstein et l’écosystème moderne des modèles de diffusion.
  • Samuel Schoenholz — Collègue de Google Brain et collaborateur le plus proche sur la théorie des réseaux de neurones ; le travail sur la propagation profonde de l’information et la théorie de la surparamétrisation a été une collaboration soutenue.
  • Jonathan Frankle, Gintare Karolina Dziugaite, Daniel Roy, Michael Carbin — Co-auteurs de l’article sur la connectivité en mode linéaire ; une collaboration interinstitutionnelle qui a relié Google Brain au MIT, à l’Université de Toronto et à la recherche académique sur l’hypothèse du ticket gagnant.

Style personnel

Le profil intellectuel de Sohl-Dickstein est véritablement inhabituel : un chercheur dont le travail le plus célèbre s’appuie sur la thermodynamique du 19e siècle (l’égalité de Jarzynski et la mécanique statistique hors d’équilibre) pour résoudre un problème d’apprentissage automatique du 21e siècle, et qui a passé des mois à vivre littéralement à l’heure martienne avant de poursuivre un doctorat en neurosciences théoriques. Son site web personnel décrit ses intérêts comme « l’apprentissage automatique, les neurosciences, la physique statistique, les systèmes dynamiques » — et contrairement à beaucoup de listes de ce genre, celle-ci est exacte. Son blog, qu’il décrit comme un espace pour « des idées trop étranges, incomplètes ou hors sujet pour être transformées en article académique », reflète une préférence pour le partage d’idées à moitié formées mais potentiellement importantes plutôt que d’attendre des résultats aboutis. Sa relation avec l’héritage du modèle de diffusion est caractéristiquement ironique : son site web dit qu’il est « surtout (tristement) célèbre pour avoir inventé les modèles de diffusion », et sa page « à propos » du blog appelle cela son « plus grand titre de gloire » tout en notant que le blog lui-même a l’intention de parler de choses qui ne sont ni l’apprentissage automatique ni le fait de garder des heures étranges.


Références