Shixiang Shane Gu

Chercheur sino-canadien né au Japon dont la carrière couvre l’inférence bayésienne, l’apprentissage par renforcement profond efficace en termes d’échantillons, l’apprentissage des robots et le raisonnement des LLM — le plus connu du grand public en tant que co-auteur de l’article « Let’s think step by step » sur le raisonnement « zero-shot chain-of-thought ».


Profil

Japon (date non divulguée publiquement)
Nationalité Sino-canadien (né au Japon)
Institution(s) actuelle(s) Google DeepMind (chercheur scientifique senior, équipe Gemini Thinking)
Domaines de recherche Apprentissage par renforcement, Apprentissage profond, Robotique, Apprentissage automatique probabiliste, Grands modèles de langage, Raisonnement
Directeur de thèse Richard E. Turner ; Zoubin Ghahramani ; Bernhard Schölkopf
Thèse de doctorat PhD en apprentissage automatique — Université de Cambridge & Institut Max Planck pour les systèmes intelligents (bourse Cambridge-Tübingen)
Site web sites.google.com/view/gugurus
X / Twitter @shaneguML (anglais) ; @shanegJP (japonais)
Google Scholar Shixiang Shane Gu — plus de 72 000 citations

Aperçu

Shixiang Shane Gu est chercheur scientifique senior chez Google DeepMind, où il travaille actuellement au sein de l’équipe Gemini Thinking. Né au Japon, sino-canadien, parlant couramment anglais, japonais et mandarin, sa carrière de chercheur couvre un éventail de sous-domaines exceptionnellement large : l’inférence bayésienne et l’apprentissage automatique probabiliste pendant son doctorat, l’apprentissage par renforcement profond efficace en termes d’échantillons chez Google Brain, l’apprentissage robotique à grande échelle en tant que membre fondateur de l’équipe Google Brain Robotics, l’alignement et le raisonnement des LLM lors de ses passages dans l’équipe ChatGPT d’OpenAI et en tant que contributeur à GPT-4, ainsi que le post-entraînement multilingue et le raisonnement « chain-of-thought » chez Google DeepMind. Il est surtout connu de la communauté IA en tant que co-auteur de l’article « Large Language Models are Zero-Shot Reasoners » (NeurIPS 2022), qui a introduit l’invite « Let’s think step by step » et a démontré que le raisonnement « zero-shot chain-of-thought » est une capacité émergente des grands modèles de langage. Il a également co-inventé le Gumbel-Softmax — désormais une technique différentiable standard pour les variables latentes discrètes — et a contribué aux algorithmes Gumbel-Softmax, Q-Prop et connexes qui ont façonné le programme d’efficacité en termes d’échantillons dans le RL profond. Il a occupé des postes de visiteur à l’Université de Tokyo (professeur associé invité) et à l’Université Stanford, et a dirigé l’entrée d’OpenAI sur le marché japonais.


Jeunesse et éducation

Gu est né au Japon dans une famille chinoise et s’est ensuite installé au Canada, s’identifiant comme sino-canadien né au Japon. Il a poursuivi des études de premier cycle en « Engineering Science » à l’Université de Toronto, où son superviseur était Geoffrey E. Hinton — l’un des mentorats les plus conséquents disponibles en apprentissage automatique à l’époque. Le groupe Hinton à Toronto a été le creuset d’une grande partie de la révolution de l’apprentissage profond, et la formation de Gu l’a placé au centre de ce réseau dès le début de sa carrière de chercheur.

Pour son travail doctoral, Gu a reçu une bourse de doctorat Cambridge-Tübingen — un programme conjoint compétitif entre le groupe d’apprentissage automatique de l’Université de Cambridge et l’Institut Max Planck pour les systèmes intelligents — et a obtenu un doctorat en apprentissage automatique sous la supervision de Richard E. Turner et Zoubin Ghahramani à Cambridge et de Bernhard Schölkopf à l’MPI. Ses recherches doctorales ont porté sur l’apprentissage automatique probabiliste et l’inférence bayésienne, notamment des contributions au « Neural Adaptive Sequential Monte Carlo » et aux estimateurs de gradient pour les réseaux stochastiques. Il a également reçu une bourse du CRSNG (Conseil de recherches en sciences naturelles et en génie du Canada) durant cette période.


Carrière

Google Brain — Chercheur scientifique, Membre fondateur de Google Brain Robotics (environ 2016–2022)

Gu a rejoint Google Brain en tant que chercheur scientifique, basé entre les États-Unis et le Japon, et est devenu membre fondateur de l’équipe Google Brain Robotics — l’un des premiers groupes de recherche industrielle dédiés à l’application de l’apprentissage profond au contrôle physique des robots. Durant cette période, il a poursuivi deux axes de recherche parallèles qui ont chacun eu un impact durable.

Apprentissage par renforcement profond efficace en termes d’échantillons. Les travaux de Gu sur le RL ont abordé ce qu’il identifiait comme le goulot d’étranglement principal pour la robotique du monde réel : la complexité d’échantillonnage prohibitive des algorithmes de RL profond. Travaillant principalement avec Timothy Lillicrap, Sergey Levine, Zoubin Ghahramani et Richard Turner, il a développé une séquence d’algorithmes de plus en plus efficaces. NAF (Normalized Advantage Functions, ICML 2016) a introduit une approche d’apprentissage Q continu utilisant des représentations d’avantage quadratiques, permettant un apprentissage hors politique dans les espaces d’action continus. Q-Prop (ICLR 2017 Oral) a combiné la stabilité en politique avec l’efficacité hors politique en utilisant un développement de Taylor d’un critique hors politique comme variable de contrôle — une technique qui a considérablement amélioré l’efficacité en termes d’échantillons par rapport à TRPO et DDPG sur les benchmarks MuJoCo. IPG (Interpolated Policy Gradient, NIPS 2017) a généralisé le spectre en/hors politique théoriquement et empiriquement. Les travaux sur le RL profond multi-robot asynchrone (ICRA 2017) ont démontré que la parallélisation de l’apprentissage hors politique sur plusieurs robots physiques pouvait réaliser des compétences de manipulation complexes — un résultat présenté dans le MIT Technology Review et un billet de blog Google Research, et parmi les premières démonstrations d’entraînement RL profond directement sur du matériel robotique réel à grande échelle.

Gumbel-Softmax (ICLR 2017). Parallèlement au RL, Gu a co-inventé la reparamétrisation Gumbel-Softmax (avec Eric Jang et Ben Poole), publiée simultanément avec une méthode étroitement liée (Concrete Distribution) par Maddison et al. La technique fournit une approximation différentiable de l’échantillonnage catégoriel, permettant la rétropropagation à travers des variables latentes discrètes. Elle est devenue immédiatement et durablement standard dans les autoencodeurs variationnels, les modèles génératifs discrets et la recherche d’architecture neuronale.

Zero-Shot Chain-of-Thought („Let’s think step by step‟, NeurIPS 2022). Durant sa période chez Google Brain, Gu a co-écrit l’article « Large Language Models are Zero-Shot Reasoners » avec Takeshi Kojima, Machel Reid, Yutaka Matsuo et Yusuke Iwasawa. L’article a démontré que l’ajout d’une seule invite universelle — « Let’s think step by step » — avant la réponse d’un LLM suscite un raisonnement en plusieurs étapes sans aucun exemple spécifique à la tâche ni réglage fin. Sur GSM8K, la technique a amélioré la précision du PaLM 540B de 17,9 % à 58,1 % en mode « zero-shot » ; sur MultiArith, InstructGPT est passé de 17,7 % à 78,7 %. L’article est devenu l’un des travaux les plus cités dans la littérature sur l’invite des LLM et est largement considéré comme une contribution fondatrice au programme de recherche sur le « chain-of-thought ».

OpenAI — Chercheur senior, Équipe ChatGPT ; Responsable de l’entrée sur le marché japonais (environ 2022–2023)

Gu a passé une période chez OpenAI en tant que chercheur senior dans l’équipe ChatGPT et en tant que contributeur au rapport technique de GPT-4. Il a également dirigé l’initiative d’entrée d’OpenAI sur le marché japonais — l’effort stratégique visant à établir la présence commerciale et de recherche d’OpenAI au Japon, qui a culminé avec l’ouverture du bureau d’OpenAI à Tokyo en avril 2024. Sa capacité trilingue et ses relations professionnelles basées au Japon ont fait de lui un leader naturel pour cet effort.

Google DeepMind — Chercheur scientifique senior (2023–présent)

Suite à la fusion de Google Brain et DeepMind en Google DeepMind en 2023, Gu a rejoint l’organisation combinée. Il a dirigé l’équipe Multilinguality pour le post-entraînement de Gemini — l’équipe responsable de l’extension des capacités linguistiques de Gemini au-delà de l’anglais à travers le pipeline de post-entraînement — avant de passer à son rôle actuel au sein de l’équipe Gemini Thinking, qui se concentre sur les capacités de raisonnement des modèles de pointe.

Université de Tokyo — Professeur associé invité (en cours)

Parallèlement à ses rôles dans l’industrie, Gu occupe un poste de professeur associé invité (adjoint) à l’Université de Tokyo, maintenant des collaborations de recherche avec le Matsuo Lab et les groupes affiliés. Plusieurs de ses articles NeurIPS et ICLR entre 2021 et 2023 ont été co-écrits avec des doctorants et chercheurs de l’Université de Tokyo.

Université Stanford — Chercheur invité

Gu a également occupé un poste de chercheur invité au Département d’informatique de l’Université Stanford, contribuant à une interface productive entre ses recherches dans l’industrie et la communauté universitaire.


Contributions clés

  • Gumbel-Softmax (ICLR 2017) — « Categorical Reparameterization with Gumbel-Softmax », avec Eric Jang et Ben Poole. A fourni une approximation différentiable et reparamétrisable des distributions catégorielles discrètes, permettant un entraînement par gradient de bout en bout à travers des variables latentes catégorielles. Désormais standard en inférence variationnelle, modèles génératifs discrets et recherche d’architecture différentiable.

  • Q-Prop (ICLR 2017 Oral) — « Sample-Efficient Policy Gradient with An Off-Policy Critic ». A unifié l’estimation du gradient de politique en politique et hors politique en utilisant une variable de contrôle dérivée d’un critique hors politique, améliorant considérablement l’efficacité en termes d’échantillons par rapport à TRPO et DDPG avec des garanties théoriques sur le biais introduit.

  • Apprentissage par renforcement profond multi-robot asynchrone (ICRA 2017) — « Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates ». A démontré que le RL profond hors politique peut s’entraîner directement sur des robots physiques réels en parallélisant les mises à jour sur plusieurs machines — l’une des premières démonstrations pratiques de RL profond sur du matériel robotique réel sans démonstrations ni récompenses conçues à la main. Présenté dans le MIT Technology Review.

  • Zero-Shot Chain-of-Thought / „Let’s think step by step‟ (NeurIPS 2022) — « Large Language Models are Zero-Shot Reasoners », avec Takeshi Kojima, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. A montré qu’une seule invite universelle « zero-shot » suscite un raisonnement précis en plusieurs étapes dans les LLM sur divers benchmarks de raisonnement arithmétique, symbolique et de bon sens. L’un des articles les plus cités dans la littérature sur le raisonnement des LLM ; l’expression „Let’s think step by step‟ est devenue un artefact largement reproduit de la culture IA.

  • NAF (ICML 2016) — « Continuous Deep Q-Learning with Model-Based Acceleration ». A introduit la représentation de la fonction d’avantage normalisée pour l’apprentissage Q en action continue, permettant un apprentissage hors politique stable dans les tâches de contrôle continu sans architectures acteur-critique.

  • IPG (NIPS 2017) — « Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning ». A fourni une unification théorique des méthodes de gradient de politique en/hors politique et une amélioration empirique sur les benchmarks de contrôle continu.

  • Contributions à GPT-4 et Gemini — Répertorié comme contributeur au Rapport Technique GPT-4 (OpenAI, 2023) et aux articles sur les modèles Gemini et Gemini 1.5 (Google DeepMind, 2023–2024), reflétant sa participation à deux des efforts de développement de modèles de pointe les plus significatifs.


Prix et reconnaissance

  • Prix du meilleur article, CoRL 2019 — Pour « A Divergence Minimization Perspective on Imitation Learning Methods » (avec Seyed Kamyar Seyed Ghasemipour et Richard Zemel), décerné au top 0,25 % des soumissions à la Conférence on Robot Learning.
  • Prix de recherche ciblée Google — Attribué durant sa période chez Google Brain.
  • Bourse de doctorat Cambridge-Tübingen — Bourse conjointe compétitive entre l’Université de Cambridge et l’Institut Max Planck pour les systèmes intelligents.
  • Bourse CRSNG — Bourse doctorale nationale canadienne pour une recherche de troisième cycle exceptionnelle.
  • Article dans le MIT Technology Review — Ses travaux sur le RL profond multi-robot ont été mis en avant dans le MIT Technology Review comme démontrant une nouvelle approche de l’acquisition de compétences robotiques.

Relations clés

  • Geoffrey E. Hinton — Superviseur de licence à l’Université de Toronto ; la lignée intellectuelle reliant Gu à la tradition de l’apprentissage profond passe directement par le groupe de Hinton, qui a produit Sutskever, Krizhevsky et bien d’autres.
  • Richard E. Turner — Superviseur principal de doctorat au groupe d’apprentissage automatique de l’Université de Cambridge ; a façonné les fondements probabilistes et bayésiens de Gu.
  • Zoubin Ghahramani — Co-superviseur de doctorat à Cambridge ; figure de proue de l’apprentissage automatique bayésien dont la perspective probabiliste a influencé les premières recherches de Gu.
  • Bernhard Schölkopf — Co-superviseur de doctorat à l’MPI Tübingen ; pionnier des méthodes à noyau et de l’inférence causale.
  • Sergey Levine — Collaborateur principal chez Google Brain sur le RL profond et la robotique ; plusieurs articles co-écrits, dont Q-Prop, IPG et plusieurs travaux sur la robotique RL.
  • Timothy Lillicrap — Chercheur chez Google DeepMind et co-auteur clé des articles NAF, Q-Prop et IPG.
  • Eric Jang — Co-auteur chez Google Brain du Gumbel-Softmax ; la soumission simultanée de Jang (développée indépendamment) a été publiée conjointement à l’ICLR 2017 avec la version de Gu.
  • Yutaka Matsuo — Professeur à l’Université de Tokyo ; le pont de recherche permettant les collaborations de Gu avec les doctorants basés à Tokyo sur les articles Zero-Shot CoT et autres articles connexes sur les LLM.
  • Takeshi Kojima — Doctorant à l’Université de Tokyo et premier auteur de l’article „Let’s think step by step‟ ; un représentant de la collaboration de recherche Japon–Google Brain.

Style personnel

Gu occupe une position rare dans le paysage de la recherche en IA en tant que personne ayant apporté des contributions substantielles dans au moins trois paradigmes techniques distincts — l’inférence bayésienne, le RL profond et le raisonnement des LLM — plutôt que d’approfondir une seule spécialité. Son arc de recherche correspond étroitement aux transitions générationnelles du domaine lui-même : de l’apprentissage automatique probabiliste (2014–2016) à l’ère du RL profond et de la robotique (2016–2020) à l’ère des LLM (2020–présent), avec une production productive à chaque transition. Il maintient des comptes Twitter séparés pour les communautés professionnelles anglophone et japonaise, une pratique qui reflète sa véritable identité trilingue et triculturelle — né au Japon, éduqué au Canada, travaillant entre les États-Unis, le Japon et le Royaume-Uni. Ses collaborations couvrent des groupes universitaires à Tokyo et sa participation à l’entrée d’OpenAI sur le marché japonais suggèrent un intérêt constant à faire le pont entre les écosystèmes IA d’Asie de l’Est et d’Occident. Il est formellement actif dans la communauté universitaire en tant que rédacteur adjoint pour TMLR et que président de section pour NeurIPS et ICML.


Références