Susan Zhang

Chinesisch-amerikanische Forschungsingenieurin, die eines der größten Systeme für bestärkendes Lernen (Reinforcement Learning) bei OpenAI für Dota 2 entwickelte, die Trainingsinfrastruktur und die offene Veröffentlichung von OPT-175B bei Meta AI mitleitete und LIMA mitverfasste – die Studie, die zeigte, dass Alignment keine riesigen annotierten Datensätze erfordert.


Profil

Nationalität Amerikanerin (chinesisch-amerikanisch)
Derzeitige Einrichtung(en) Google DeepMind (Principal Research Engineer)
Forschungsbereiche Großskalige ML-Systeme, LLM-Trainingsinfrastruktur, Reinforcement Learning im großen Maßstab, Alignment, multimodale Sprachmodelle
Ausbildung BA in Mathematik, Princeton University
Webseite suchenzang.github.io
X / Twitter @suchenzang
GitHub suchenzang
Google Scholar Susan Zhang

Überblick

Susan Zhang ist eine chinesisch-amerikanische Forschungsingenieurin und Spezialistin für verteilte Systeme. Derzeit ist sie als Principal Research Engineer bei Google DeepMind in der San Francisco Bay Area tätig. Bekannt ist sie vor allem für zwei wegweisende Projekte: den Aufbau eines der größten jemals eingesetzten Trainingssysteme für bestärkendes Lernen, das OpenAI Five antrieb – den Agenten, der professionelle Dota-2-Teams besiegte –, und die Mitentwicklung und offene Veröffentlichung von OPT-175B bei Meta AI, dem ersten Sprachmodell mit 175 Milliarden Parametern, das mit vollständigen Gewichten, Trainingscode und einem 114-seitigen operativen Logbuch veröffentlicht wurde. Die Veröffentlichung von OPT setzte einen Industriestandard für Transparenz bei der Entwicklung großer Sprachmodelle und beeinflusste direkt nachfolgende Open-Source-LLM-Bemühungen. Sie ist auch Mitautorin von LIMA („Less Is More for Alignment“), das zeigte, dass 1000 sorgfältig ausgewählte Beispiele eine Alignment-Qualität erreichen können, die mit Modellen konkurriert, die auf um Größenordnungen mehr Daten trainiert wurden. Ihre Selbstbeschreibung – „Ich bin darauf spezialisiert, große Systeme zu bauen, um große Datenmengen zu verarbeiten und große Modelle zu entwickeln“ – fasst ihre Karriere treffend zusammen: Sie arbeitet an der Schnittstelle von Systemtechnik und Forschung, wo die Infrastruktur für das Training von Spitzenmodellen selbst eine wissenschaftliche und technische Herausforderung darstellt.


Ausbildung & frühe Karriere

Zhang studierte Mathematik an der Princeton University und erwarb einen BA. Bevor sie in die KI-Systemarbeit einstieg, war sie am Los Alamos National Laboratory und in Dateninfrastruktur-Rollen bei verschiedenen Cloud-Anbietern tätig, wo sie den Hintergrund in verteilten Systemen entwickelte, der sie später auf der Skala moderner LLM-Trainingspipelines effektiv machte. Sie arbeitete auch eine Zeit lang bei Unity Games an der Schnittstelle von Gaming und technischer Infrastruktur, bevor sie sich vollständig den KI-Forschungssystemen zuwandte.


Karriere

OpenAI – RL-Systemingenieurin (ca. 2018–2021)

Zhang kam während der Entwicklung von OpenAI Five, dem Dota-2-Reinforcement-Learning-Agenten, zu OpenAI. Sie baute Kernkomponenten des Trainingssystems – eine der größten RL-Trainingspipelines der Geschichte, die über Zehntausende von CPU-Kernen mit asynchronem Self-Play lief –, die es OpenAI Five ermöglichten, professionelles Spielniveau zu erreichen und im April 2019 in einem Live-Match ein Weltmeisterteam zu besiegen. Das System erforderte die Lösung grundlegender Probleme im verteilten RL in einer Größenordnung, die weit über frühere Arbeiten hinausging: die Verwaltung Tausender Spielumgebungen, die Synchronisierung von Gradientenaktualisierungen über viele parallele Worker hinweg und die Aufrechterhaltung der Trainingsstabilität über Monate kontinuierlichen Self-Plays. Der technische Beitrag wurde in der Hauptveröffentlichung zu OpenAI Five („Dota 2 with Large Scale Deep Reinforcement Learning“, arXiv 2019) und zwei Begleitpapieren zu Langzeitplanung und Situationsbewusstsein anerkannt. Anfang 2022 hielt sie Vorträge über das OpenAI-Five-System im Computer History Museum und im Harvard CS50 und bot damit einen der detailliertesten öffentlichen Berichte über die technischen Entscheidungen hinter dem System.

Meta AI / FAIR – Forschungsingenieurin (ca. 2021–2022)

Zhang wechselte zur Fundamental AI Research Gruppe von Meta AI, wo sie als Hauptingenieurin an dem LLM-Trainingsinfrastrukturprojekt arbeitete, das OPT-175B hervorbrachte. Das Projekt trainierte einen GPT-3-ähnlichen Decoder-Only-Transformer mit 175 Milliarden Parametern auf 992 80GB-A100-GPUs und erreichte eine Auslastung von 147 TFLOP/s pro GPU – vergleichbar in der Qualität mit GPT-3 bei etwa einem Siebtel des CO₂-Fußabdrucks. Das Training dauerte 56 Tage auf neuer Hardware, mit wiederholten Instabilitäten, Hardwareausfällen und Checkpoint-Rollbacks, die Echtzeit-Engineering-Entscheidungen erforderten.

Die Veröffentlichung im Mai 2022 setzte in dreierlei Hinsicht einen Industriestandard. Erstens stellte sie die vollständigen Modellgewichte unter einer Forschungslizenz zur Verfügung – das erste Mal, dass ein Modell der GPT-3-Klasse öffentlich zugänglich gemacht wurde. Zweitens veröffentlichte sie die gesamte Trainingscodebasis als metaseq, ein Open-Source-Framework für das Training großer Transformer-Sprachmodelle, das anschließend weit verbreitet war. Drittens und am bezeichnendsten veröffentlichte sie ein 114-seitiges Betriebslogbuch, das jeden bedeutenden Trainingsvorfall Tag für Tag dokumentierte: Hardwareausfälle, Loss-Spikes, Hyperparameteränderungen und technische Gegenmaßnahmen. Dieses Maß an Transparenz hatte in der Entwicklung von Spitzen-LLMs keinen Präzedenzfall und bot der Forschungsgemeinschaft eine authentische Aufzeichnung dessen, was großskaliges LLM-Training in der Praxis tatsächlich beinhaltet. Zhang präsentierte die OPT-Arbeit auf dem NeurIPS 2022 (Has It Trained Yet? Workshop), der Scale Transform X (2022), dem Stanford MLSys Seminar (2023) und dem CMU LLM Seminar (2023).

Nach OPT trug Zhang zu dem Papier „Scaling Laws for Generative Mixed-Modal Language Models“ (2023) bei, einer Studie darüber, wie sich Skalierungsgesetze auf Modelle erstrecken, die sowohl Bilder als auch Texte verarbeiten, sowie zum CM3 multimodalen autoregressiven Modell („Scaling Autoregressive Multi-Modal Models“, 2023). Sie trug auch zu zwei theoriebezogenen Papieren bei, die Trainingsdynamiken charakterisieren: „A Theory on Adam Instability in Large-Scale Machine Learning“ und „Effective Theory of Transformers at Initialization“, beide aus dem Jahr 2023.

LIMA: Less Is More for Alignment (NeurIPS 2023). Zhang war Mitautorin von LIMA (mit Chunting Zhou, Pengfei Liu, Punit Singh Koura, Weizhu Chen, Graham Neubig und anderen), das ein LLaMA-Modell mit 65 Milliarden Parametern auf nur 1000 sorgfältig kuratierten Beispielen feinabstimmte, die verschiedene Aufgaben und Formate abdeckten. LIMA erreichte oder übertraf Modelle, die mit RLHF auf weitaus größeren Datensätzen trainiert wurden, in den meisten Bewertungsdimensionen und stellte damit die vorherrschende Annahme in Frage, dass Alignment große Mengen feedback-annotierter Trainingsdaten erfordere. Die im Papier eingeführte „Hypothese des oberflächlichen Alignments“ – dass das Wissen und die Fähigkeiten eines Modells während des Pre-Trainings erworben werden und die Feinabstimmung hauptsächlich Ausgabeformat und -stil anpasst – wurde zu einem einflussreichen Rahmen in der Alignment- und RLHF-Literatur.

Luminous Computing (kurzes Zwischenspiel, ca. 2022–2023)

Zhang arbeitete kurzzeitig bei Luminous Computing, einem Startup für photonisches Computing, das optische Hardware für KI-Beschleunigung verfolgte, in einer Systemtechnik-Funktion, bevor sie zu Google DeepMind wechselte.

Google DeepMind – Principal Research Engineer (ca. 2023–heute)

Zhang kam als Principal Research Engineer zu Google DeepMind und setzte ihre Arbeit an der Schnittstelle von großskaligen Trainingssystemen und Forschung fort. Sie hat ihren Sitz in der San Francisco Bay Area.


Wichtigste Beiträge

  • OpenAI Five RL-Trainingssystem (2018–2019) – Mitentwicklung der verteilten Reinforcement-Learning-Infrastruktur, die OpenAI Five trainierte, eine der rechenintensivsten RL-Pipelines der Geschichte. Ermöglichte es einem Agenten, professionelle Dota-2-Weltmeister durch Tausende von Jahren an Self-Play-Erfahrung zu besiegen, die über Monate realer Trainingszeit akkumuliert wurden. Mitautor des Hauptpapiers zu OpenAI Five (arXiv 2019) und der Begleitpapiere zu Planung und Situationsbewusstsein.

  • OPT-175B (arXiv 2022, Erstautor) – Mitentwicklung und offene Veröffentlichung von Open Pre-trained Transformers (OPT-175B), dem ersten öffentlich veröffentlichten Sprachmodell mit 175 Milliarden Parametern, das GPT-3-Leistung bei einem Siebtel der CO₂-Kosten erreichte. Die Veröffentlichung umfasste die vollständigen Modellgewichte, die metaseq-Trainingscodebasis und ein 114-seitiges tägliches Trainingslogbuch – damals der transparenteste Standard in der Entwicklung großer Sprachmodelle.

  • metaseq – Mitentwicklung und Veröffentlichung von metaseq, Metas Open-Source-Trainingsframework für großskalige Sprachmodelle, das das Training von OPT-175B ermöglichte und in nachfolgender Forschung übernommen wurde.

  • LIMA: Less Is More for Alignment (NeurIPS 2023) – Mitautor der Demonstration, dass 1000 hochwertige Alignment-Beispiele eine mit großen RLHF-Modellen konkurrierende Instruktionsbefolgungsqualität erzeugen können, und Einführung der „Hypothese des oberflächlichen Alignments“, die vorherrschende Annahmen über den Bedarf an Alignment-Trainingsdaten in Frage stellte.

  • Scaling Laws for Generative Mixed-Modal Language Models (2023) – Mitautor einer empirischen Studie, die die Skalierungsgesetzanalyse auf multimodale Sprachmodelle ausweitete, die Text und Bilder abdecken, und charakterisierte, wie sich die rechenoptimale Modell- und Datenallokation über Modalitäten hinweg ändert.

  • Adam-Instabilität und Transformer-Initialisierungstheorie (2023) – Mitautor zweier Papiere, die theoretische und empirische Grundlagen für Instabilitätsphänomene lieferten, die während großskaligem Training beobachtet wurden: Charakterisierung von Adam-Optimierer-Fehlermodi und Ableitung effektiver Theorien für Transformer-Gewichtsverteilungen bei der Initialisierung.


Auszeichnungen & Anerkennung

  • NeurIPS 2022 Workshop-Präsentation – OPT-175B vorgestellt auf dem Has It Trained Yet? Workshop auf dem NeurIPS 2022.
  • Stanford MLSys Seminar (2023) – Eingeladene Rednerin über die OPT-175B-Trainingsinfrastruktur, einer der meistgesehenen Vorträge in der MLSys-Seminarreihe.
  • Harvard CS50 und Computer History Museum (2022) – Eingeladene Rednerin über OpenAI Five, die einem breiten Publikum einen technischen Bericht über großskalige RL-Systeme gab.

Wichtige Beziehungen

  • Stephen Roller und Naman Goyal – Gleichberechtigte Co-Erstautoren des OPT-175B-Papiers neben Zhang; zusammen bildeten sie das Kernteam für die Technik des Projekts.
  • Luke Zettlemoyer – Meta-AI-Forschungsleiter des OPT-Projekts; gab die akademische Forschungsrichtung vor, die die OPT-Veröffentlichung und das LIMA-Papier prägte.
  • Myle Ott – Meta-AI-Ingenieur und Co-Autor von OPT; das Design von metaseq verdankt viel dem fairseq-Framework, das Ott entwickelt hatte.
  • Christopher Berner, Christy Dennison – OpenAI-Engineering-Kollegen bei OpenAI Five; Zhang arbeitete innerhalb des RL-Engineering-Teams, das Berner und andere leiteten.
  • Chunting Zhou und Graham Neubig – Co-Autoren von LIMA; Neubig (Carnegie Mellon) lieferte den akademischen Forschungskontext für die Alignment-Hypothese.

Persönlicher Stil

Zhang beschreibt ihre berufliche Identität als Allrounderin mit tiefem Fachwissen in einigen wenigen komplementären Bereichen – eine Haltung, die sie öffentlich als bewusste Karrierestrategie artikuliert hat: breit über Systeme, ML-Theorie und Technik hinweg kompetent zu bleiben, während sie seltene Kombinationen von Tiefe im Laufe der Zeit anhäuft. Ihre veröffentlichten Arbeiten umfassen RL-Systeme, LLM-Infrastruktur, Trainingstheorie und Alignment, im Einklang mit dieser Philosophie. Das OPT-Trainingslogbuch – dessen Veröffentlichung sie befürwortete – spiegelt ein Bekenntnis zu Transparenz wider, das in der Entwicklung von Spitzenmodellen ungewöhnlich ist: nicht nur das endgültige Modell, sondern jeden Fehler, jede Debugging-Entscheidung und jeden Hardwarevorfall zu zeigen. Sie unterhält eine Twitter-Gefolgschaft von über 44.000 und nutzt die Plattform, um sich zu KI-Forschungstrends, Infrastrukturpraktiken und den Dynamiken der Tech-Branche im Allgemeinen zu äußern. Ihre Biografie fasst ihre Karriere effizient zusammen: „@ Google DeepMind. Past: @MetaAI, @OpenAI, @unitygames, @losalamosnatlab, @Princeton etc. Always hungry for intelligence.“


Referenzen