John Schulman

Mitbegründer von OpenAI und Architekt von ChatGPT, weithin anerkannt als eine der Hauptfiguren hinter Reinforcement Learning from Human Feedback und modernen Policy-Optimierungsalgorithmen.


Profil

Bereich Detail
Geboren 1987 oder 1988, Vereinigte Staaten
Nationalität US-Amerikaner
Aktuelle Institution Thinking Machines Lab (Chief Scientist, 2025–)
Forschungsgebiete Reinforcement Learning, Policy Optimization, RLHF, AI Alignment
PhD-Betreuer Pieter Abbeel
PhD-Dissertation Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs (UC Berkeley, 2016)
Persönliche Website joschu.net
X / Twitter @johnschulman2
GitHub @joschu

Überblick

John Schulman ist ein US-amerikanischer KI-Forscher, der vor allem als Mitbegründer von OpenAI und Hauptarchitekt der Trainingsmethodik von ChatGPT bekannt ist. Seine grundlegenden Algorithmen – Trust Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) – wurden zum De-facto-Standard für das Training großer Sprachmodelle mittels Reinforcement Learning from Human Feedback (RLHF) und zählen zu den am häufigsten zitierten Arbeiten der modernen KI. Nach fast einem Jahrzehnt bei OpenAI, wo er das für die GPT-Modellfamilie verantwortliche Post-Training-Team mitleitete, wechselte er 2024 kurzzeitig zum Alignment Science Team von Anthropic, bevor er Anfang 2025 Chief Scientist bei Thinking Machines Lab wurde. Schulman nimmt eine seltene Position an der Schnittstelle von tiefer theoretischer Arbeit und transformativer realer Produktwirkung ein.


Frühes Leben & Bildung

Schulman wuchs auf Long Island auf und besuchte die Great Neck South High School, wo sein frühes Interesse Wissenschaft, Mathematik und Science-Fiction umfasste – insbesondere die Werke von Isaac Asimov. In der siebten Klasse führte ihn eine intensive Faszination für die Fernsehsendung BattleBots dazu, seine erste Episode selbstgesteuerten Lernens zu unternehmen, bei der er breit über Ingenieurwesen und Physik las, um einen überlegenen Kampfroboter zu bauen – ein Projekt, das letztendlich nie abgeschlossen wurde. 2005 vertrat er die USA als Mitglied des U.S. Physics Olympiad Teams.

B.S., Physik – California Institute of Technology (Caltech), 2010
Schulman absolvierte sein Grundstudium am Caltech, wo ihn eine Reihe von Forschungspraktika in der Physik neugieriger auf Neurowissenschaften und KI machten als auf die Physik selbst.

Erstes Graduiertenstudium, Neurowissenschaften – UC Berkeley
Als er nach Berkeley kam, schrieb sich Schulman für das Neurowissenschaften-Programm ein und absolvierte mehrere Laborrotationen. Seine letzte Rotation war bei Professor Pieter Abbeel, dessen Arbeit an Hubschraubersteuerung und Handtuchfaltrobotern sich als entscheidend erwies.

Ph.D., Elektrotechnik und Informatik (EECS) – UC Berkeley, 2016
Nach seiner Rotation bei Abbeel wechselte Schulman die Fakultät und widmete sich der Robotik und dem Deep Reinforcement Learning. Seine Dissertation, Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs, legte das theoretische Fundament für TRPO und das darauf folgende Generalized Advantage Estimation (GAE)-Framework. Abbeel war während der gesamten Zeit sein Betreuer.


Karriere

UC Berkeley – Abbeel Lab (2010–2015)

Als Doktorand konzentrierte sich Schulmans frühe Arbeit auf robotische Manipulation – Trajektorienoptimierung, Nähaufgaben und Verfolgung deformierbarer Objekte. Sein Paper von 2013 über sequentielle konvexe Optimierung für kollisionsfreie Trajektorien (TrajOpt) gewann den Best Vision Paper Award auf der ICRA. Im Laufe der Zeit verlagerte sich sein Fokus auf Policy-Gradient-Methoden und das theoretische Problem eines stabilen, sample-effizienten Reinforcement Learnings. Dies gipfelte in TRPO (veröffentlicht auf der ICML 2015), das ein prinzipienbasiertes Trust-Region-Update einführte, um destruktive Policy-Änderungen zu verhindern, und GAE (ICLR 2016), das ein Framework zur Varianzreduktion für die Advantage-Schätzung bereitstellte.

OpenAI (Dezember 2015–August 2024)

Schulman war im Dezember 2015 Mitbegründer von OpenAI, gemeinsam mit Sam Altman, Elon Musk, Ilya Sutskever, Greg Brockman, Andrej Karpathy, Wojciech Zaremba und anderen, und trat dem Unternehmen bei, bevor er seine Promotion abschloss. Bei OpenAI leitete er das Reinforcement-Learning-Forschungsteam, das eine stetige Folge grundlegender Arbeiten hervorbrachte:

  • PPO (2017): Ein vereinfachter Nachfolger von TRPO, der ein abgeschnittenes Surrogat-Ziel verwendet. PPO wurde zum Standardalgorithmus für groß angelegte Policy-Optimierung und fand breite Anwendung in Robotik, Spielen und Sprachmodell-Feinabstimmung.
  • OpenAI Gym (2016): Mitautor des Benchmark-Toolkits, das RL-Forschungsumgebungen im gesamten Feld standardisierte.
  • RLHF für Sprache (2017–2022): Schulman erkannte das Potenzial von Paul Christianos früher RLHF-Arbeit an Nicht-Sprachaufgaben und leitete deren Anwendung auf große Sprachmodelle, was in InstructGPT und schließlich ChatGPT gipfelte.
  • ChatGPT (2022): Schulman leitete die für ChatGPT verantwortlichen Reinforcement-Learning- und Post-Training-Teams, das im November 2022 veröffentlicht wurde. Er wird weithin als „Architekt“ von ChatGPT beschrieben. Bemerkenswerterweise war GPT-4 bereits vor dem Start von ChatGPT trainiert; die öffentliche Resonanz auf ChatGPT überraschte dennoch selbst das interne Team.
  • Co-Leiter des Post-Trainings (2022–2024): Von 2022 bis zu seinem Ausscheiden leitete Schulman gemeinsam das Post-Training-Team von OpenAI und beaufsichtigte die Entwicklung von Modellen für das ChatGPT-Produkt und die OpenAI-API.

Anthropic – Alignment Science Team (August 2024–Februar 2025)

Schulman gab seinen Austritt aus OpenAI im August 2024 bekannt und begründete dies mit dem Wunsch, seinen Fokus auf KI-Ausrichtung zu vertiefen und zu praktischerer technischer Forschung zurückzukehren. Er trat dem Alignment Science Team von Anthropic bei, wo er an sicherheitsorientierter Forschung arbeitete. Seine Amtszeit war kurz; bereits im Februar 2025 verließ er das Unternehmen, um sich einem neuen Vorhaben anzuschließen.

Thinking Machines Lab (Februar 2025–heute)

Schulman wurde kurz nach der Gründung von Thinking Machines Lab durch Mira Murati, ehemalige CTO von OpenAI, als Chief Scientist tätig. Das Startup, zu dessen Gründungsteam auch Lilian Weng und (zunächst) Barret Zoph zählen, konzentriert sich auf die Entwicklung fortschrittlicher KI-Systeme. Seine erklärten Forschungsinteressen im Labor konzentrieren sich weiterhin auf Reinforcement Learning und KI-Ausrichtung.


Wichtigste Beiträge

  • Trust Region Policy Optimization (TRPO) – Veröffentlicht auf der ICML 2015, führte TRPO eine theoretisch fundierte Einschränkung von Policy-Updates ein, um Instabilität während des Trainings zu verhindern. Es wurde zu einem der einflussreichsten Papers im Deep Reinforcement Learning und ermöglichte direkt nachfolgende Arbeiten zur Steuerung kontinuierlicher Systeme und zur Feinabstimmung von Sprachmodellen.

  • Proximal Policy Optimization (PPO) – 2017 veröffentlicht, vereinfachte PPO die beschränkte Optimierung von TRPO zu einem First-Order-Clipped-Objektiv, das weitaus einfacher in großem Maßstab zu implementieren ist. Es wurde zum dominierenden RL-Algorithmus auf diesem Gebiet und dient als Rückgrat der RLHF-Pipelines für InstructGPT, ChatGPT und die meisten nachfolgenden instruktionsgetunten Modelle; es hat Zehntausende von Zitierungen erhalten.

  • Generalized Advantage Estimation (GAE) – Veröffentlicht auf der ICLR 2016, bot GAE einen einheitlichen Rahmen für den Trade-off zwischen Varianz und Bias bei der Policy-Gradient-Schätzung und wurde in RL-Implementierungen weitgehend übernommen.

  • OpenAI Gym – 2016 mitverfasst, hat dieses standardisierte Benchmark-Toolkit grundlegend die Art und Weise geprägt, wie die RL-Forschungsgemeinschaft Algorithmen bewertet, und reproduzierbare Vergleiche über Hunderte von Umgebungen hinweg ermöglicht.

  • ChatGPT und RLHF in großem Maßstab – Schulman leitete die Forschungsanstrengungen, die RLHF auf GPT-Klasse-Sprachmodelle anwendeten und InstructGPT (2022) und dann ChatGPT hervorbrachten, was demonstrierte, dass Alignment-Techniken gleichzeitig die Hilfsbereitschaft, Sicherheit und öffentliche Zugänglichkeit von Modellen verbessern können.

  • Concrete Problems in AI Safety – 2016 zusammen mit Dario Amodei, Chris Olah und anderen verfasst, artikulierte dieses Paper eine Taxonomie von Sicherheitsfehlermodi (Reward Hacking, Safe Exploration, Distributional Shift), die die frühe Agenda des Feldes der KI-Sicherheit prägte.

  • „Let’s Verify Step by Step“ (2023) – Mitverfasste Arbeit, die Process Reward Models (PRMs) zur Bewertung mehrschrittigen Denkens einführte und das Verständnis des Feldes darüber voranbrachte, wie man Chain-of-Thought in großen Sprachmodellen überwachen kann.

  • Stochastic Computation Graphs – Veröffentlicht auf dem NeurIPS 2015, vereinheitlichte dieses Framework Policy-Gradient- und Backpropagation durch stochastische Knoten und lieferte das theoretische Fundament für seine PhD-Dissertation sowie eine Reihe nachfolgender Gradientenschätzungstechniken.


Auszeichnungen & Anerkennung

  • Mark Bingham Award for Excellence in Achievement by Young Alumni (2025) – Verliehen vom College of Computing, Data Science, and Society der UC Berkeley; würdigt herausragende Leistungen von Alumni in frühen Karrierephasen.
  • MIT Technology Review Innovators Under 35 (2018) – Als Pionier für Beiträge zum Deep Reinforcement Learning und zur KI-Forschung anerkannt.
  • ICRA Best Vision Paper (2013) – Ausgezeichnet für Tracking Deformable Objects with Point Clouds, gemeinsam verfasst mit Pieter Abbeels Gruppe.
  • U.S. Physics Olympiad Team (2005) – Noch während der High School als Mitglied des Nationalteams ausgewählt.

Wichtige Beziehungen

  • Pieter Abbeel – PhD-Betreuer an der UC Berkeley; Abbeels Robotiklabor war der direkte Katalysator für Schulmans Wechsel von den Neurowissenschaften zur KI, und ihre Zusammenarbeit brachte TRPO, GAE und mehrere Robotik-Papers hervor.
  • Sam Altman – Mitbegründer und CEO von OpenAI; Altman war bei der Gründung Co-Vorsitzender und war Schulmans organisatorisches Gegenstück, als OpenAI zu einem produktorientierten Unternehmen heranwuchs.
  • Ilya Sutskever – Mitbegründer von OpenAI; ein enger Mitarbeiter bei der Forschung zu Skalierung und Sprachmodellen, einschließlich der Co-Autorenschaft bei RL² und Concrete Problems in AI Safety.
  • Paul Christiano – Ehemaliger OpenAI-Sicherheitsforscher, dessen frühe RLHF-Arbeit an Nicht-Sprachaufgaben Schulman als den Keim der ChatGPT-Trainingsmethodik identifizierte; jetzt am Alignment Research Center.
  • Mira Murati – Ehemalige CTO von OpenAI, derzeitige Gründerin und CEO von Thinking Machines Lab; Schulman trat im Februar 2025 als Chief Scientist in ihr Startup ein.
  • Andrej Karpathy – Mitbegründer von OpenAI; einer von Schulmans prominentesten beruflichen Kollegen und Anhängern in der KI-Forschungsgemeinschaft.
  • Lilian Weng – Ehemalige VP of AI Safety bei OpenAI; Gründungsmitglied von Thinking Machines Lab neben Schulman.
  • Dario Amodei – Co-Autor von Concrete Problems in AI Safety; Gründer von Anthropic, der Organisation, der Schulman 2024 kurzzeitig beitrat.

Persönlicher Stil

Schulmans Forschungshilosophie ist geprägt durch eine Vorliebe für prinzipienbasierte theoretische Grundlagen – insbesondere die Verwendung von Trust-Regions- und KL-Divergenz-Beschränkungen – angewandt auf Probleme an der Frontiers praktischer Skalierung. Sein intellektueller Werdegang, von der Physik über die Neurowissenschaften zur Robotik und zu Sprachmodellen, spiegelt eine Neigung wider, den am besten gangbaren Weg zum Verständnis von Intelligenz zu verfolgen, anstatt sich auf eine einzige Methodik festzulegen. In öffentlichen Auftritten zeigt er sich bemerkenswert offen in Bezug auf Unsicherheit, einschließlich der Tatsache, dass die Rezeption von ChatGPT selbst seine Schöpfer überraschte. Außerhalb der Forschung gehören zu seinen erklärten Interessen Vogelbeobachtung und Jazzmusik – Vorlieben, die lose auf eine breitere Wertschätzung für Systeme mit emergenter Komplexität hindeuten.


Referenzen