John Schulman

Cofundador de OpenAI y arquitecto de ChatGPT, ampliamente reconocido como una de las figuras principales detrás del aprendizaje por refuerzo a partir de retroalimentación humana y los algoritmos modernos de optimización de políticas.


Perfil

Campo Detalle
Nacimiento 1987 o 1988, Estados Unidos
Nacionalidad Estadounidense
Institución actual Thinking Machines Lab (Científico jefe, 2025–presente)
Áreas de investigación Aprendizaje por refuerzo, optimización de políticas, RLHF, alineación de IA
Asesor de doctorado Pieter Abbeel
Tesis doctoral Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs (UC Berkeley, 2016)
Sitio web personal joschu.net
X / Twitter @johnschulman2
GitHub @joschu

Reseña

John Schulman es un investigador estadounidense de inteligencia artificial, conocido sobre todo por ser cofundador de OpenAI y el principal arquitecto de la metodología de entrenamiento de ChatGPT. Sus algoritmos fundacionales —Trust Region Policy Optimization (TRPO) y Proximal Policy Optimization (PPO)— se convirtieron en el estándar de facto para entrenar grandes modelos de lenguaje mediante aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), y siguen siendo de los trabajos más citados en la IA moderna. Tras casi una década en OpenAI, donde codirigió el equipo de posentrenamiento responsable de la familia de modelos GPT, se incorporó brevemente al equipo de Ciencias de la Alineación de Anthropic en 2024 antes de convertirse en científico jefe de Thinking Machines Lab a principios de 2025. Schulman ocupa una posición singular en la intersección entre una profunda contribución teórica y un impacto transformador en productos del mundo real.


Primeros años y educación

Schulman creció en Long Island y asistió a la Great Neck South High School, donde sus primeros intereses abarcaban la ciencia, las matemáticas y la ciencia ficción —en particular, las obras de Isaac Asimov. En séptimo grado, una intensa fascinación por el programa de televisión BattleBots lo llevó a realizar lo que él describió como su primer episodio de estudio autodirigido, leyendo ampliamente sobre ingeniería y física para construir un robot de combate superior, un proyecto que finalmente nunca se completó. En 2005 representó a Estados Unidos como miembro del equipo de la Olimpiada de Física de dicho país.

Licenciatura en Física — Instituto Tecnológico de California (Caltech), 2010
Schulman completó su carrera universitaria en Caltech, donde una serie de pasantías de investigación en física le despertaron más curiosidad por la neurociencia y la inteligencia artificial que por la física propiamente dicha.

Estudios iniciales de posgrado, Neurociencia — UC Berkeley
Al llegar a Berkeley, Schulman se inscribió en el programa de neurociencia y realizó varias rotaciones de laboratorio. Su última rotación fue con el profesor Pieter Abbeel, cuyo trabajo sobre helicópteros autónomos y robots que doblan toallas resultó decisivo.

Doctorado en Ingeniería Eléctrica y Ciencias de la Computación (EECS) — UC Berkeley, 2016
Tras cambiar de departamento después de su rotación con Abbeel, Schulman se dedicó a la robótica y al aprendizaje por refuerzo profundo. Su tesis, Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs, sentó las bases teóricas de TRPO y del marco de Estimación de Ventaja Generalizada (GAE). Abbeel fue su asesor durante todo el proceso.


Carrera

UC Berkeley — Laboratorio Abbeel (2010–2015)

Como estudiante de doctorado, los primeros trabajos de Schulman se centraron en la manipulación robótica —optimización de trayectorias, tareas de sutura y seguimiento de objetos deformables—. Su artículo de 2013 sobre optimización convexa secuencial para trayectorias sin colisiones (TrajOpt) ganó el premio al mejor artículo sobre visión en ICRA. Con el tiempo, su atención se desplazó hacia los métodos de gradiente de políticas y el problema teórico del aprendizaje por refuerzo estable y eficiente en términos de muestras. Esto culminó en TRPO (publicado en ICML 2015), que introdujo una actualización de región de confianza con principios para evitar cambios destructivos en las políticas, y en GAE (ICLR 2016), que proporcionó un marco de reducción de varianza para la estimación de ventajas.

OpenAI (diciembre de 2015 – agosto de 2024)

Schulman cofundó OpenAI en diciembre de 2015 junto con Sam Altman, Elon Musk, Ilya Sutskever, Greg Brockman, Andrej Karpathy, Wojciech Zaremba y otros, incorporándose antes de completar su doctorado. En OpenAI dirigió el equipo de investigación de aprendizaje por refuerzo, que produjo un flujo constante de trabajos fundacionales:

  • PPO (2017): Un sucesor simplificado de TRPO que utiliza un objetivo recortado de primer orden; PPO se convirtió en el algoritmo estándar para la optimización de políticas a gran escala, con una adopción generalizada en robótica, juegos y ajuste de modelos de lenguaje.
  • OpenAI Gym (2016): Cooriginó el conjunto de herramientas de referencia que estandarizó los entornos de investigación de aprendizaje por refuerzo en todo el campo.
  • RLHF para lenguaje (2017–2022): Schulman identificó el potencial del trabajo temprano de Paul Christiano sobre RLHF en tareas no lingüísticas y lideró su aplicación a grandes modelos de lenguaje, lo que culminó en InstructGPT y finalmente en ChatGPT.
  • ChatGPT (2022): Schulman dirigió los equipos de aprendizaje por refuerzo y posentrenamiento responsables de ChatGPT, lanzado en noviembre de 2022. Se lo ha descrito ampliamente como el «arquitecto» de ChatGPT. Es notable que GPT-4 ya estaba entrenado antes del lanzamiento de ChatGPT; no obstante, la recepción pública de ChatGPT sorprendió incluso al equipo interno.
  • Colíder de posentrenamiento (2022–2024): Desde 2022 hasta su partida, Schulman codirigió el equipo de posentrenamiento de OpenAI, supervisando el desarrollo de modelos para el producto ChatGPT y la API de OpenAI.

Anthropic — Equipo de Ciencias de la Alineación (agosto de 2024 – febrero de 2025)

Schulman anunció su salida de OpenAI en agosto de 2024, manifestando que su motivación era el deseo de profundizar en la alineación de la IA y volver a la investigación técnica más práctica. Se unió al equipo de Ciencias de la Alineación de Anthropic, trabajando en investigación orientada a la seguridad. Su estancia fue breve; en febrero de 2025 se marchó para unirse a una nueva empresa.

Thinking Machines Lab (febrero de 2025 – presente)

Schulman se incorporó a Thinking Machines Lab como científico jefe poco después de su fundación por Mira Murati, exdirectora de tecnología de OpenAI. La startup, que también cuenta entre sus fundadores a Lilian Weng y (inicialmente) Barret Zoph, se centra en el desarrollo de sistemas avanzados de IA. Sus intereses de investigación declarados en el laboratorio siguen centrándose en el aprendizaje por refuerzo y la alineación de la IA.


Contribuciones principales

  • Trust Region Policy Optimization (TRPO) — Publicado en ICML 2015, TRPO introdujo una restricción teóricamente fundamentada en las actualizaciones de políticas para evitar la inestabilidad durante el entrenamiento. Se convirtió en uno de los artículos más influyentes en el aprendizaje por refuerzo profundo y permitió directamente trabajos posteriores sobre control continuo y ajuste de modelos de lenguaje.

  • Proximal Policy Optimization (PPO) — Publicado en 2017, PPO simplificó la optimización restringida de TRPO en un objetivo recortado de primer orden mucho más fácil de implementar a gran escala. Se convirtió en el algoritmo de aprendizaje por refuerzo dominante en el campo, sirviendo como columna vertebral de los pipelines de RLHF para InstructGPT, ChatGPT y la mayoría de los modelos posteriores ajustados con instrucciones; ha acumulado decenas de miles de citas.

  • Generalized Advantage Estimation (GAE) — Publicado en ICLR 2016, GAE proporcionó un marco unificado para el equilibrio entre varianza y sesgo en la estimación del gradiente de políticas, ampliamente adoptado en implementaciones de aprendizaje por refuerzo.

  • OpenAI Gym — Cooriginado en 2016, este conjunto de herramientas de referencia estandarizado moldeó fundamentalmente la forma en que la comunidad de investigación en aprendizaje por refuerzo evalúa los algoritmos, permitiendo comparaciones reproducibles en cientos de entornos.

  • ChatGPT y RLHF a escala — Schulman lideró el esfuerzo de investigación que aplicó RLHF a modelos de lenguaje de la clase GPT, produciendo InstructGPT (2022) y luego ChatGPT, que demostró que las técnicas de alineación podían mejorar simultáneamente la utilidad, la seguridad y la accesibilidad pública de los modelos.

  • Concrete Problems in AI Safety — Cooriginado con Dario Amodei, Chris Olah y otros en 2016, este artículo articuló una taxonomía de modos de fallo de seguridad (manipulación de recompensas, exploración segura, cambio distribucional) que moldeó la agenda inicial del campo de la seguridad de la IA.

  • «Verifiquemos paso a paso» (2023) — Trabajo cooriginado que introdujo los modelos de recompensa de proceso (PRMs) para evaluar el razonamiento de múltiples pasos, avanzando en la comprensión del campo sobre cómo supervisar las cadenas de pensamiento en los grandes modelos de lenguaje.

  • Stochastic Computation Graphs — Publicado en NeurIPS 2015, este marco unificó los gradientes de políticas y la retropropagación a través de nodos estocásticos, proporcionando la base teórica de su tesis doctoral y de una serie de técnicas posteriores de estimación de gradientes.


Premios y reconocimientos

  • Premio Mark Bingham a la Excelencia en Logros de Jóvenes Exalumnos (2025) — Otorgado por la Facultad de Computación, Ciencia de Datos y Sociedad de UC Berkeley; reconoce logros sobresalientes de exalumnos al inicio de su carrera.
  • Innovadores menores de 35 de MIT Technology Review (2018) — Reconocido como pionero por sus contribuciones al aprendizaje por refuerzo profundo y la investigación en IA.
  • Mejor artículo sobre visión en ICRA (2013) — Otorgado por Tracking Deformable Objects with Point Clouds, cooriginado con el grupo de Pieter Abbeel.
  • Equipo de la Olimpiada de Física de EE. UU. (2005) — Seleccionado como miembro del equipo nacional mientras aún estaba en la escuela secundaria.

Relaciones clave

  • Pieter Abbeel — Asesor de doctorado en UC Berkeley; el laboratorio de robótica de Abbeel fue el catalizador directo de la transición de Schulman de la neurociencia a la IA, y su colaboración produjo TRPO, GAE y varios artículos de robótica.
  • Sam Altman — Cofundador y CEO de OpenAI; Altman fue copresidente en la fundación y fue la contraparte organizativa de Schulman a medida que OpenAI se convertía en una empresa centrada en productos.
  • Ilya Sutskever — Cofundador de OpenAI; colaborador cercano en investigación de escalado y modelos de lenguaje, incluida la coautoría de RL² y Concrete Problems in AI Safety.
  • Paul Christiano — Exinvestigador de seguridad de OpenAI cuyo trabajo temprano de RLHF en tareas no lingüísticas Schulman identificó como la semilla de la metodología de entrenamiento de ChatGPT; actualmente en el Alignment Research Center.
  • Mira Murati — Exdirectora de tecnología de OpenAI, actual fundadora y CEO de Thinking Machines Lab; Schulman se unió a su startup como científico jefe en febrero de 2025.
  • Andrej Karpathy — Compañero cofundador de OpenAI; uno de los pares profesionales y seguidores más destacados de Schulman en la comunidad de investigación de IA.
  • Lilian Weng — Exvicepresidenta de Seguridad de IA de OpenAI; miembro del equipo fundador de Thinking Machines Lab junto con Schulman.
  • Dario Amodei — Coautor de Concrete Problems in AI Safety; fundador de Anthropic, la organización a la que Schulman se unió brevemente en 2024.

Estilo personal

La filosofía de investigación de Schulman se caracteriza por una preferencia por fundamentos teóricos con principios —sobre todo el uso de regiones de confianza y restricciones de divergencia KL— aplicados a problemas en la frontera de la escala práctica. Su trayectoria intelectual, de la física a la neurociencia, luego a la robótica y finalmente a los modelos de lenguaje, refleja una disposición a seguir el camino más viable para comprender la inteligencia en lugar de comprometerse con una única metodología. En sus apariciones públicas es notablemente franco acerca de la incertidumbre, incluido el hecho de que la recepción de ChatGPT sorprendiera incluso a sus creadores. Fuera de la investigación, sus intereses declarados incluyen la observación de aves y la música jazz, sensibilidades que se corresponden de manera aproximada con una apreciación más amplia de los sistemas con complejidad emergente.


Referencias