Jason Wei

Investigador estadounidense de IA que ayudó a definir la era del razonamiento en los modelos de lenguaje de gran escala mediante el prompting de cadena de pensamiento, el ajuste por instrucciones y el estudio de las capacidades emergentes.


Perfil

Nacimiento c. 1998, Estados Unidos
Nacionalidad Estadounidense
Institución actual Meta Superintelligence Labs
Áreas de investigación Modelos de lenguaje de gran escala, prompting de cadena de pensamiento, ajuste por instrucciones, capacidades emergentes, razonamiento, aprendizaje por refuerzo
Formación Licenciatura en Ciencias de la Computación, Dartmouth College (2020)
Sitio web jasonwei.net
X / Twitter @_jasonwei
GitHub jasonwei20
Google Scholar Jason Wei

Resumen

Jason Wei es un investigador estadounidense de IA cuyo trabajo sobre el prompting de cadena de pensamiento (CoT), el ajuste por instrucciones y las capacidades emergentes ha moldeado la forma en que el campo entiende y entrena los modelos de lenguaje de gran escala. Saltó a la fama en Google Brain entre 2020 y 2023, coescribiendo una serie de artículos que se convirtieron en referencias fundamentales en la literatura de los LLM. Luego se unió a OpenAI, donde fue un colaborador central en la serie de modelos de razonamiento que culminó con o1. En julio de 2025, Wei y su colaborador de larga data Hyung Won Chung se mudaron juntos a Meta Superintelligence Labs, continuando su enfoque en el razonamiento y el aprendizaje por refuerzo. A pesar de no tener un doctorado, Wei es uno de los investigadores más citados de su generación en PLN, una trayectoria construida casi por completo desde puestos de investigación en la industria.


Vida temprana y educación

Wei asistió a la Escuela Secundaria de Ciencia y Tecnología Thomas Jefferson en Alexandria, Virginia, una escuela magnet conocida por producir talento competitivo en STEM. Se inscribió en Dartmouth College en 2016, donde estudió ciencias de la computación bajo la tutela de los profesores Lorenzo Torresani y Soroush Vosoughi. Cuando aún era estudiante de pregrado, publicó su primer artículo en una conferencia — una técnica de aumento de datos para PLN — en EMNLP 2019, un debut investigativo inusualmente temprano. Se graduó en 2020 con una licenciatura y se trasladó directamente a la investigación en la industria.


Carrera profesional

Google Brain (2020–2023)

Wei se unió a Google Brain en octubre de 2020 como AI Resident, una beca competitiva de uno a dos años para investigadores al inicio de su carrera. Fue ascendido a Ingeniero de Investigación en diciembre de 2021, a Científico de Investigación en junio de 2022 y a Científico de Investigación Senior en octubre de 2022, una progresión inusualmente rápida.

Durante este período fue el autor principal o un colaborador central en tres artículos que reorientaron colectivamente la investigación en LLM. El trabajo FLAN (2021) demostró que el ajuste fino por instrucciones mejora drásticamente la generalización de cero disparos. El artículo de cadena de pensamiento (NeurIPS 2022) mostró que incitar a los modelos a producir pasos de razonamiento intermedios permite la resolución confiable de problemas de múltiples pasos. El artículo de capacidades emergentes (TMLR 2022) caracterizó el fenómeno mediante el cual aparecen nuevas capacidades cualitativas en umbrales de escala discretos, un hallazgo que influyó en cómo los profesionales pensaban sobre el escalado y la evaluación de modelos. También contribuyó a los artículos de PaLM y Med-PaLM como autor de apoyo.

OpenAI (2023–2025)

Wei anunció su traslado al equipo de ChatGPT de OpenAI en febrero de 2023. En OpenAI trabajó en sistemas de razonamiento y agentes, convirtiéndose finalmente en co-creador de la serie de modelos o1, lanzada en vista previa en septiembre de 2024. Los modelos o1 se entrenan mediante aprendizaje por refuerzo en trazas de cadena de pensamiento, lo que permite un rendimiento sustancialmente mayor en puntos de referencia de matemáticas, ciencia y programación en comparación con el CoT basado solo en prompting. Wei también contribuyó al producto de investigación profunda y coescribió SimpleQA (un punto de referencia de factualidad de formato corto) y BrowseComp (un punto de referencia para agentes de navegación). Durante este período se convirtió en un defensor vocal del aprendizaje por refuerzo tanto como paradigma técnico como filosofía personal, describiéndose públicamente como un «RL diehard» (fanático acérrimo del aprendizaje por refuerzo).

Meta Superintelligence Labs (2025–presente)

En julio de 2025, Wei y Hyung Won Chung dejaron OpenAI juntos y se unieron al recién formado Superintelligence Labs de Meta. Su partida fue parte de una ola más amplia de investigadores seniors de OpenAI que se mudaron a Meta mientras la empresa intensificaba sus ambiciones de AGI con paquetes de compensación sustanciales. La experiencia de Wei en razonamiento y aprendizaje por refuerzo fue citada por múltiples fuentes como una motivación clave para el esfuerzo de reclutamiento de Meta.


Contribuciones clave

  • Prompting de cadena de pensamiento — El artículo de NeurIPS 2022 «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» (con Xuezhi Wang, Denny Zhou y otros) demostró que incitar a un modelo a articular pasos de razonamiento intermedios antes de dar una respuesta final mejora drásticamente el rendimiento en tareas de razonamiento aritmético, de sentido común y simbólico. La técnica se convirtió en una práctica estándar tanto en la investigación como en el despliegue y sigue siendo uno de los artículos más citados en PLN.

  • FLAN / Ajuste por instrucciones — «Finetuned Language Models are Zero-Shot Learners» (ICLR 2022) presentó FLAN (Finetuned Language Net), mostrando que el ajuste fino en una colección diversa de tareas de PLN formateadas como instrucciones en lenguaje natural produce una fuerte transferencia de cero disparos. El seguimiento «Scaling Instruction-Finetuned Language Models» (JMLR 2024) escaló este enfoque a PaLM y T5, produciendo FLAN-T5 y FLAN-PaLM, familias de modelos ampliamente utilizadas tanto en investigación como en producción.

  • Capacidades emergentes de los modelos de lenguaje de gran escala — «Emergent Abilities of Large Language Models» (TMLR 2022, con Yi Tay, Rishi Bommasani, Barret Zoph, Percy Liang, Jeff Dean y otros) proporcionó una caracterización sistemática de las capacidades que aparecen abruptamente a medida que aumenta la escala del modelo, enmarcando lo que antes eran observaciones anecdóticas como un fenómeno medible y debatido en la investigación del escalado de la IA.

  • OpenAI o1 — Como co-creador de la serie de modelos o1 (lanzada en septiembre de 2024), Wei ayudó a avanzar el paradigma de entrenar LLM para razonar mediante aprendizaje por refuerzo en trazas de cadena de pensamiento, extendiendo el CoT de un truco de prompting a un objetivo de entrenamiento central. La familia o1 logró resultados de última generación en puntos de referencia de matemáticas y programación a nivel de competencia en su lanzamiento.

  • SimpleQA — «Measuring Short-Form Factuality in Large Language Models» (2024) introdujo SimpleQA, un punto de referencia de preguntas factuales inequívocas y verificables diseñado para calibrar la evaluación de la factualidad en LLM, llenando un vacío dejado por conjuntos de datos de verificación de hechos de formato más largo o más difíciles de puntuar.

  • BrowseComp — «A Simple Yet Challenging Benchmark for Browsing Agents» (2025) propuso un punto de referencia para evaluar la capacidad de los agentes de IA para recuperar información a través de la navegación web de múltiples pasos, contribuyendo a la infraestructura de evaluación emergente para sistemas agentivos.

  • EDA (Easy Data Augmentation) — El artículo de EMNLP 2019 introdujo operaciones simples de aumento de texto — sustitución de sinónimos, inserción aleatoria, intercambio y eliminación — que mejoraban consistentemente el rendimiento en clasificación de texto. Se convirtió en una línea base práctica ampliamente utilizada en PLN.


Premios y reconocimientos

  • NeurIPS 2022 Spotlight / Oral — El artículo de cadena de pensamiento se presentó en NeurIPS 2022 y ha acumulado decenas de miles de citas, clasificándose entre los artículos de PLN más influyentes de la década de 2020.
  • ICLR 2022 — El artículo original de FLAN fue aceptado en ICLR 2022 y se encuentra entre las referencias fundamentales para los modelos de lenguaje ajustados por instrucciones.
  • Conferencias magistrales invitadas — Wei ha pronunciado conferencias magistrales en KDD LLM Day (2023), WebConf LLM Day (2024), OpenAI DevDay San Francisco (2024) y Columbia University DAPLab (2025), entre muchas otras charlas invitadas en Stanford, MIT, Princeton, Berkeley y las principales conferencias de la industria.

Relaciones clave

  • Hyung Won Chung — Colaborador de investigación más cercano; coincidió en Google Brain y OpenAI, coescribió el artículo de escalado de Flan-T5 y se mudó juntos a Meta Superintelligence Labs en julio de 2025.
  • Denny Zhou — Coautor y colaborador en el trabajo de prompting de cadena de pensamiento en Google Brain; científico principal de Google DeepMind conocido por su investigación en razonamiento.
  • Yi Tay — Coautor en el artículo de capacidades emergentes y varios artículos de escalado en Google Brain; luego se mudó a Reka AI.
  • Quoc Le — Coautor principal en múltiples artículos de Google Brain, incluidos FLAN y cadena de pensamiento; director de investigación de Google Brain y figura clave en la carrera temprana de Wei.
  • Lorenzo Torresani — Asesor de investigación de pregrado en Dartmouth; profesor de ciencias de la computación cuya tutoría precedió a la carrera de Wei en la industria.
  • Soroush Vosoughi — Profesor de ciencias de la computación en Dartmouth que trabajó con Wei en proyectos de investigación de pregrado y luego lo invitó a dar una conferencia como invitado.
  • Zhiqing Sun — Investigador científico colaborador en OpenAI; co-primer autor en BrowseComp; también se unió a Meta Superintelligence Labs en julio de 2025.

Estilo personal

La práctica investigativa de Wei se caracteriza por una preferencia por ideas limpias y empíricamente fundamentadas que viajan bien — técnicas que pueden explicarse en una oración y que se generalizan ampliamente entre modelos y tareas. Sus escritos públicos, recopilados en su sitio personal bajo una sección «Thoughts», tienden a ser observaciones cortas y directas sobre la metodología de investigación, la mecánica del aprendizaje por refuerzo y el desarrollo profesional, con una calidad sincera inusual entre investigadores de su nivel de perfil. Ha hablado abiertamente sobre cómo la inmersión en conceptos de aprendizaje por refuerzo ha moldeado su filosofía personal, particularmente el valor de explorar de forma independiente en lugar de imitar. Su trayectoria desde investigador de pregrado hasta científico senior en tres de los laboratorios de IA más competitivos del mundo sin un título de posgrado se cita con frecuencia como algo distintivo en un campo dominado por titulares de doctorados.


Referencias