John Schulman

ref · 25 Maio , 2026 05:35

Cofundador da OpenAI e arquiteto do ChatGPT, amplamente reconhecido como uma das principais figuras por trás do aprendizado por reforço a partir de feedback humano e dos algoritmos modernos de otimização de políticas.

Perfil

Campo	Detalhe
Nascimento	1987 ou 1988, Estados Unidos
Nacionalidade	Estadunidense
Instituição atual	Thinking Machines Lab (Cientista-Chefe, 2025–)
Áreas de pesquisa	Aprendizado por reforço, otimização de políticas, RLHF, alinhamento de IA
Orientador de doutorado	Pieter Abbeel
Tese de doutorado	Otimizando Expectativas: Do Aprendizado por Reforço Profundo aos Grafos de Computação Estocástica (UC Berkeley, 2016)
Site pessoal	joschu.net
X / Twitter	@johnschulman2
GitHub	@joschu

Visão Geral

John Schulman é um pesquisador de IA estadunidense mais conhecido como cofundador da OpenAI e o principal arquiteto da metodologia de treinamento do ChatGPT. Seus algoritmos fundamentais — Otimização de Políticas com Região de Confiança (TRPO) e Otimização de Políticas Proximais (PPO) — tornaram-se o padrão de facto para treinar grandes modelos de linguagem via Aprendizado por Reforço a partir de Feedback Humano (RLHF), e permanecem entre os trabalhos mais citados na IA moderna. Após quase uma década na OpenAI, onde coliderou a equipe de pós-treinamento responsável pela família de modelos GPT, ele se juntou brevemente à equipe de Ciência de Alinhamento da Anthropic em 2024 antes de se tornar Cientista-Chefe no Thinking Machines Lab no início de 2025. Schulman ocupa uma posição rara na interseção entre contribuição teórica profunda e impacto transformador em produtos do mundo real.

Início da Vida e Formação

Schulman cresceu em Long Island, frequentando a Great Neck South High School, onde seus primeiros interesses abrangiam ciência, matemática e ficção científica — particularmente as obras de Isaac Asimov. Na sétima série, uma intensa fascinação pelo programa de televisão BattleBots o levou a realizar o que ele descreveu como seu primeiro episódio de estudo autodirigido, lendo amplamente sobre engenharia e física em busca de construir um robô de combate superior, um projeto que nunca foi concluído. Em 2005, ele representou os Estados Unidos como membro da Equipe da Olimpíada de Física dos EUA.

Bacharelado em Física — Instituto de Tecnologia da Califórnia (Caltech), 2010
Schulman completou sua graduação no Caltech, onde uma série de estágios de pesquisa em física o deixou mais curioso sobre neurociência e IA do que sobre a física propriamente dita.

Estudos iniciais de pós-graduação em Neurociência — UC Berkeley
Ao chegar em Berkeley, Schulman se matriculou no programa de neurociência e completou várias rotações em laboratórios. Sua última rotação foi com o professor Pieter Abbeel, cujo trabalho em helicópteros de controle e robôs dobradores de toalhas foi decisivo.

Doutorado em Engenharia Elétrica e Ciências da Computação (EECS) — UC Berkeley, 2016
Mudando de departamento após sua rotação com Abbeel, Schulman se dedicou à robótica e ao aprendizado por reforço profundo. Sua tese, Otimizando Expectativas: Do Aprendizado por Reforço Profundo aos Grafos de Computação Estocástica, estabeleceu a base teórica para o TRPO e o arcabouço de Estimativa de Vantagem Generalizada (GAE) que se seguiu. Abbeel foi seu orientador durante todo o período.

Carreira

UC Berkeley — Laboratório Abbeel (2010–2015)

Como estudante de doutorado, o trabalho inicial de Schulman focou em manipulação robótica — otimização de trajetórias, tarefas de sutura e rastreamento de objetos deformáveis. Seu artigo de 2013 sobre otimização convexa sequencial para trajetórias livres de colisão (TrajOpt) ganhou o Prêmio de Melhor Artigo em Visão no ICRA. Com o tempo, seu foco se deslocou para métodos de gradiente de políticas e o problema teórico do aprendizado por reforço estável e eficiente em amostras. Isso culminou no TRPO (publicado no ICML 2015), que introduziu uma atualização de região de confiança fundamentada para evitar mudanças destrutivas de políticas, e no GAE (ICLR 2016), que forneceu um arcabouço de redução de variância para estimativa de vantagem.

OpenAI (dezembro de 2015 – agosto de 2024)

Schulman cofundou a OpenAI em dezembro de 2015 junto com Sam Altman, Elon Musk, Ilya Sutskever, Greg Brockman, Andrej Karpathy, Wojciech Zaremba e outros, juntando-se antes de concluir seu doutorado. Na OpenAI, ele liderou a equipe de pesquisa em aprendizado por reforço, que produziu um fluxo constante de trabalhos fundamentais:

PPO (2017): Um sucessor simplificado do TRPO usando um objetivo substituto com clipe, o PPO tornou-se o algoritmo padrão para otimização de políticas em larga escala, encontrando ampla adoção em robótica, jogos e ajuste fino de modelos de linguagem.
OpenAI Gym (2016): Coautor do kit de ferramentas de referência que padronizou ambientes de pesquisa em RL em toda a área.
RLHF para linguagem (2017–2022): Schulman identificou o potencial do trabalho inicial de Paul Christiano com RLHF em tarefas não linguísticas e liderou sua aplicação a grandes modelos de linguagem, culminando no InstructGPT e, finalmente, no ChatGPT.
ChatGPT (2022): Schulman liderou as equipes de aprendizado por reforço e pós-treinamento responsáveis pelo ChatGPT, lançado em novembro de 2022. Ele tem sido amplamente descrito como o „arquiteto” do ChatGPT. Notavelmente, o GPT-4 já estava treinado antes do lançamento do ChatGPT; a recepção pública do ChatGPT, no entanto, surpreendeu até mesmo a equipe interna.
Colíder de pós-treinamento (2022–2024): De 2022 até sua saída, Schulman coliderou a equipe de pós-treinamento da OpenAI, supervisionando o desenvolvimento de modelos para o produto ChatGPT e a API da OpenAI.

Anthropic — Equipe de Ciência de Alinhamento (agosto de 2024 – fevereiro de 2025)

Schulman anunciou sua saída da OpenAI em agosto de 2024, afirmando que sua motivação era o desejo de aprofundar seu foco em alinhamento de IA e retornar a uma pesquisa técnica mais prática. Ele se juntou à equipe de Ciência de Alinhamento da Anthropic, trabalhando em pesquisa orientada à segurança. Sua passagem foi breve; em fevereiro de 2025, ele saiu para se juntar a um novo empreendimento.

Thinking Machines Lab (fevereiro de 2025 – presente)

Schulman juntou-se ao Thinking Machines Lab como Cientista-Chefe logo após sua fundação por Mira Murati, ex-CTO da OpenAI. A startup, que também conta com Lilian Weng e (inicialmente) Barret Zoph entre sua equipe fundadora, foca no desenvolvimento de sistemas avançados de IA. Seus interesses de pesquisa declarados no laboratório continuam centrados em aprendizado por reforço e alinhamento de IA.

Principais Contribuições

Otimização de Políticas com Região de Confiança (TRPO) — Publicado no ICML 2015, o TRPO introduziu uma restrição teoricamente fundamentada nas atualizações de políticas para evitar instabilidade durante o treinamento. Tornou-se um dos artigos mais influentes em RL profundo e permitiu diretamente o trabalho subsequente em controle contínuo e ajuste fino de modelos de linguagem.
Otimização de Políticas Proximais (PPO) — Publicado em 2017, o PPO simplificou a otimização restrita do TRPO em um objetivo substituto de primeira ordem que é muito mais fácil de implementar em escala. Tornou-se o algoritmo de RL dominante na área, servindo como espinha dorsal dos pipelines de RLHF para InstructGPT, ChatGPT e a maioria dos modelos ajustados por instruções subsequentes; acumulou dezenas de milhares de citações.
Estimativa de Vantagem Generalizada (GAE) — Publicado no ICLR 2016, o GAE forneceu um arcabouço unificado para o trade-off variância-vies na estimativa de gradiente de políticas, amplamente adotado em implementações de RL.
OpenAI Gym — Coautor em 2016, este kit de ferramentas de referência padronizado moldou fundamentalmente como a comunidade de pesquisa em RL avalia algoritmos, permitindo comparações reproduzíveis em centenas de ambientes.
ChatGPT e RLHF em escala — Schulman liderou o esforço de pesquisa que aplicou RLHF a modelos de linguagem da classe GPT, produzindo o InstructGPT (2022) e depois o ChatGPT, que demonstraram que técnicas de alinhamento poderiam melhorar simultaneamente a utilidade, segurança e acessibilidade pública do modelo.
Problemas Concretos em Segurança de IA — Coautor com Dario Amodei, Chris Olah e outros em 2016, este artigo articulou uma taxonomia de modos de falha de segurança (hacking de recompensa, exploração segura, mudança distribucional) que moldou a agenda inicial do campo de segurança de IA.
„Vamos Verificar Passo a Passo” (2023) — Trabalho em coautoria introduzindo modelos de recompensa de processo (PRMs) para avaliar raciocínio de múltiplas etapas, avançando a compreensão do campo sobre como supervisionar cadeias de pensamento em grandes modelos de linguagem.
Grafos de Computação Estocástica — Publicado no NeurIPS 2015, este arcabouço unificou gradientes de políticas e retropropagação através de nós estocásticos, fornecendo a base teórica para sua tese de doutorado e para uma série de técnicas subsequentes de estimativa de gradiente.

Prêmios e Reconhecimento

Prêmio Mark Bingham de Excelência em Conquistas por Jovens Ex-Alunos (2025) — Concedido pelo Colégio de Computação, Ciência de Dados e Sociedade da UC Berkeley; reconhece conquistas excepcionais de ex-alunos no início da carreira.
Inovadores com Menos de 35 Anos do MIT Technology Review (2018) — Reconhecido como pioneiro por contribuições ao aprendizado por reforço profundo e à pesquisa em IA.
Prêmio de Melhor Artigo em Visão do ICRA (2013) — Concedido por Rastreamento de Objetos Deformáveis com Nuvens de Pontos, coautor com o grupo de Pieter Abbeel.
Equipe da Olimpíada de Física dos EUA (2005) — Selecionado como membro da equipe nacional ainda no ensino médio.

Relacionamentos-Chave

Pieter Abbeel — Orientador de doutorado na UC Berkeley; o laboratório de robótica de Abbeel foi o catalisador direto para a transição de Schulman da neurociência para a IA, e sua colaboração produziu TRPO, GAE e vários artigos de robótica.
Sam Altman — Cofundador e CEO da OpenAI; Altman atuou como copresidente na fundação e foi o contraponto organizacional de Schulman à medida que a OpenAI crescia para se tornar uma empresa focada em produtos.
Ilya Sutskever — Cofundador da OpenAI; colaborador próximo em pesquisa de escala e modelos de linguagem, incluindo coautoria em RL² e Problemas Concretos em Segurança de IA.
Paul Christiano — Ex-pesquisador de segurança da OpenAI cujo trabalho inicial com RLHF em tarefas não linguísticas Schulman identificou como a semente da metodologia de treinamento do ChatGPT; agora no Alignment Research Center.
Mira Murati — Ex-CTO da OpenAI, atual fundadora e CEO do Thinking Machines Lab; Schulman juntou-se à sua startup como Cientista-Chefe em fevereiro de 2025.
Andrej Karpathy — Colega cofundador da OpenAI; um dos pares e seguidores profissionais mais proeminentes de Schulman na comunidade de pesquisa em IA.
Lilian Weng — Ex-VP de Segurança de IA da OpenAI; membro da equipe fundadora do Thinking Machines Lab ao lado de Schulman.
Dario Amodei — Coautor de Problemas Concretos em Segurança de IA; fundador da Anthropic, a organização que Schulman brevemente integrou em 2024.

Estilo Pessoal

A filosofia de pesquisa de Schulman é caracterizada por uma preferência por fundamentos teóricos baseados em princípios — mais notavelmente o uso de regiões de confiança e restrições de divergência KL — aplicados a problemas na fronteira da escala prática. Sua trajetória intelectual, da física à neurociência, à robótica, aos modelos de linguagem, reflete uma disposição para seguir o caminho mais tratável para entender a inteligência, em vez de se comprometer com uma única metodologia. Em aparições públicas, ele é notavelmente franco sobre incertezas, inclusive sobre o fato de a recepção do ChatGPT ter surpreendido até mesmo seus criadores. Fora da pesquisa, seus interesses declarados incluem observação de pássaros e música jazz, sensibilidades que se mapeiam vagamente para uma apreciação mais ampla de sistemas com complexidade emergente.