Jan Leike

ref · 26 Maio , 2026 02:11

Investigador alemão em segurança de IA, líder da equipe de Ciência de Alinhamento na Anthropic, conhecido por coprototipar o aprendizado por reforço a partir de feedback humano e por sua saída pública da OpenAI devido a preocupações com segurança.

Perfil


Nascimento	1986 ou 1987, Alemanha
Nacionalidade	Alemã
Instituição Atual	Anthropic (líder da equipe de Ciência de Alinhamento)
Áreas de Pesquisa	Alinhamento de IA, Aprendizado por Reforço a partir de Feedback Humano (RLHF), Supervisão Escalável, Generalização Fraca-para-Forte, Pesquisa Automatizada de Alinhamento
Orientador de Doutorado	Marcus Hutter
Tese de Doutorado	Nonparametric General Reinforcement Learning (Universidade Nacional da Austrália, 2016)
Site Pessoal	jan.leike.name
Blog	aligned.substack.com
X / Twitter	@janleike
GitHub	janleike
Google Scholar	Jan Leike

Visão Geral

Jan Leike é um dos pesquisadores mais importantes da história do alinhamento de IA, ocupando uma posição rara na interseção entre teoria fundamental e trabalho em sistemas de fronteira. Como pesquisador no DeepMind, ele coprototipou o aprendizado por reforço a partir de feedback humano (RLHF) — a técnica que se tornou a espinha dorsal dos modelos de linguagem alinhados modernos. Na OpenAI, ele coliderou a equipe de Superalinhamento ao lado de Ilya Sutskever, supervisionou o alinhamento do InstructGPT, ChatGPT e GPT-4, e coautorou o roteiro de pesquisa mais proeminente da área para alinhar sistemas superinteligentes. Sua renúncia da OpenAI em maio de 2024 — acompanhada por uma declaração pública de que a cultura de segurança havia “ficado em segundo plano em relação a produtos brilhantes” — tornou-se um dos momentos definidores na história pública da segurança de IA. Ele ingressou na Anthropic logo depois, onde lidera a equipe de Ciência de Alinhamento. A revista TIME o listou como uma das 100 pessoas mais influentes em IA em 2023 e 2024.

Início da Vida e Educação

Leike cresceu na Alemanha. Ele obteve seu diploma de graduação na Universidade de Freiburg e, após obter um mestrado em ciência da computação, cursou um doutorado em aprendizado de máquina na Universidade Nacional da Austrália sob a supervisão de Marcus Hutter. Hutter é o criador do AIXI, um modelo teórico de um agente universalmente inteligente, e a estrutura intelectual do trabalho de doutorado de Leike — aprendizado por reforço geral não paramétrico — está enraizada na tradição da teoria algorítmica da informação que Hutter foi pioneiro. Sua tese, Nonparametric General Reinforcement Learning (2016), abordou questões fundamentais sobre os limites teóricos de agentes de RL em ambientes sem suposições paramétricas.

Após seu doutorado, Leike fez um estágio de pós-doutorado de seis meses no Instituto do Futuro da Humanidade em Oxford antes de ingressar no DeepMind para se concentrar em pesquisa empírica de segurança de IA.

Carreira

DeepMind (c. 2016–2021)

Na equipe de segurança do DeepMind em Londres, Leike prototipou o aprendizado por reforço a partir de feedback humano. O artigo marcante, Deep Reinforcement Learning from Human Preferences (NeurIPS 2017), coautorado com Paul Christiano, Tom Brown, Miljan Martic, Shane Legg e Dario Amodei, propôs treinar agentes de RL usando comparações humanas não especializadas entre segmentos de trajetória, em vez de funções de recompensa especificadas manualmente. O artigo demonstrou que comportamentos novos e complexos podiam ser aprendidos com cerca de uma hora de tempo humano, em ambientes consideravelmente mais complexos do que qualquer um aprendido anteriormente a partir de feedback humano. Este trabalho estabeleceu o RLHF como uma técnica prática de alinhamento e mais tarde se tornaria o núcleo metodológico do InstructGPT, ChatGPT e Claude.

Durante este período, Leike também publicou Scalable Agent Alignment via Reward Modeling: A Research Direction (2018), coautorado com David Krueger, Tom Everitt e Shane Legg, que delineou um programa de pesquisa para escalar o alinhamento por meio de modelagem iterativa de recompensa — uma articulação formal inicial do que se tornaria a agenda de Superalinhamento.

OpenAI (2021–Maio de 2024)

Leike ingressou na OpenAI em 2021 como Chefe de Alinhamento. Ele esteve envolvido no desenvolvimento do InstructGPT, ChatGPT e no alinhamento do GPT-4, e é coautor do artigo do InstructGPT (NeurIPS 2022), que introduziu o ajuste fino supervisionado seguido por treinamento RLHF para produzir um modelo que seguisse melhor as instruções humanas.

Em junho de 2023, ele e Ilya Sutskever se tornaram colíderes do recém-introduzido projeto de Superalinhamento, que visava determinar como alinhar futuras superinteligências artificiais dentro de quatro anos. O projeto foi anunciado com um compromisso público de que a OpenAI dedicaria 20% de seu poder computacional à pesquisa de superalinhamento. Leike também desenvolveu a abordagem da OpenAI para a pesquisa de alinhamento e coautorou o roteiro de pesquisa da equipe de Superalinhamento.

Renúncia. Em maio de 2024, Leike renunciou à OpenAI, horas após a saída do próprio Ilya Sutskever. Sua declaração pública de renúncia no X foi incomumente direta. Ele acusou a OpenAI e seus líderes de negligenciar a cultura de segurança em favor de produtos brilhantes e disse que “vinha discordando da liderança da OpenAI sobre as prioridades principais da empresa há algum tempo, até que finalmente chegamos a um ponto de ruptura.” Ele escreveu que “construir máquinas mais inteligentes que os humanos é um empreendimento inerentemente perigoso” e que “a OpenAI deve se tornar uma empresa de AGI que coloca a segurança em primeiro lugar.” Ele observou que sua equipe estava “navegando contra o vento” e lutando para garantir recursos computacionais, apesar dos compromissos públicos da OpenAI. Em dias, a OpenAI dissolveu a equipe de Superalinhamento completamente, redistribuindo os membros para outros grupos de pesquisa.

Anthropic (Maio de 2024–presente)

Em maio de 2024, Leike ingressou na Anthropic, uma empresa de IA fundada por ex-funcionários da OpenAI. Ele lidera a equipe de Ciência de Alinhamento, que busca os problemas abertos mais difíceis para fazer com que os sistemas de IA se comportem como pretendido em tarefas onde a avaliação humana é difícil ou insuficiente. Sua equipe está pesquisando como alinhar um pesquisador de alinhamento automatizado, trabalhando em supervisão escalável, generalização fraca-para-forte e robustez contra jailbreaks.

Principais Contribuições

Deep Reinforcement Learning from Human Preferences (NeurIPS 2017) — Coautorado com Paul Christiano, Tom Brown, Miljan Martic, Shane Legg e Dario Amodei no DeepMind. O artigo introduziu a versão prática do RLHF, treinando agentes a partir de comparações humanas não especializadas de segmentos de trajetória. Tornou-se a base metodológica para alinhar modelos modernos de linguagem de grande escala, incluindo InstructGPT, ChatGPT, Claude e outros.
Scalable Agent Alignment via Reward Modeling (2018) — Coautorado com Krueger, Everitt, Martic, Maini e Legg. Esboçou uma agenda de pesquisa sistemática para modelagem iterativa de recompensa como um caminho para o alinhamento escalável; um modelo inicial para o que mais tarde sustentaria o programa de Superalinhamento.
InstructGPT — Training Language Models to Follow Instructions with Human Feedback (NeurIPS 2022) — Autor sênior no artigo que introduziu o InstructGPT, que combinou ajuste fino supervisionado e RLHF para produzir modelos de linguagem substancialmente mais alinhados com a intenção humana. Este trabalho permitiu diretamente o desenvolvimento do ChatGPT.
Superalignment Research Roadmap (2023) — Coliderado com Ilya Sutskever; coautorou o plano técnico para alinhar sistemas superinteligentes dentro de quatro anos usando IA atual ou de curto prazo para automatizar a pesquisa de alinhamento. Introduziu o conceito de generalização fraca-para-forte como uma abordagem técnica central.
Weak-to-Strong Generalisation (ICML 2024) — Coautorado com Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner e outros, incluindo Ilya Sutskever. Propôs e demonstrou empiricamente que a supervisão de um modelo fraco pode ser usada para eliciar capacidades fortes de um modelo mais poderoso — um mecanismo chave para alinhar sistemas mais inteligentes que seus supervisores.
LLM Critics Help Catch LLM Bugs (2024) — Primeiro trabalho da equipe de alinhamento da OpenAI demonstrando que o GPT-4 pode identificar erros em suas próprias saídas a taxas significativas, contribuindo para o programa de pesquisa de supervisão escalável.
Aligned Substack — Um blog de pesquisa ativo onde Leike publica tratamentos acessíveis de conceitos de alinhamento, incluindo ensaios fundamentais sobre “o problema difícil do alinhamento”, supervisão escalável e pesquisa automatizada de alinhamento; influente na formação do vocabulário conceitual do campo.

Prêmios e Reconhecimento

TIME100 AI (2023 e 2024) — Um dos poucos pesquisadores listados em ambas as edições; citado por contribuições à pesquisa de alinhamento de IA e por sua franqueza pública sobre riscos de segurança.
Declaração pública de renúncia (Maio de 2024) — Amplamente descrita como um momento divisor de águas na história pública da segurança de IA; coberta globalmente pelos principais meios de comunicação e creditada por aumentar a visibilidade dos debates sobre cultura de segurança dentro dos laboratórios de IA de fronteira.

Relações Chave

Marcus Hutter — Orientador de doutorado na Universidade Nacional da Austrália; criador do AIXI e do arcabouço teórico de inteligência universal que moldou a pesquisa inicial de Leike sobre RL geral não paramétrica.
Paul Christiano — Coautor principal do artigo de RLHF de 2017; posteriormente fundou o Centro de Pesquisa de Alinhamento (ARC) e depois a equipe de Interpretabilidade Mecanicista e Alinhamento. Um dos colaboradores intelectuais mais próximos na carreira de Leike.
Shane Legg — Coautor tanto no artigo de RLHF de 2017 quanto no artigo de modelagem de recompensa de 2018; cofundador do DeepMind. O trabalho de Leike no DeepMind foi conduzido dentro da órbita de segurança de Legg.
Dario Amodei — Coautor no artigo de RLHF de 2017 (então na OpenAI); agora CEO da Anthropic, a organização que Leike ingressou após sua saída da OpenAI. Sua colaboração em pesquisa, portanto, emoldura a história de segurança de IA da década.
Ilya Sutskever — Colíder da equipe de Superalinhamento; suas saídas simultâneas da OpenAI em maio de 2024 marcaram o êxodo mais notável focado em segurança de um laboratório de IA de fronteira na história do campo.
Sam Altman — CEO da OpenAI com quem Leike atingiu um “ponto de ruptura” sobre as prioridades de segurança da empresa; o desacordo público cristalizou um debate mais amplo sobre governança e valores em laboratórios de fronteira.

Estilo Pessoal

A voz pública de Leike é incomumente direta e baseada em princípios para uma figura sênior em uma indústria comercialmente competitiva. Sua declaração de renúncia em 2024 — rara por sua disposição de nomear falhas institucionais específicas de forma pública e não anônima — refletiu um padrão consistente: ele enquadra o alinhamento de IA não como uma preocupação técnica de nicho, mas como uma obrigação civilizacional, e trata a credibilidade institucional em segurança como algo que deve ser conquistado por meio de ação consistente, em vez de afirmado por meio de declarações de missão. Sua escrita de pesquisa é tecnicamente precisa, mas acessível, e seu blog Substack articula conceitos de alinhamento para um público que abrange profissionais de ML e leitores com mentalidade política. Sua carreira seguiu um fio consistente, desde fundamentos teóricos de RL sob Marcus Hutter, passando pela prototipagem empírica de RLHF no DeepMind, até o alinhamento em nível de sistemas na OpenAI e agora na Anthropic — sempre na fronteira onde questões abstratas de segurança encontram sistemas implantados.

Referências

Site pessoal: jan.leike.name
Wikipédia: en.wikipedia.org/wiki/Jan_Leike
Google Scholar: scholar.google.com — Jan Leike
Blog de alinhamento: aligned.substack.com
Perfil no X: digg.com/u/x/janleike
TIME100 AI 2024: time.com/7012867/jan-leike
Artigo RLHF (arXiv 1706.03741): arxiv.org/abs/1706.03741
Crypto Briefing — “Jan Leike lidera equipe de ciência de alinhamento da Anthropic” (Maio de 2026): cryptobriefing.com/jan-leike-anthropic-alignment-science
Anúncio de Superalinhamento da OpenAI (Junho de 2023): openai.com/blog/introducing-superalignment
Fast Company — reportagem sobre renúncia (Maio de 2024): fastcompany.com/91127491