Nathan Lambert

ref · 28 Maio , 2026 08:53

Especialista em robótica formado em Berkeley que se tornou líder de pós-treinamento no Allen Institute for AI. Seu trabalho com modelos de código aberto, o livro sobre RLHF e o boletim informativo Interconnects o transformaram em uma das vozes públicas mais acessíveis sobre alinhamento e pós-treinamento de LLMs.

Perfil


Nacionalidade	Americano
Instituição(ões) Atual(is)	Allen Institute for AI — Ai2 (Pesquisador Científico Sênior, Líder de Pós-Treinamento)
Áreas de Pesquisa	RLHF, Pós-Treinamento, Modelos de Linguagem Abertos, Aprendizado por Reforço Baseado em Modelos, Controle de Robótica
Orientador de Doutorado	Kristofer S.J. Pister; Roberto Calandra (co-orientador, Meta AI Research)
Tese de Doutorado	Sinergia de Predição e Controle no Aprendizado por Reforço Baseado em Modelos (UC Berkeley, 2022)
Site	natolambert.com
Blog	interconnects.ai — Mais de 60.000 assinantes
X / Twitter	@natolambert
GitHub	natolambert
Google Scholar	Nathan Lambert

Visão Geral

Nathan Lambert é um pesquisador americano de aprendizado de máquina cuja carreira evoluiu do controle de microrrobótica em Berkeley para uma das posições mais proeminentes no pós-treinamento de LLMs de código aberto. Como líder de pós-treinamento no Allen Institute for AI (Ai2), ele foi uma força motriz por trás do OLMo — um dos primeiros modelos de linguagem pré-treinados totalmente abertos — e da série de receitas de pós-treinamento Tülu, que demonstrou que uma pequena equipe aberta poderia igualar a qualidade de seguimento de instruções do pós-treinamento proprietário da Meta no mesmo modelo base. Paralelamente, Lambert administra o Interconnects, um boletim informativo do Substack que cresceu para mais de 60.000 assinantes e serve como um dos comentários públicos mais tecnicamente fundamentados do campo sobre pesquisa de LLMs, políticas e o debate entre modelos abertos e fechados. Ele é o único autor do RLHF Book, um volume impresso a ser lançado em breve, disponível em rlhfbook.com, que tem circulado como um documento gratuito no arXiv e é amplamente usado como referência por profissionais da área.

Início da Vida e Educação

Lambert completou sua graduação e início da pós-graduação em engenharia elétrica e ciência da computação. Ele fez doutorado na UC Berkeley, no Departamento de Engenharia Elétrica e Ciências da Computação, trabalhando no Berkeley Autonomous Microsystems Lab sob orientação do Professor Kristofer Pister e co-orientado por Roberto Calandra, da Meta AI Research. Sua dissertação, Sinergia de Predição e Controle no Aprendizado por Reforço Baseado em Modelos (2022), situa-se na interseção entre aprendizado por reforço baseado em modelos e controle de microrrobótica — uma combinação incomum que lhe deu experiência precoce tanto com os fundamentos teóricos do RL quanto com as demandas de engenharia de sistemas físicos reais. Durante seu doutorado, estagiou no Facebook AI Research e no DeepMind, ambos em RL baseado em modelos para controle, e recebeu o Prêmio UC Berkeley EECS Demetri Angelakos Memorial Achievement Award for Altruism por seus esforços para melhorar as normas da comunidade e orientar alunos mais jovens.

Carreira

UC Berkeley — Doutorado (2018–2022)

O trabalho de doutorado de Lambert abordou o desafio de construir controladores aprendidos com uso eficiente de amostras para plataformas microrrobóticas, combinando predição baseada em modelos com controle em malha fechada. Estágios no Facebook AI Research e no DeepMind durante este período ampliaram seu escopo da robótica com restrições de hardware para sistemas de RL em larga escala. A experiência lhe deixou uma perspectiva dupla — o respeito de um engenheiro por fundamentar afirmações na realidade física e o apetite de um pesquisador pela maquinaria teórica do RL — que mais tarde moldaria sua abordagem ao RLHF e ao pós-treinamento.

Hugging Face (2022–2023)

Após se formar, Lambert ingressou na Hugging Face, onde ajudou a construir a função de pesquisa em RLHF da empresa praticamente do zero. Esta função o colocou no centro do campo emergente no momento em que o ChatGPT tornara o RLHF um acrônimo conhecido. Ele contribuiu para ferramentas de código aberto e recursos educacionais em torno de modelagem de recompensas e aprendizado de preferências, e iniciou o Interconnects como um boletim informativo para tornar a literatura em rápida evolução acessível a um público mais amplo. O período na HuggingFace o estabeleceu como um explicador confiável dos mecanismos de RLHF em um momento de máximo interesse público.

Allen Institute for AI — Ai2 (2023–presente)

Lambert ingressou na Ai2 como Pesquisador Científico Sênior e foi nomeado líder de pós-treinamento. Seus projetos principais foram o OLMo, a série de modelos de linguagem pré-treinados totalmente abertos da Ai2 — lançada com pesos, dados de treinamento e código de treinamento — e o Tülu, a receita de pós-treinamento correspondente. O Tülu 3 (2024) atraiu atenção particular por demonstrar que o pós-treinamento de receita aberta poderia igualar a qualidade de ajuste de instrução da Meta em uma base LLaMA compartilhada, uma prova de conceito concreta para a viabilidade do ecossistema de modelos abertos. Ele descreveu o OLMo como a principal razão pela qual ingressou na Ai2, vendo a abertura total — dados, código e pesos — como a alavanca mais tratável para tornar a IA mais auditável e competitiva. Ele também desenvolveu o Tülu 3.1, que integrou aprendizado por reforço com recompensas verificáveis (RLVR) via Otimização de Política Relativa em Grupo (GRPO), escalando até o OLMo 2 32B. Em abril de 2026, viajou para a China para visitar a maioria dos principais laboratórios de IA — incluindo Moonshot AI, Z.ai, 01.ai, Meituan e Xiaomi — e publicou um relato de viagem amplamente divulgado sobre as diferenças culturais e organizacionais entre os ambientes de pesquisa chinês e americano.

Principais Contribuições

OLMo (Open Language Model) — Contribuidor central na série principal de modelos de linguagem pré-treinados totalmente abertos da Ai2, lançando pesos, dados de treinamento (Dolma) e código de treinamento; o esforço de modelo de linguagem grande de receita aberta mais abrangente fora de um punhado de consórcios acadêmicos.
Tülu / Tülu 3 — Liderou a receita de pós-treinamento que iguala a qualidade de seguimento de instruções da Meta usando a mesma base LLaMA, com reprodutibilidade total; o Tülu 3.1 incorporou ainda RLVR/GRPO, permitindo que o OLMo 2 32B superasse o GPT-3.5 Turbo em benchmarks acadêmicos como o primeiro modelo totalmente aberto a fazê-lo.
Boletim informativo Interconnects — Fundou e escreve um boletim informativo do Substack cobrindo pós-treinamento de LLM, IA de código aberto e a economia política do campo; cresceu para mais de 60.000 assinantes e está classificado em #39 em Tecnologia no Substack, tornando-se um dos boletins informativos técnicos de ML mais lidos.
RLHF Book (Reinforcement Learning from Human Feedback, rlhfbook.com / arXiv 2504.12501) — Tratamento em formato de livro de autoria única de todo o pipeline de RLHF e pós-treinamento, cobrindo ajuste de instruções, modelagem de recompensas, PPO, DPO, RLVR e questões de pesquisa em aberto; disponível gratuitamente como um documento vivo no arXiv e a ser lançado em formato impresso.
SAIL (Substack Artificial Intelligence Library) — Cofundou readsail.com, um recurso de leitura curada para pesquisa em IA.
Interconnects Interviews — Apresenta uma série de podcasts entrevistando os principais pesquisadores de IA sobre tendências técnicas, complementando o boletim informativo escrito.
Relatório de Viagem aos Laboratórios de IA da China (maio de 2026) — Relato em primeira pessoa da visita aos principais laboratórios chineses de LLM (Moonshot, Z.ai, 01.ai, Meituan, Xiaomi, Tsinghua), oferecendo uma rara análise organizacional e cultural em primeira mão; amplamente lido nas comunidades de políticas e pesquisa.

Prêmios e Reconhecimento

Prêmio UC Berkeley EECS Demetri Angelakos Memorial Achievement Award for Altruism — Concedido durante seu doutorado por contribuições às normas da comunidade e orientação de alunos mais jovens.
Aparições no Podcast Lex Fridman (fevereiro de 2025, fevereiro de 2026) — Convidado duas vezes para um dos podcasts de IA de maior tráfego: primeiro para discutir o DeepSeek e suas implicações para a corrida de IA entre EUA e China, e novamente para uma ampla pesquisa sobre o estado da arte da IA em 2026.
Interconnects — #39 em Tecnologia no Substack — A classificação reflete o crescimento orgânico de assinantes impulsionado inteiramente por conteúdo técnico e analítico, sem apoio institucional ou gastos promocionais.

Principais Relacionamentos

Kristofer S.J. Pister — Orientador de doutorado; pioneiro em smart dust e microrrobótica em Berkeley; deu a Lambert sua base em sistemas físicos e RL com restrições de hardware.
Roberto Calandra — Co-orientador de doutorado da Meta AI Research; fez a ponte entre o trabalho de microrrobótica de Lambert e a literatura de RL baseado em modelos em larga escala.
Liam Fedus / Comunidade de pós-treinamento da OpenAI — O trabalho de Lambert no Tülu faz benchmark diretamente contra o trabalho de pós-treinamento da OpenAI; seu boletim informativo analisa e contextualiza frequentemente os lançamentos da OpenAI, e ele falou sobre a sobreposição da comunidade na metodologia de pós-treinamento.
Yann Dubois e Equipe de RLHF da HuggingFace — Colegas durante o período na HuggingFace, quando as ferramentas abertas de RLHF estavam sendo construídas.
Equipe Ai2 / OLMo — Colaboradores próximos em todo o pipeline do OLMo; a equipe opera deliberadamente em uma escala menor (~10–15 pessoas) do que os laboratórios de fronteira, o que Lambert citou tanto como uma restrição quanto como uma fonte de agilidade.
Jordan Schneider (ChinaTalk) — Colaborador recorrente e apresentador de podcast; a viagem de Lambert à China foi organizada em conjunto com o ecossistema ChinaTalk, fazendo a ponte entre a análise técnica de IA e o enquadramento geopolítico.

Estilo Pessoal

A voz de Lambert é deliberadamente calibrada contra os ciclos de hype que caracterizam grande parte do comentário sobre IA: ele tende a buscar definições técnicas precisas onde outros buscam linguagem de marketing, e é abertamente cético em relação a alegações que não podem ser testadas contra benchmarks abertos. Sua decisão de se estabelecer fora de São Francisco — notável em um campo onde a proximidade com reuniões de café em Noe Valley se tornou quase profissionalmente obrigatória — é algo que ele enquadrou como uma forma de proteger a independência de sua análise. Seus escritos misturam exposição técnica em nível de tutorial com comentários de economia política sobre quem controla a infraestrutura de IA, uma combinação rara o suficiente no campo para ter construído um grande público interdisciplinar. Fora da pesquisa, ele é um corredor de montanha competitivo, e sua autodescrição (“corredor de montanha, pai de cachorro”) aparece em praticamente todas as suas biografias — uma nota incomumente pessoal em um campo onde os pesquisadores geralmente lideram com afiliações.