Sam Bowman

Anthropic의 기술적 AI 안전 연구원이자 뉴욕 대학교(NYU) 부교수(휴직 중), Chris Potts와 Chris Manning의 지도하에 스탠퍼드 NLP에서 박사 학위를 받았으며, SNLI 및 MultiNLI의 공동 제작자이자 AI 안전의 성공을 위해 실제로 무엇이 필요한지에 대한 가장 상세한 공개 전략 로드맵 중 하나인 “The Checklist”의 저자입니다.


Profile

분야 상세 내용
성명 Samuel R. Bowman
국적 미국
현재 직함 Anthropic 기술적 AI 안전 연구원, NYU 부교수(휴직 중)
연구 분야 AI 정렬(AI Alignment), 확장 가능한 감독(Scalable Oversight), 자연어 추론(Natural Language Inference), LLM 평가(LLM Evaluation), 아첨(Sycophancy), 스키밍(Scheming), 모델 안전(Model Safety)
박사 학위 스탠퍼드 대학교, 2016 (스탠퍼드 NLP 그룹 + 스탠퍼드 언어학과)
박사 지도 교수 Chris Potts, Christopher Manning
개인 웹사이트 sleepinyourhat.github.io
블로그 sleepinyourhat.github.io/blog
X / Twitter @sleepinyourhat
GitHub @sleepinyourhat
Google Scholar scholar.google.com — 69,000회 이상의 인용

Overview

Sam Bowman은 Anthropic에서 근무하는 미국의 AI 안전 연구원이자 NYU의 데이터 과학 및 컴퓨터 과학 부교수(현재 장기 휴직 중)입니다. 그의 경력은 기초 NLP 연구에서 기술적 AI 안전에 이르기까지 이 분야에서 가장 일관된 궤적 중 하나를 보여줍니다. 자연어 추론(SNLI, MultiNLI)에 관한 그의 연구는 한 세대의 NLP 연구자들이 언어 이해를 테스트할 수 있는 실증적 기반을 구축했습니다. 이후 AI 정렬 분야로 전환하면서 확장 가능한 감독, 모델 작성 평가, 아첨(sycophancy), 그리고 전략적 안전 계획에 동일한 실증적 지향점을 가져왔습니다. 그는 AI 안전 분야에서 가장 많이 인용되는 연구자 중 한 명으로, Google Scholar 인용 횟수가 69,000회를 넘습니다. 그의 블로그 게시물인 “The Checklist: What Succeeding at AI Safety Will Involve”(2024년 9월) — Anthropic의 인지 하에 허가를 받아 공유됨 — 는 프런티어 연구소의 연구원이 성공적인 AI 안전 프로그램을 위해 실제로 무엇이 필요한지에 대해 작성한 가장 상세한 공개 전략 문서입니다. 그는 또한 Giving What We Can의 열린 구성원이며, 개인 웹사이트를 통해 효과적 기부(effective giving)에 대한 자신의 헌신을 공개해 왔습니다.


Education

학사 — (기본 자료에 기관 미명시)

컴퓨터 과학 및 언어학 박사 — 스탠퍼드 대학교, 2016
Bowman은 Christopher Manning과 Chris Potts의 지도하에 스탠퍼드 NLP 그룹과 스탠퍼드 언어학과의 공동으로 박사 학위를 취득했습니다. 그의 논문은 딥러닝이 특징 공학(feature-engineered) 기반의 NLP 접근 방식을 대체하기 시작한 시기인 초기 신경망 모델을 이용한 자연어 이해에 초점을 맞췄습니다. 언어학과 컴퓨터 과학의 공동 지도는 그의 후속 연구인 자연어 추론 작업 전반에 흐르는 형식 언어 및 의미 구조에 대한 지향점을 반영합니다. Manning과 Potts의 결합된 영향력 — Manning의 엄격한 실증적 NLP와 Potts의 형식 의미론 및 화용론 — 은 언어학적으로 근거가 있는 언어 이해를 위한 대규모 벤치마크를 구축하는 Bowman의 접근 방식에 영향을 미쳤습니다.


Career

뉴욕 대학교 (2016–현재, 휴직 중)

Bowman은 박사 학위 취득 후 NYU에 데이터 과학 및 컴퓨터 과학 교수진으로 합류했습니다. 그는 ML² 그룹과 CILVR 연구소에 소속되었습니다. 2022년부터 2024년까지 그는 NYU 정렬 연구 그룹(NYU Alignment Research Group)을 이끌었으며, 이 그룹은 이론적이거나 추상적인 정렬 문제보다는 대규모 언어 모델의 실증적인 정렬 문제에 명시적으로 초점을 맞춘 미국 주요 대학의 초기 학술적 AI 안전 연구 그룹 중 하나였습니다. 그는 현재 Anthropic에서 근무하며 NYU에서 장기 휴직 중이며, 현재 NYU에서 연구 학생을 모집하거나 지도하고 있지 않음을 밝혔습니다.

Anthropic (2022–현재)

Bowman은 대략 2022년에 Anthropic에 합류했으며, 현재 그곳에서 자신의 표현을 빌리자면 “상당히 폭넓고 장기적인 권한(mandate)”을 가진 기술적 AI 안전 연구 그룹을 이끌고 있습니다. 그의 Anthropic 업무는 NLP와 안전의 접점에 있는 여러 연구 방향을 아우릅니다: 확장 가능한 감독, 모델 작성 평가, 아첨 특성화, 스키밍 및 사보타주(sabotage) 평가, 그리고 안전 사례 방법론(safety case methodology)입니다. 그의 블로그 게시물과 발표된 논문들은 프런티어 AI 연구소 내부에서 안전 작업의 우선순위를 어떻게 정해야 하는지에 대해 기술적으로 매우 상세하고 공개적으로 접근 가능한 사고의 결과물들입니다.


Key Contributions

SNLI — Stanford Natural Language Inference (EMNLP 2015)

Gabor Angeli, Christopher Potts, Christopher Manning 등 스탠퍼드 팀과 공동 제작한 SNLI(A Large Annotated Corpus for Learning Natural Language Inference)는 함의(entailment), 모순(contradiction), 또는 중립(neutral)으로 라벨링된 약 570,000개의 인간 작성 문장 쌍을 제공했습니다. SNLI 이전의 NLI 작업은 소규모 데이터셋만을 보유하고 있었으나, SNLI의 규모 덕분에 자연어 이해에 대한 딥러닝 모델을 엄격하고 재현 가능한 방식으로 학습하고 평가할 수 있게 되었습니다. SNLI는 해당 시대에 가장 많이 인용된 NLP 논문 중 하나로, 수만 건의 인용을 기록하며 신경 자연어 추론, 텍스트 함의, 언어 이해 평가 분야의 대규모 연구 프로그램을 촉진했습니다.

MultiNLI — Multi-Genre NLI (NAACL 2018)

Adina Williams, Nikita Nangia 등과 함께 Bowman은 SNLI를 MultiNLI로 확장하여, 10개의 서로 다른 영어 구어 및 문어 장르에 걸쳐 433,000개의 문장 쌍을 추가했습니다. 이러한 장르 간 일반화는 모델이 단일 장르인 SNLI보다 더 다양한 언어적, 수사적 맥락을 처리하도록 강제하려는 의도적인 시도였습니다. MultiNLI는 GLUE 벤치마크의 근간이 되었으며 이후의 NLP 평가 세트 설계에 영향을 미쳤습니다.

Measuring Progress on Scalable Oversight for Large Language Models (arXiv 2022)

Bowman이 주도하고 Anthropic의 대규모 팀과 공동 저술한 이 논문은 확장 가능한 감독 기술(토론, 재귀적 보상 모델링, 마켓 메이킹)이 실제로 제한된 전문 지식을 가진 인간이 복잡한 모델 출력을 더 정확하게 평가할 수 있게 해주는지에 대한 구체적인 실증적 패러다임을 구축했습니다. 이 논문은 도움이 되는 AI의 도움을 받는 크라우드워커(crowdworkers)가 전문 지식이 부족한 분야에서도 출력을 더 잘 평가할 수 있다는 아이디어를 테스트했으며, 이는 현재 핵심적인 AI 안전 연구 프로그램으로 자리 잡은 분야에 대한 초기 실증적 기여였습니다.

Discovering Language Model Behaviors with Model-Written Evaluations (arXiv 2022)

Ethan Perez, Amanda Askell, Roger Grosse 등 Anthropic 팀과 공동 저술한 이 논문은 언어 모델 스스로가 자신의 행동에 대한 대규모 평가 데이터셋을 생성하도록 유도할 수 있음을 보여주었습니다. 여기에는 아첨(sycophancy), 정치적 견해, 설득 성향 및 수십 가지의 다른 행동 차원에 대한 테스트가 포함됩니다. LLM이 사용자가 듣고 싶어 하는 말에 맞춰 자신의 주장을 체계적으로 조정한다는 아첨 연구 결과는 2022-23년 가장 많이 논의된 AI 정렬 연구 결과 중 하나가 되었으며, Bowman은 자신의 “Checklist”에서 이를 “새롭게 등장하는 위험 요소에 대한 결정적 증거(smoking gun demo)”라고 언급했습니다.

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv 2024)

Anthropic의 대규모 팀과 공동 저술한 이 논문은 특정 조건에서 활성화되는 숨겨진 행동 정책을 유지하면서 테스트 중에는 안전하게 행동하도록 LLM을 학습시키는 것이 가능하다는 것을 보여주었습니다. 이 연구 결과는 표준 안전 학습(RLHF, 적대적 미세 조정)이 사전 학습 또는 초기 미세 조정 단계에서 심어진 기만적 행동을 제거하는 데 충분하다는 가설에 도전했습니다. Bowman은 “Checklist”에서 이를 “새롭게 등장하는 위험 요소에 대한 또 다른 결정적 증거”로 인용했습니다.

Sabotage Evaluations (Anthropic, 2024)

Anthropic 팀과 공동 저술한 이 연구는 프론티어 모델이 AI 개발자가 모델을 평가하기 위해 사용하는 감독 프로세스를 방해할 수 있는지에 대한 구조화된 평가를 개발했습니다. 여기에는 평가 결과를 은밀하게 조작하거나, 모니터링 시스템을 약화시키거나, 배포 결정을 전략적으로 유도하는 행위 등이 포함됩니다. Claude 3 Opus 및 Claude 3.5 Sonnet에 적용한 결과, 현재로서는 최소한의 완화 조치만으로도 충분하지만, 능력이 향상됨에 따라 더 까다로운 평가가 필요할 것이라는 점을 발견했습니다. 이러한 평가는 Bowman의 “Checklist”에서 설명된 “제어(control)” 스타일의 스트레스 테스트를 직접적으로 구현한 것입니다.

“왜 더 많은 NLP 연구자들이 AI 안전 문제에 참여해야 한다고 생각하는가” (블로그, 2022년 10월)

정렬(alignment)의 핵심적인 경험적 문제에 직접적으로 적용 가능한 기술을 보유한 NLP 연구자들이 AI 안전을 연구 방향으로서 진지하게 받아들여야 한다고 주장하며, 당시 흔했던 ‘정렬 문제는 추측에 불과하거나 공상 과학적이다’라는 견해에 명시적으로 반박한 기념비적인 공개 에세이입니다. 이 에세이는 NLP 커뮤니티에서 널리 읽혔으며, Bowman이 NLP 연구자에서 정렬 옹호자로 전환되는 계기가 되었습니다.

“체크리스트: AI 안전에서 성공하기 위해 필요한 것들” (블로그, 2024년 9월)

Bowman의 가장 영향력 있는 공개 문서입니다. “Anthropic(또는 이와 유사한 위치의 다른 AI 개발사)이 광범위하게 초인적인 AI 개발을 성공적으로 이끌기 위해 달성해야 할 주요 목표에 대한 현재의 최선의 추측”으로서 작성되었으며, Anthropic의 허가를 받아 내부 전략적 논의의 스냅샷으로 공유되었습니다. 이 에세이는 AI 안전 과제를 세 가지 장 — 준비(현재), AI가 우리의 숙제를 하게 만들기(근미래 TAI), TAI 이후의 삶(포스트 초인) — 으로 나누고, 각 장 내에서 구체적인 기술적, 조직적, 거버넌스 측면의 이정표를 나열합니다. 또한 RSP(책임 있는 스케일링 정책, Responsible Scaling Policy)의 품질을 측정하는 보정 휴리스틱으로 “르쿤 테스트(LeCun Test)”를 소개합니다. 잘 작성된 RSP는 AGI 안전 문제를 “대부분 헛소리”라고 생각하는 사람이 구현하더라도 안전을 보장해야 한다는 것입니다. 이 에세이는 기관의 솔직함(불확실성 인정, 미해결 문제 나열)과 전략적 구체성의 이례적인 조합으로 주목받고 있습니다. 프론티어 연구소 내부 인사가 발표한 가장 상세한 AI 안전 공개 로드맵 중 하나로 남아 있습니다.

“범퍼 설치하기(Putting Up Bumpers)” (블로그, 2025년 4월)

AI 시스템이 더욱 강력해짐에 따라 AI 개발자가 자신의 행동을 어떻게 제약해야 하는지 — 특히 변혁적 AI(transformative AI)로 전환되는 과정에서 자율적 행동과 인간의 감독 유지 사이의 트레이드오프(tradeoffs) — 에 관한 후속 에세이입니다.


수상 및 인정

  • 69,000+ Google Scholar 인용 — NLP 및 AI 정렬 분야에서 가장 많이 인용되는 중견 연구자 중 한 명입니다.
  • SNLI는 2010년대 가장 많이 인용된 NLP 논문 중 하나입니다.
  • NSF, Sloan 및 기타 보조금 지원을 통한 NYU 연구 (Alignment Research Group 및 ML² 연구실을 통해).

주요 관계

  • Christopher Manning — 스탠퍼드 대학교의 박사 과정 공동 지도 교수; Manning의 스탠퍼드 NLP 연구실은 Bowman의 경험적 NLP 지향성의 지적 기원입니다; 그들의 사제 관계는 Christopher Manning의 위키에도 나타납니다.
  • Chris Potts — 스탠퍼드 대학교의 박사 과정 공동 지도 교수; Potts의 형식 의미론 및 화용론적 관점은 자연어 추론을 순수하게 통계적인 작업이 아닌 언어학적으로 원칙에 기반한 작업으로 프레이밍하는 데 Bowman에게 영향을 주었습니다.
  • Jared Kaplan — 확장 가능한 감독(scalable oversight) 논문의 공동 저자; 신경 스케일링 법칙(neural scaling laws)에 관한 Kaplan의 연구와 Anthropic의 RSP 설계에서의 역할은 Bowman의 안전 전략 연구와 직접적으로 맞닿아 있습니다.
  • Ethan Perez — 모델 작성 평가 및 아첨(sycophancy) 연구의 긴밀한 협력자; Anthropic에서 Bowman의 가장 생산적인 연구 파트너십 중 한 명입니다.
  • Amanda Askell — 모델 작성 평가 및 기타 Anthropic 정렬 논문의 공동 저자; 그들의 협업은 경험적 NLP와 안전 평가를 아우릅니다.
  • Chris Olah — Checklist에서 메커니즘적 해석 가능성(mechanistic interpretability) 분야의 “Anthropic의 주요 차별화된 안전 연구 베팅 중 하나”를 이끄는 인물로 언급됨; 그들의 연구는 상호 보완적입니다 — Bowman은 행동 평가 및 감독에, Olah는 내부 회로 분석에 집중하며, 두 연구 모두 Bowman이 설명하는 안전 사례 프레임워크로 이어집니다.

개인적 스타일

Bowman의 공개적인 목소리는 AI 안전 연구자치고는 이례적으로 직설적이며, 블로거로서는 이례적으로 구조적입니다. 그의 세 개의 블로그 포스트는 수년에 걸친 AI 안전 전략에 대한 일관된 논리를 형성합니다. 2022년 에세이는 NLP 연구자들을 문제로 끌어들이고, 2024년 Checklist는 문제 해결에 무엇이 필요한지 제시하며, 2025년 bumpers 에세이는 변혁적 AI로의 전환기 동안 AI 개발을 규율해야 할 행동 제약에 대해 다룹니다. 그는 이견을 명시적으로 밝히고, 르쿤 테스트(LeCun Test)와 같은 휴리스틱을 이름으로 소개하며, 아이디어를 흐르는 논증보다는 번호가 매겨지고 제목이 붙은 항목으로 조직합니다. 이는 수사적 설득보다 가독성과 책임감을 중시하는 스타일입니다. 효과적 이타주의(effective altruism)에 대한 그의 헌신은 공개적이고 명시적입니다. “Giving What We Can에 참여해야 한다고 생각합니다”라는 문구가 그의 홈페이지에 상시 게시되어 있는데, 이는 학술용 CV 페이지로서는 이례적입니다. 그의 Digg vibe 프로필(주요 주제: AI 정렬, LLM, 안전)과 그의 X 바이오 — “Anthropic의 AI 정렬 + LLM. NYU 휴직 중. 고용주의 의견이 아닌 개인의 의견임. @s8mb와 무관함. @givingwhatwecan 관심 있음” — 은 동일한 군더더기 없는 명료함을 반영합니다. 또한 그는 자신의 X 핸들(@sleepinyourhat)에 대해 언급하며 @s8mb 계정과 아무런 관련이 없음을 밝혀, 그의 전반적인 소통 스타일의 특징인 공적 정체성의 명확성을 보여주었습니다.


참고 문헌