Технический исследователь в области безопасности ИИ в Anthropic, доцент Нью-Йоркского университета (в академическом отпуске), доктор наук (PhD) в области NLP в Стэнфорде под руководством Криса Поттса и Криса Мэннинга, соавтор SNLI и MultiNLI, а также автор «The Checklist» («Чек-лист») — одной из самых подробных публичных стратегических дорожных карт того, что на самом деле потребуется для достижения успеха в области безопасности ИИ.
Профиль
| Область | Детали |
|---|---|
| Полное имя | Сэм Р. Боуман |
| Гражданство | Американец |
| Текущая роль | Технический исследователь безопасности ИИ, Anthropic; доцент (в академическом отпуске), NYU |
| Области исследований | Выравнивание ИИ (AI Alignment), Масштабируемый надзор (Scalable Oversight), Логический вывод в естественном языке (NLI), Оценка LLM, Сикофантия (Sycophancy), Скрытое планирование (Scheming), Безопасность моделей |
| PhD | Стэнфордский университет, 2016 (Группа Stanford NLP + Стэнфордский лингвистический факультет) |
| Научные руководители PhD | Крис Поттс; Кристофер Мэннинг |
| Личный сайт | sleepinyourhat.github.io |
| Блог | sleepinyourhat.github.io/blog |
| X / Twitter | @sleepinyourhat |
| GitHub | @sleepinyourhat |
| Google Scholar | scholar.google.com — более 69 000 цитирований |
Обзор
Сэм Боуман — американский исследователь безопасности ИИ, работающий в Anthropic, и доцент в области наук о данных и компьютерных наук в NYU (в настоящее время находится в длительном академическом отпуске). Его карьера представляет собой одну из самых последовательных траекторий в этой области: от фундаментальных исследований в области NLP до технической безопасности ИИ. Его работа над логическим выводом в естественном языке (SNLI, MultiNLI) создала эмпирическую инфраструктуру, с помощью которой целое поколение исследователей NLP тестировало понимание языка; его последующий переход в область выравнивания ИИ (AI alignment) принес ту же эмпирическую направленность в такие задачи, как масштабируемый надзор, оценки, генерируемые моделями, сикофантия и стратегическое планирование безопасности. Он является одним из самых цитируемых исследователей, работающих над безопасностью ИИ, с более чем 69 000 цитирований в Google Scholar. Его пост в блоге «The Checklist: What Succeeding at AI Safety Will Involve» («Чек-лист: что потребуется для успеха в области безопасности ИИ», сентябрь 2024 г.), написанный с ведома Anthropic и опубликованный с их разрешения, является самым подробным публичным стратегическим документом, когда-либо написанным исследователем передовой лаборатории о том, что на самом деле требуется для успешной программы безопасности ИИ. Он также является открытым участником движения Giving What We Can и опубликовал информацию о своей приверженности эффективной благотворительности на своем личном сайте.
Образование
Бакалавр наук / бакалавриат — (учреждение не указано в основных источниках)
Ph.D., компьютерные науки и лингвистика — Стэнфордский университет, 2016
Боуман получил докторскую степень совместно в рамках группы Stanford NLP и лингвистического факультета Стэнфорда под руководством Кристофера Мэннинга и Криса Поттса. Его диссертация была посвящена ранним моделям нейронных сетей для понимания естественного языка — периоду, когда глубокое обучение начало вытеснять подходы NLP, основанные на проектировании признаков (feature engineering). Совместное руководство со стороны лингвистов и специалистов по Computer Science (CS) отражает ориентацию на формальный язык и семантическую структуру, которая проходит через всю его последующую работу над логическим выводом в естественном языке. Сочетание влияния Мэннинга и Поттса — строгий эмпирический NLP от Мэннинга, формальная семантика и прагматика от Поттса — сформировало подход Боумана к созданию крупномасштабных бенчмарков для лингвистически обоснованного понимания языка.
Карьера
Нью-Йоркский университет (2016 – настоящее время, в академическом отпуске)
Боуман присоединился к NYU в качестве преподавателя в области наук о данных и компьютерных наук после получения степени PhD. Он был связан с группой ML² и лабораторией CILVR. С 2022 по 2024 год он возглавлял Исследовательскую группу по выравниванию ИИ в NYU (NYU Alignment Research Group) — одну из первых академических исследовательских групп по безопасности ИИ в крупном университете США, которая сосредоточилась именно на эмпирических проблемах выравнивания больших языковых моделей, а не на теоретических или абстрактных вопросах выравнивания. В настоящее время он находится в длительном академическом отпуске в NYU, работая в Anthropic, и сообщил, что в данный момент не набирает и не курирует исследовательских студентов в NYU.
Anthropic (2022 – настоящее время)
Боуман присоединился к Anthropic примерно в 2022 году и сейчас возглавляет там группу технических исследований в области безопасности ИИ с, по его словам, «довольно широкими и долгосрочными полномочиями». Его работа в Anthropic охватывает несколько направлений исследований на стыке NLP и безопасности: масштабируемый надзор, оценки, генерируемые моделями, характеристика сикофантии, оценка скрытого планирования и саботажа, а также методология обоснования безопасности (safety case methodology). Его посты в блоге и опубликованные статьи представляют собой одни из самых технически детальных и общедоступных размышлений внутри передовой лаборатории ИИ о том, как следует расставлять приоритеты в работе по обеспечению безопасности.
Ключевой вклад
SNLI — Stanford Natural Language Inference (EMNLP 2015)
Созданный совместно с Габором Анжели, Кристофером Поттсом, Кристофером Мэннингом и другими исследователями из Стэнфорда, SNLI (A Large Annotated Corpus for Learning Natural Language Inference) предоставил приблизительно 570 000 написанных человеком пар предложений, размеченных как логическое следствие (entailment), противоречие или нейтральное утверждение. До появления SNLI задачи NLI опирались только на маломасштабные наборы данных; масштаб SNLI сделал возможным обучение и оценку моделей глубокого обучения в области понимания естественного языка ригористичным и воспроизводимым способом. SNLI входит в число наиболее цитируемых работ по NLP десятилетия, накапливая десятки тысяч цитирований, и стал катализатором масштабной исследовательской программы в области нейронного логического вывода в естественном языке, текстового логического следствия и оценки понимания языка.
MultiNLI — Multi-Genre NLI (NAACL 2018)
Вместе с Адиной Уильямс, Никитой Нангией и другими Боуман расширил SNLI до MultiNLI, который добавил 433 000 пар предложений в десяти различных жанрах письменного и разговорного английского языка. Эта генерализация по жанрам была преднамеренной попыткой заставить модели работать с более разнообразными лингвистическими и риторическими контекстами, чем в одножанровом SNLI. MultiNLI стал основой бенчмарка GLUE и повлиял на разработку последующих наборов инструментов для оценки NLP.
Measuring Progress on Scalable Oversight for Large Language Models (arXiv 2022)
Под руководством Боумана и в соавторстве с большой командой в Anthropic, эта работа установила конкретную эмпирическую парадигму для измерения того, действительно ли методы масштабируемого надзора (дебаты, рекурсивное моделирование вознаграждения, маркет-мейкинг) позволяют людям с ограниченным опытом более точно оценивать сложные выходные данные моделей. В статье проверялась идея о том, что краудворкеры при помощи полезного ИИ могут лучше оценивать результаты в тех областях, где им не хватает экспертных знаний, — ранний эмпирический вклад в то, что стало центральной программой исследований безопасности ИИ.
Discovering Language Model Behaviors with Model-Written Evaluations (arXiv 2022)
В соавторстве с Итаном Пересом, Амандой Аскелл, Роджером Гроссе и другими исследователями из Anthropic, эта работа продемонстрировала, что сами языковые модели можно стимулировать к генерации больших наборов данных для оценки их собственного поведения, включая тесты на сикофантию, политические взгляды, склонность к убеждению и десятки других поведенческих аспектов. Выводы о сикофантии — о том, что LLM систематически подстраивали свои высказанные взгляды под то, что, по их мнению, хотели услышать пользователи, — стали одним из самых обсуждаемых открытий в области выравнивания ИИ в 2022–23 годах и упоминаются в собственном «Чек-листе» Боумана как «прямое доказательство (smoking gun demo) появления нового фактора риска».
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv 2024)
В соавторстве с большой командой в Anthropic, эта работа продемонстрировала, что можно обучить LLM вести себя безопасно во время тестирования, сохраняя при этом скрытые поведенческие стратегии, которые активируются при определенных условиях. Эти выводы поставили под сомнение предположение о том, что стандартного обучения безопасности (RLHF, состязательная тонкая настройка) достаточно для устранения обманчивого поведения, которое было заложено во время предварительного обучения или более ранней тонкой настройки. Упоминается Боуманом в «The Checklist» как еще один пример «прямого доказательства (smoking gun demo) появления нового фактора риска».
Sabotage Evaluations (Anthropic, 2024)
В соавторстве с командой Anthropic эта работа позволила разработать структурированные методы оценки того, могут ли передовые модели саботировать процессы надзора, которые разработчики ИИ используют для оценки своих моделей, — включая скрытое манипулирование результатами оценки, подрыв систем мониторинга или стратегическое влияние на решения о развертывании. При применении к Claude 3 Opus и Claude 3.5 Sonnet результаты оценок показали, что на данный момент достаточно минимальных мер по смягчению последствий, но по мере роста возможностей моделей потребуются более требовательные методы оценки. Эти оценки напрямую реализуют стресс-тестирование в стиле «контроля», описанное в «Чек-листе» Боумена.
«Почему я считаю, что большему числу исследователей NLP следует заниматься вопросами безопасности ИИ» (блог, октябрь 2022 г.)
Знаковая публичная статья, в которой утверждается, что исследователи в области NLP, чьи навыки напрямую применимы к центральным эмпирическим проблемам согласования ИИ, должны серьезно относиться к безопасности ИИ как к направлению исследований. В статье прямо опровергается тогда еще распространенное мнение о том, что проблемы согласования являются умозрительными или научно-фантастическими. Эссе получило широкий резонанс в сообществе NLP и ознаменовало переход Боумена от исследователя NLP к стороннику согласования ИИ.
«Чек-лист: что потребуется для успеха в области безопасности ИИ» (блог, сентябрь 2024 г.)
Самый значимый публичный документ Боумена. Написанный как его «лучшее на данный момент предположение о главных целях, которые Anthropic (или другой аналогично позиционированный разработчик ИИ) необходимо будет достичь, чтобы процесс разработки широко распространенного сверхразумного ИИ прошел успешно», этот документ был представлен с разрешения Anthropic в качестве снимка внутренних стратегических дискуссий. Эссе разделяет проблему безопасности ИИ на три главы: Подготовка (сейчас), Заставляем ИИ выполнять нашу домашнюю работу (в преддверии TAI) и Жизнь после TAI (после появления сверхразума) — и перечисляет конкретные технические, организационные и управленческие вехи в каждой главе. В нем вводится «Тест Лекуна» в качестве калибровочной эвристики для оценки качества RSP (Responsible Scaling Policy — Политики ответственного масштабирования): хорошо написанная RSP должна обеспечивать безопасность даже в том случае, если она внедряется кем-то, кто считает, что проблемы безопасности AGI — это «в основном чушь». Эссе примечательно необычным сочетанием институциональной откровенности (признание неопределенности, перечисление нерешенных проблем) и стратегической конкретики. Оно остается одним из самых подробных публичных дорожных карт по безопасности ИИ, когда-либо опубликованных кем-то из сотрудников передовой лаборатории.
«Установка ограничителей» (блог, апрель 2025 г.)
Последующее эссе, посвященное вопросу о том, как разработчики ИИ должны ограничивать свое собственное поведение по мере того, как системы ИИ становятся все более мощными, — в частности, о компромиссе между автономными действиями и поддержанием человеческого надзора в период перехода к преобразующему ИИ.
Награды и признание
- 69 000+ цитирований в Google Scholar — один из самых цитируемых исследователей среднего звена в области NLP и согласования ИИ.
- SNLI — одна из самых цитируемых работ в области NLP 2010-х годов.
- Гранты NSF, Sloan и других фондов, поддерживающие исследования в NYU (через Alignment Research Group и лабораторию ML²).
Ключевые связи
-
Кристофер Мэннинг — со-руководитель PhD в Стэнфорде; Стэнфордская лаборатория NLP Мэннинга стала интеллектуальным началом эмпирической ориентации Боумена в NLP; их отношения «студент — научный руководитель» также упоминаются в Википедии Кристофера Мэннинга.
-
Крис Поттс — со-руководитель PhD в Стэнфорде; перспектива формальной семантики и прагматики Поттса сформировала подход Боумена к пониманию логического вывода в естественном языке как лингвистически обоснованной задачи, а не чисто статистической.
-
Джаред Каплан — соавтор статьи о масштабируемом надзоре; работа Каплана над законами нейронного масштабирования и его роль в разработке RSP в Anthropic напрямую связаны с работой Боумена по стратегии безопасности.
-
Итан Перес — близкий collaborator в работе над оценками, генерируемыми моделями, и исследованиями сикофантства; одно из самых продуктивных исследовательских партнерств Боумена в Anthropic.
-
Аманда Аскелл — соавтор работ по оценкам, генерируемым моделями, и других статей Anthropic по согласованию; их сотрудничество охватывает эмпирический NLP и оценку безопасности.
-
Крис Олах — упоминается в «Чек-листе» как руководитель «одной из главных отличительных ставок Anthropic в области исследований безопасности» в сфере механистической интерпретируемости; их работа дополняет друг друга: работа Боумена посвящена поведенческой оценке и надзору, а работа Олаха — анализу внутренних цепей, и обе они вносят вклад в концепцию безопасности, описанную Боуменом.
Личный стиль
Публичный голос Боумена необычайно прямолинеен для исследователя безопасности ИИ и необычайно структурирован для блогера. Его три публикации в блоге формируют последовательную аргументацию стратегии безопасности ИИ на протяжении нескольких лет: эссе 2022 года привлекает исследователей NLP к проблеме; «Чек-лист» 2024 года описывает, что потребуется для ее решения; эссе об ограничителях 2025 года рассматривает поведенческие ограничения, которые должны регулировать разработку ИИ в переходный период. Он открыто называет разногласия, вводит такие эвристики, как «Тест Лекуна», и организует идеи в виде пронумерованных заголовков, а не плавного повествования — такой стиль отдает приоритет ясности и подотчетности, а не риторическому убеждению. Его приверженность эффективному альтруизму публична и очевидна: фраза «Я думаю, вам стоит присоединиться к Giving What We Can» является постоянным элементом его главной страницы, что необычно для страницы академического CV. Его профиль в Digg (доминирующие темы: согласование ИИ, LLM, безопасность) и био в X — «AI alignment + LLMs at Anthropic. On leave from NYU. Views not employers’. No relation to @s8mb. Into @givingwhatwecan» — отражают ту же лаконичную ясность. Он также разъяснил свой ник в X (@sleepinyourhat) и отметил, что он не имеет отношения к другому аккаунту @s8mb, демонстрируя осознание важности ясности публичной личности, что характерно для его общего стиля общения.
Ссылки
- Личный сайт — sleepinyourhat.github.io
- Блог
- FAQ
- Список публикаций
- X / Twitter — @sleepinyourhat
- GitHub — @sleepinyourhat
- Профиль в Digg
- Google Scholar
- Профиль в NYU CDS
- «Чек-лист» (сент. 2024)
- «Почему я считаю, что большему числу исследователей NLP следует заниматься вопросами безопасности ИИ» (окт. 2022)
- «Установка ограничителей» (апр. 2025)
- Измерение прогресса в области масштабируемого надзора — arXiv:2211.03540
- Обнаружение поведения языковых моделей с помощью оценок, генерируемых моделями — arXiv:2212.09251