Саша Раш

ref · 25.Май.2026 07:33:27

ML-исследователь, бывший адъюнкт-профессор Cornell Tech (2016–2026), сооснователь COLM и автор Annotated Transformer, GPU-Puzzles и OpenNMT — один из самых плодовитых создателей открытых инструментов NLP и учебного кода в этой области, сейчас работает над пост-тренировкой AI для написания кода в Cursor.

Профиль

Поле	Детали
Полное имя	Александр «Саша» Раш
Гражданство	Американец
Текущая роль	ML-исследователь, Cursor
Прошлые роли	Адъюнкт-профессор, Cornell Tech (2021–2026); доцент, Harvard SEAS (2016–2021); исследователь, Hugging Face (2019–2024)
Области исследований	Пост-тренировка, языковые модели, генерация текста, эффективный вывод, управляемая генерация, структурированное прогнозирование, образовательные ML-инструменты
Научный руководитель PhD	Майкл Коллинз (MIT)
Личный сайт	rush-nlp.com
YouTube	@srush_nlp
X / Twitter	@srush_nlp
GitHub	@srush
Google Scholar	scholar.google.com

Обзор

Саша Раш (Александр М. Раш) — американский ML-исследователь, известный как техническими научными достижениями, так и созданием образовательной и открытой инфраструктуры, через которую целое поколение практиков научилось работать с трансформерами и языковыми моделями. С 2016 по 2026 год он был профессором в Гарварде и Cornell Tech; за это десятилетие он стал соавтором Annotated Transformer — вероятно, самой читаемой реализации Transformer на PyTorch — создал GPU-Puzzles и Tensor-Puzzles как интерактивные учебные программы по GPU-программированию, руководил OpenNMT — одной из первых производственных открытых систем нейронного машинного перевода, а также был исследователем по совместительству в Hugging Face, где внес вклад в ранние работы над открытыми LLM. В 2024 году он стал сооснователем COLM (Conference on Language Modeling) и является его президентом. Он покинул академию в 2026 году, чтобы присоединиться к Cursor в качестве исследователя, сосредоточившись на пост-тренировке AI-систем для программирования. Его научная карьера включает PhD в MIT под руководством Майкла Коллинза и постдокторантуру в Facebook AI Research под руководством Янна Лекуна.

Образование

Ph.D., информатика — MIT, 2014
Раш получил докторскую степень в MIT под руководством Майкла Коллинза, одного из ведущих исследователей в области статистического NLP и структурированного прогнозирования. Его диссертационная работа была посвящена вероятностным моделям и структурированному прогнозированию для задач NLP, включая синтаксический анализ и машинный перевод. Его исследования в MIT получили награду NAACL 2012 Best Paper (совместно с Славом Петровым, за работу по обрезке дерева разбора для эффективного зависимостного синтаксического анализа) и несколько почетных упоминаний на крупных конференциях по NLP.

Постдокторант — Facebook AI Research (FAIR), Нью-Йорк, 2014–2016
Раш присоединился к Facebook AI Research под руководством Янна Лекуна в качестве постдокторанта. Этот период совпал с ранней волной применения глубокого обучения к NLP и принес некоторые из его наиболее цитируемых ранних работ, включая статью 2015 года о нейронном внимании в реферативном суммаризации, которая помогла утвердить обучение от последовательности к последовательности как инструмент для генерации текста за пределами перевода.

Карьера

Гарвардская школа инженерии и прикладных наук (2016–2021)

Раш присоединился к Harvard SEAS в качестве доцента в 2016 году, основав группу HarvardNLP (harvardnlp.github.io). Его исследования в Гарварде охватывали нейронную генерацию текста, структурированное внимание, визуализацию нейронных сетей и эпоху ранних трансформеров. Ключевыми результатами этого периода стали инструментарий с открытым исходным кодом OpenNMT (2017), образовательный ресурс Annotated Transformer (2018) и LSTMVis (2017) — инструмент визуализации для анализа скрытых состояний в рекуррентных сетях, получивший награду Best Paper на конференции IEEE InfoVis.

В годы работы в Гарварде Раш разработал особый подход к коммуникации в науке: создание хорошо прокомментированных, исполнимых реализаций наряду с техническими статьями — что стало отличительной чертой его публичной деятельности.

Cornell Tech (2021–2026)

Раш перешел в Cornell Tech в Нью-Йорке в качестве адъюнкт-профессора, где был связан с Cornell Ann S. Bowers College of Computing and Information Science и группой Cornell NLP. Он получил награду Cornell Tech Student Choice Award за выдающееся преподавание. Фокус его исследований все больше смещался в сторону эффективного и генеративного моделирования языка, включая работы по предобучению без внимания (BiGS, EMNLP 2023), диффузионным языковым моделям (NeurIPS 2024) и контекстуальным эмбеддингам документов (ICLR 2025). Он продолжил публиковать образовательные инструменты, ориентированные на GPU, включая GPU-Puzzles и Tensor-Puzzles.

Hugging Face — Исследователь (2019–2024)

Наряду с профессорской ролью, Раш работал исследователем по совместительству в Hugging Face примерно с 2019 по 2024 год. Он внес вклад в несколько ранних проектов Hugging Face: был соавтором оригинальной системной статьи Transformers (Wolf et al., EMNLP Demos 2020), участвовал в проекте BigScience и модели T0 с мультизадачной промпт-тренировкой (ICLR 2022) через PromptSource, а также стал соавтором Zephyr (COLM 2024) — легкой обученной инструкциям модели, полученной путем прямой дистилляции выравнивания LM, которая широко использовалась как открытая эталонная модель. Это двойное назначение сделало его одним из самых эффективных мостов между академическими исследованиями NLP и экосистемой открытого кода Hugging Face.

COLM — Сооснователь и Президент (2024–настоящее время)

В 2024 году Раш стал сооснователем и запустил Конференцию по моделированию языка (COLM), площадку, посвященную исключительно исследованиям языковых моделей — первую крупную конференцию, сосредоточенную исключительно на этой области, которая стала доминировать в NLP. Он является президентом конференции. COLM заполнил пробел в конференционном ландшафте, где работы, специфичные для LM, были распределены по площадкам с более широким охватом (NeurIPS, ICML, ICLR, ACL) и не имели постоянного дома. Инаугурационный выпуск COLM опубликовал Zephyr в качестве одной из первых статей.

Раш также занимал должности Секретаря и Генерального председателя ICLR в период своей академической карьеры, разрабатывая программную инфраструктуру для проведения виртуальных конференций во время пандемии COVID-19 (2020–2021).

Cursor — Исследователь (2026–настоящее время)

В 2026 году Раш покинул академию и присоединился к Cursor — AI-нативному редактору кода и инструменту разработки. Его личный сайт описывает его текущую цель как «пост-тренировку AI-систем для программирования и связанных задач» и улучшение рассуждений моделей для долгосрочных задач программирования. Он стал соавтором «Composer 2» (arXiv 2026) вместе с командой Cursor — статьи о генерации кода с большим контекстом. Он отметил на своем сайте: «С 2016 по 2026 год я был профессором в Гарварде, а затем в Cornell Tech».

Ключевые вклады

Annotated Transformer (ACL NLP-OSS workshop, 2018) — хорошо прокомментированная, исполнимая реализация «Attention Is All You Need» на PyTorch, которая пошагово разбирает каждый компонент архитектуры Transformer с встроенным кодом и визуализациями. Вероятно, самая читаемая реализация и учебник по Transformer из когда-либо написанных, а также точка входа, через которую значительная часть ML-сообщества впервые поняла архитектуру в коде. Обновляется и поддерживается на GitHub.
GPU-Puzzles (GitHub, 2021) — коллекция из 14 интерактивных головоломок CUDA, реализованных с помощью Numba, предназначенных для обучения GPU-программированию с нуля. Один из самых популярных образовательных ML-репозиториев на GitHub; используется в курсах по всему миру для обучения параллельному программированию для глубокого обучения. Дополнение к Tensor-Puzzles, который делает то же самое для тензорных операций на Python.
OpenNMT (ACL Demo, 2017) — совместно разработан с Гийомом Кляйном, Юном Кимом и Жаном Сенелларом; одна из первых производственных систем нейронного машинного перевода с открытым исходным кодом, выпущенная на PyTorch и используемая как в исследованиях, так и в развертывании. Стала эталонной реализацией для моделей seq2seq и повлияла на дизайн последующих NLP-фреймворков.
A Neural Attention Model for Abstractive Sentence Summarization (EMNLP 2015) — с Сумитом Чопрой и Джейсоном Уэстоном; одна из первых работ, применивших нейронное внимание к реферативному суммаризации, продемонстрировавшая, что механизм внимания кодировщика-декодировщика может генерировать новый текст суммаризации, а не просто извлекать фрагменты. Помогла утвердить нейронную реферативную суммаризацию как направление исследований.
Sequence-Level Knowledge Distillation (EMNLP 2016) — с Юном Кимом; представила идею дистилляции модели-учителя «последовательность-к-последовательности» в меньшую модель-ученика на уровне последовательности, а не на уровне токенов — техника, которая стала широко использоваться для сжатия моделей в NLP.
Zephyr: Direct Distillation of LM Alignment (COLM 2024) — соавтор с исследовательской группой Hugging Face; показал, что дистилляция обратной связи от более сильной модели может выровнять легкую открытую модель (7B параметров) для выполнения инструкций на уровне, конкурентоспособном с гораздо более крупными моделями, используя более простой тренировочный конвейер, чем полный RLHF. Стала широко используемой открытой эталонной моделью для исследований по следованию инструкциям.
T0 / PromptSource — Multitask Prompted Training (ICLR 2022) — соавтор с Виктором Саном и другими из BigScience; показал, что предобучение на разнообразной коллекции созданных людьми промптов обеспечивает нулевую обобщаемость на невиданные задачи без контекстных примеров.
LSTMVis (IEEE InfoVis 2017) — с Хендриком Стробелом, Себастьяном Геманом и Ханспетером Пфистером; инструмент визуализации для анализа динамики скрытых состояний в рекуррентных сетях, награжден Best Paper на InfoVis.
Annotated S4 — интерактивная, исполнимая реализация модели Structured State Space Sequence (S4) от Раша, продолжающая его традицию создания хорошо прокомментированных реализаций ключевых архитектурных статей, служащих образовательными ресурсами сообщества.
YouTube-канал (@srush_nlp) — серия технических лекций и курсов, охватывающих внутреннее устройство языковых моделей, GPU-программирование и системы глубокого обучения; один из самых просматриваемых практических технических видеоресурсов в ML-сообществе.
NAACL 2012 Best Paper — «Vine Pruning for Efficient Multi-Pass Dependency Parsing» (с Славом Петровым); одна из первых наград за лучшую статью на NLP-конференциях.

Награды и признание

Стипендия Слоуна (ок. 2018)
NSF CAREER Award
Президентская премия для молодых учёных и инженеров (PECASE)
Cornell Tech Student Choice Award за выдающееся преподавание
Награды за лучшую статью на NAACL (2012), InfoVis (2017) и аппаратно-ориентированных площадках
Секретарь и Генеральный председатель ICLR — Институциональное руководство одной из флагманских конференций в этой области; разработал инфраструктуру виртуальных конференций.
Сооснователь и Президент COLM (2024–настоящее время)

Ключевые связи

Майкл Коллинз — научный руководитель PhD в MIT; один из самых влиятельных исследователей NLP 2000-х–2010-х годов в области структурированного прогнозирования и синтаксического анализа; работа Раша по оптимальному декодированию и эффективному парсингу отражает строгую вероятностную традицию NLP Коллинза.
Янн Лекун — руководитель постдока в FAIR; ориентация на глубокое обучение в последующей работе Раша по нейронной генерации текста была сформирована средой FAIR.
Юн Ким — давний соавтор из Гарварда; совместно с Рашем написал Character-Aware Neural Language Models, Sequence-Level Knowledge Distillation и Compound PCFG; одно из самых продуктивных двусторонних исследовательских сотрудничеств в NLP.
Томас Вольф — соавтор по Hugging Face; соавтор системной статьи Transformers и Zephyr; их совместная работа в Hugging Face совпала с ключевыми годами разработки открытых LLM.
Альберт Гу — соавтор по предобучению без внимания (BiGS) и связанным работам с моделями пространства состояний; архитектура S4 от Гу стала предметом туториала Annotated S4 от Раша.
Стюарт Шибер — коллега по Гарварду и соавтор по генерации текста на основе шаблонов; также является ориентиром для интереса Раша к литературному программированию и четко документированным исследованиям.

Личный стиль

Публичный образ Раша почти полностью построен на одном убеждении: сделать сложные технические идеи максимально ясными и исполнимыми — это не просто педагогика, а форма исследовательского вклада сама по себе. Annotated Transformer, GPU-Puzzles, Tensor-Puzzles, Annotated S4 и YouTube-канал воплощают философию «литературного программирования» — код и объяснения переплетены так, что понять алгоритм означает иметь возможность его запустить, а не просто прочитать о нем. Он упоминал Кена Шана и других сторонников литературного программирования как источники влияния и описывал свой интерес к такому способу коммуникации как предшествующий его карьере в NLP. Его профиль на Digg (31,6% «Информирование», 21,7% «Обучение», 12,6% «Анонсы») и описание «пишет твиты и блоги, в основном о кодинге и ML» отражают коммуникатора, который в первую очередь заинтересован в создании общего понимания, а не в отстаивании позиций. Его переход из академии в Cursor в 2026 году соответствует карьерной ориентации, которая никогда не была чисто академической: работа над открытой инфраструктурой, назначение в Hugging Face и основание COLM указывают на человека, который ценит создание функциональных, широко используемых вещей больше, чем накопление научных публикаций.