Sasha Rush

ref · 2026 年5 月 25 日 07:33

机器学习研究员，前康奈尔科技副教授（2016–2026），COLM 联合创始人，同时也是《带注释的 Transformer》、GPU-Puzzles 和 OpenNMT 的作者——他是该领域开源 NLP 工具与教学代码最多产的产出者之一，现于 Cursor 负责编码 AI 的后训练工作。

简介

领域	详情
全名	Alexander “Sasha” Rush
国籍	美国
当前职位	机器学习研究员，Cursor
前任职位	康奈尔科技副教授（2021–2026）；哈佛 SEAS 助理教授（2016–2021）；Hugging Face 研究员（2019–2024）
研究领域	后训练、语言模型、文本生成、高效推理、可控生成、结构化预测、教育型机器学习工具
博士导师	Michael Collins（MIT）
个人网站	rush-nlp.com
YouTube	@srush_nlp
X / Twitter	@srush_nlp
GitHub	@srush
Google Scholar	scholar.google.com

概览

Sasha Rush（Alexander M. Rush）是一位美国机器学习研究员，他以技术研究贡献和构建教育与开源基础设施而闻名——这些基础设施使得一代从业者学会了如何使用 Transformer 和语言模型。从 2016 年到 2026 年，他是哈佛大学和康奈尔科技的教员；在这十年间，他共同创建了《带注释的 Transformer》（可能是原始 Transformer 论文阅读量最大的 PyTorch 实现），构建了 GPU-Puzzles 和 Tensor-Puzzles 作为交互式 GPU 编程课程，共同领导了 OpenNMT 作为首批生产级开源神经机器翻译系统，并在 Hugging Face 担任兼职研究员，为早期的开源 LLM 工作做出了贡献。他于 2024 年共同创立了 COLM（语言建模会议）并担任主席。他于 2026 年离开学术界加入 Cursor 担任研究员，专注于编码 AI 系统的后训练。他的学术经历包括在 MIT 师从 Michael Collins 获得博士学位，以及在 Facebook AI Research 师从 Yann LeCun 进行博士后研究。

教育背景

博士，计算机科学——MIT，2014
Rush 在 MIT 师从 Michael Collins 完成了博士学位，后者是该领域统计 NLP 和结构化预测的领先研究者之一。他的博士论文专注于 NLP 任务（包括句法分析和机器翻译）的概率模型和结构化预测。他在 MIT 的研究获得了 NAACL 2012 最佳论文奖（与 Slav Petrov 合作，关于高效依存句法分析的藤蔓剪枝工作），并在主要 NLP 会议上获得了多项荣誉提名。

博士后研究员——Facebook AI Research (FAIR)，纽约，2014–2016
Rush 在 Yann LeCun 的指导下加入 Facebook AI Research 担任博士后研究员。这一时期恰逢深度学习在 NLP 中应用的早期浪潮，并产生了他最早被引用的工作之一，包括 2015 年的神经注意力摘要论文，该论文有助于建立序列到序列学习作为文本生成（超出翻译范围）的工具。

职业生涯

哈佛工程与应用科学学院（2016–2021）

Rush 于 2016 年加入哈佛 SEAS 担任助理教授，创立了 HarvardNLP 小组（harvardnlp.github.io）。他在哈佛的研究涵盖了神经文本生成、结构化注意力、神经网络可视化和早期 Transformer 时代。这一时期的关键成果包括 OpenNMT 开源翻译工具包（2017）、《带注释的 Transformer》教育资源（2018）和 LSTMVis（2017），这是一种分析循环网络中隐藏状态的可视化工具，获得了 IEEE InfoVis 会议最佳论文奖。

在哈佛期间，Rush 发展了一种独特的研究交流方式——在技术论文旁边编写带大量注释的可执行实现——这成为他公开产出的标志。

康奈尔科技（2021–2026）

Rush 搬到纽约市的康奈尔科技担任副教授，隶属于康奈尔安·S·鲍尔斯计算与信息科学学院和康奈尔 NLP 小组。他因卓越教学获得了康奈尔科技学生选择奖。他的研究重点日益转向高效和生成式语言建模，包括无注意力预训练（BiGS，EMNLP 2023）、扩散语言模型（NeurIPS 2024）和上下文文档嵌入（ICLR 2025）。他继续发布面向 GPU 的教育工具，包括 GPU-Puzzles 和 Tensor-Puzzles。

Hugging Face——研究员（2019–2024）

在担任教职的同时，Rush 大约在 2019 年至 2024 年期间在 Hugging Face 兼职担任研究员。他为多个早期 Hugging Face 项目做出了贡献：他是原始 Transformers 系统论文（Wolf 等人，EMNLP Demos 2020）的作者之一，通过 PromptSource 为 BigScience 项目和 T0 多任务提示模型（ICLR 2022）做出了贡献，并共同撰写了 Zephyr（COLM 2024）——一种通过 LM 对齐直接蒸馏产生的轻量级指令调优模型，被广泛用作开放参考模型。这种双重身份使他成为学术 NLP 研究与开源 Hugging Face 生态系统之间最有效的桥梁之一。

COLM——联合创始人兼主席（2024–至今）

2024 年，Rush 共同创立并发起了语言建模会议（COLM），这是一个专门致力于语言模型研究的会议——这是首个专门关注这一已成为 NLP 主导领域的重大会议。他担任会议主席。COLM 填补了会议领域的空白，因为以前 LM 特定工作分布在范围更广的会议（NeurIPS、ICML、ICLR、ACL）中，缺乏专门的家园。首届 COLM 将 Zephyr 作为其首批论文之一发表。

在他的学术生涯中，Rush 还担任过 ICLR 的秘书和总主席，在 COVID-19 期间（2020–2021）开发了运营虚拟会议的基础设施软件。

Cursor——研究员（2026–至今）

2026 年，Rush 离开学术界加入 Cursor，这是一款 AI 原生的代码编辑器和开发工具。他的个人网站将其当前重点描述为“AI 系统在编码及相关任务上的后训练”以及改进模型在长期编码问题上的推理能力。他与 Cursor 团队共同撰写了《Composer 2》（arXiv 2026）——一篇关于大上下文代码生成的论文。他在自己的网站上写道：“从 2016 年到 2026 年，我是哈佛大学和康奈尔大学的教授。”

主要贡献

《带注释的 Transformer》（ACL NLP-OSS 研讨会，2018）——一篇带有大量注释、可执行的 PyTorch 实现的《Attention Is All You Need》，逐段讲解 Transformer 架构的每个组件，并附带内联代码和可视化。这可能是有史以来阅读量最大的 Transformer 实现和教程，也是绝大多数 ML 社区成员首次通过代码理解该架构的入口点。已在 GitHub 上更新和维护。
GPU-Puzzles（GitHub，2021）——包含 14 个交互式 CUDA 谜题的集合，使用 Numba 实现，旨在从基本原理教授 GPU 编程。这是 GitHub 上星标最多的教育性 ML 仓库之一；在全球范围内被用于教授深度学习并行编程的课程。其配套的 Tensor-Puzzles 在 Python 中执行类似操作。
OpenNMT（ACL Demo，2017）——与 Guillaume Klein、Yoon Kim 和 Jean Senellart 共同开发；首批生产级开源神经机器翻译系统之一，以 PyTorch 发布，既用于研究也用于部署。它成为 seq2seq 模型的参考实现，并影响了后续 NLP 框架的设计。
用于抽象句子摘要的神经注意力模型（EMNLP 2015）——与 Sumit Chopra 和 Jason Weston 合作；首批将神经注意力应用于抽象摘要的论文之一，展示了编码器-解码器注意力机制可以生成新颖的摘要文本，而不仅仅是提取片段。它有助于将神经抽象摘要确立为一个研究方向。
序列级知识蒸馏（EMNLP 2016）——与 Yoon Kim 合作；引入了将序列到序列教师模型蒸馏为更小学生模型（在序列级别而非 token 级别）的思想，这一技术被广泛用于 NLP 模型压缩。
Zephyr：LM 对齐的直接蒸馏（COLM 2024）——与 Hugging Face 研究团队共同撰写；展示了从更强模型的反馈中进行蒸馏可以将一个轻量级开放模型（7B 参数）调整为指令跟随，达到与更大模型竞争的水平，并且训练流程比完整 RLHF 更简单。它成为广泛采用的指令跟随研究开放参考模型。
T0 / PromptSource——多任务提示训练（ICLR 2022）——与 Victor Sanh 以及 BigScience 的其他成员共同撰写；表明在多样化的人工编写提示集合上进行预训练可以使模型在没有上下文示例的情况下进行零样本泛化到未见任务。
LSTMVis（IEEE InfoVis 2017）——与 Hendrik Strobelt、Sebastian Gehrmann 和 Hanspeter Pfister 合作；一种用于分析循环网络中隐藏状态动态的可视化工具，获得 InfoVis 最佳论文奖。
《带注释的 S4》——Rush 对结构化状态空间序列（S4）模型的交互式、可执行实现，延续了他为关键架构论文制作带大量注释实现的传统，这些实现作为社区教育资源。
YouTube 频道（@srush_nlp）——一系列涵盖语言模型内部机制、GPU 编程和深度学习系统的技术讲座和课程；ML 社区中面向从业者的观看次数最多的技术视频资源之一。
NAACL 2012 最佳论文——“Vine Pruning for Efficient Multi-Pass Dependency Parsing”（与 Slav Petrov 合作）；这是 NLP 领域多个最佳论文奖项中的第一个。

奖项与认可

斯隆研究奖学金（约 2018 年）
NSF CAREER 奖
总统早期职业奖 for 科学家和工程师（PECASE）
康奈尔科技学生选择奖 for 卓越教学
最佳论文奖 at NAACL（2012）、InfoVis（2017）和硬件相关会议
ICLR 秘书兼总主席——该领域旗舰会议之一的机构领导；开发了虚拟会议基础设施。
COLM 联合创始人兼主席（2024–至今）

关键关系

Michael Collins——MIT 博士导师；2000 年代至 2010 年代在结构化预测和句法分析领域最具影响力的 NLP 研究者之一；Rush 在最优解码和高效句法分析方面的工作反映了 Collins 严格的概率 NLP 传统。
Yann LeCun——FAIR 博士后导师；Rush 随后在神经文本生成方面的深度学习取向受到 FAIR 环境的影响。
Yoon Kim——来自哈佛的长期合作者；共同撰写了字符感知神经语言模型、序列级知识蒸馏和 Compound PCFG；NLP 领域最多产的双边研究关系之一。
Thomas Wolf——Hugging Face 合作者；共同撰写了 Transformers 系统论文和 Zephyr；他们在 Hugging Face 的共同任职时间与开放 LLM 开发的关键年份重叠。
Albert Gu——在无注意力预训练（BiGS）和相关状态空间模型工作上的合作者；Gu 的 S4 架构是 Rush 的《带注释的 S4》教程的主题。
Stuart Shieber——哈佛同事，在基于模板的文本生成方面合作；也是 Rush 对文学编程和清晰记录研究兴趣的试金石。

个人风格

Rush 的公众形象几乎完全建立在一种信念上：使复杂的技术思想尽可能清晰和可执行不仅是一种教学法，它本身就是一种研究贡献形式。《带注释的 Transformer》、GPU-Puzzles、Tensor-Puzzles、《带注释的 S4》以及 YouTube 频道都体现了一种“文学编程”理念——代码和解释交织在一起，理解算法意味着能够运行它，而不仅仅是阅读它。他曾引用 Ken Shan 和其他文学编程倡导者作为影响，并描述他对这种交流方式的兴趣早于他的 NLP 职业生涯。他的 Digg 个人资料氛围（31.6%“通知”，21.7%“教学”，12.6%“公告”）以及“推文和博客，主要关于编码和 ML”的描述，捕捉到了一个主要致力于建立共同理解而非表明立场的沟通者。他在 2026 年从学术界转向 Cursor，这与他的职业取向一致：从来都不是纯粹学术性的——开源基础设施工作、Hugging Face 的职位以及 COLM 的创立都指向了一个重视构建功能性、广泛使用的东西而非积累学术产出的人。