机制可解释性研究者、Anthropic 联合创始人——这位自学成才的加拿大人创造了“机制可解释性”这个术语,将 colah.github.io 博客建成了 2010 年代阅读量最高的机器学习教育资源,并耗费十五年时间追寻同一个问题:神经网络究竟在计算什么?
简介
| 字段 | 详情 |
|---|---|
| 国籍 | 加拿大 |
| 现任机构 | Anthropic(联合创始人;可解释性研究员) |
| 研究领域 | 机制可解释性、神经网络可解释性、特征可视化、电路、叠加、稀疏自编码器、人工智能安全 |
| 教育背景 | 多伦多阿贝拉尔学校(2010 年全国 AP 学者毕业);大学肄业;蒂尔奖学金(2012) |
| 博客 | colah.github.io |
| 研究专题 | transformer-circuits.pub |
| X / Twitter | @ch402 |
| GitHub | @colah |
| Google Scholar | scholar.google.com |
概览
克里斯·奥拉是一位加拿大机器学习研究员,也是 Anthropic 的联合创始人。他的整个职业生涯都专注于一个核心问题:神经网络内部到底在做什么?2020 年,他创造了术语“机制可解释性”,领导 OpenAI 团队在 Distill 上发表了《电路》系列文章。此后,他领导了 Anthropic 的可解释性研究,产出了《叠加的玩具模型》、《迈向单一语义》、《扩展单一语义》和《电路追踪》等论文——这些成果定义了该领域的前沿。他没有正式的大学学位,18 岁便离开大学,依靠蒂尔奖学金的资助进行独立研究。在转向研究发表之前,他的技术博客(colah.github.io)在 2010 年代成为了机器学习教育领域阅读量最高的资源之一。2017 年,他联合创办了专注于机器学习领域卓越沟通的科学期刊 Distill;2021 年,他与 Dario Amodei、Ilya Sutskever 等人一起离开 OpenAI,联合创办了 Anthropic。《时代》杂志将他评为 2024 年人工智能领域最具影响力的 100 人之一。
早年生活与教育
奥拉在加拿大长大,2010 年以全国 AP 学者的身份从多伦多的阿贝拉尔学校毕业。他进入大学,但 18 岁时没有完成学业就离开了,转而对数学和计算领域的独立研究产生了浓厚兴趣。大约在 2012 年,他获得了蒂尔奖学金——由彼得·蒂尔的基金会颁发的 10 万美元奖金,旨在鼓励有天赋的年轻人从事研究或创业,而非遵循传统的大学路径——这为他早期的自主工作提供了资金支持。
在此期间,奥拉维护着一个早期博客(christopherolah.wordpress.com / colah.ca),内容涵盖拓扑学、微积分和计算机视觉等数学主题。他形成的写作风格——清晰、图表丰富、从基本原理出发——为后来使他的机器学习博客成为该领域最具影响力的教学资源之一奠定了基础。
职业生涯
独立研究与 colah.github.io(2012–2014)
在加入任何机构之前,奥拉通过阅读、实现和写作,独立发展了对神经网络的深刻理解。他的博客 colah.github.io 成为了可访问解释许多当时被认为难以理解的主题的目的地:卷积网络、循环网络、注意力机制、词嵌入、反向传播。诸如《理解 LSTM 网络》(2015)和《深度学习、自然语言处理与表征》(2014)等文章积累了数百万阅读量,并成为全球大学课程中的标准参考文献——将他这个名字植入了整整一代机器学习从业者的学习体验中。他将自己的个人使命描述为想要“清楚地理解事物并很好地解释它们”,这句话出现在他的 GitHub 个人资料中,并概括了他的整个职业生涯。
Google Brain(约 2014–2019)
奥拉作为研究员加入 Google Brain,主要致力于理解神经网络所学到的东西——在当时,这是一个小众且有些被低估的研究方向。在此期间,他最广为人知的贡献是共同创造了 DeepDream(2015,与 Alexander Mordvintsev 和 Mike Tyka),该技术通过优化输入图像使目标神经元的激活最大化,从而放大神经网络已学会识别的模式。由此产生的迷幻可视化效果在机器学习社区之外迅速走红,并向广大观众展示了神经网络正在构建丰富的内部世界表征,而不仅仅是在表面进行统计模式匹配。
更具技术影响力的是他在特征可视化方面的工作——一种系统地理解网络中单个神经元和通道响应什么的方法——他与 Shan Carter 等人合作开发,并通过他联合创办的 Distill 期刊发表。2017 年的《特征可视化》论文和 2018 年的《可解释性的构建块》论文为网络内部结构分析建立了一套词汇和方法论,直接为《电路》工作奠定了基础。
Distill(2017 年联合创办): 奥拉与 Shan Carter 等人联合创办了 Distill,这是一本基于这种信念的科学期刊:科学交流中的呈现方式和清晰度不是装饰,而是实质。Distill 的论文结合了交互式可视化、动画图解和清晰的散文来解释机器学习概念;该期刊吸引了关于注意力机制、生成对抗网络和特征可视化等主题的高知名度投稿。尽管 Distill 于 2021 年因维护负担暂停了新出版物,但其美学影响了一代机器学习研究者,并为该领域应该呈现的严谨科学交流树立了标准。奥拉后来在 Anthropic 启动的 transformer-circuits.pub 系列延续了同样的精神。
OpenAI —— 清晰团队(约 2019–2021)
奥拉加入 OpenAI,领导其专注于可解释性的清晰团队。这一时期最重要的成果是《电路》系列——从 2020 年开始在 Distill 上发表的一系列论文,研究了视觉模型 InceptionV1 在单个神经元及其连接层面上的细节。首篇论文《放大:电路导论》(2020,与 Nick Cammarata 等人合作)表明,单个神经元对应于可识别的概念(曲线检测器、纹理检测器,甚至“软耳检测器”),并且神经元之间的连接形成了有意义的算法——这意味着神经网络原则上可以被逆向工程成可解释的组件。这篇论文创造了“机制可解释性”这个术语,并将神经网络的三个特性——特征、电路和普遍性——作为该领域的组织原则提出。
激活图谱(2019): 与 Google 的 Shan Carter 以及 OpenAI 合作开发,激活图谱通过聚合数百万个激活向量并可视化其结构,提供了神经网络特征空间的全局地图——能够对网络所学内容进行“万米高空俯瞰”,而不是逐个神经元检查。
Anthropic —— 联合创始人兼可解释性负责人(2021 年至今)
奥拉于 2021 年与 Dario Amodei、Daniela Amodei、Tom Brown、Chris Jones、Sam McCandlish、Jack Clark 和 Jared Kaplan 共同创立了 Anthropic——这群人离开 OpenAI 主要是出于对安全工作进度相对于能力开发速度的担忧。在 Anthropic,可解释性是公司核心研究重点之一,奥拉领导可解释性团队,该团队产出了 2020 年代该领域最具影响力的工作:
《叠加的玩具模型》(2022): 这篇论文研究了为什么神经网络中的神经元看起来是“多语义的”——对多个不相关的特征都有响应——并建立了一个以“叠加”为中心的理论和实证框架:这是一种现象,即拥有 (n) 个神经元的神经网络可以通过将超过 (n) 个特征打包到激活空间中的重叠方向上来表示它们。这篇论文为理解为什么机制可解释性很难(特征并未清晰分配给神经元)以及为什么稀疏方法可能有助于分解它们奠定了数学基础。
《迈向单一语义:用字典学习分解语言模型》(2023): 将稀疏自编码器应用于 Transformer 的 MLP 神经元,以提取一个大型可解释特征字典——通过找到一个更高维的空间来解决叠加问题,在这个空间中,单个方向对应于人类可识别的概念。这项工作将机制可解释性的研究议程转向了字典学习,将其作为特征分解的主要工具。
《扩展单一语义》(2024): 将稀疏自编码器方法扩展到 Claude Sonnet 模型,在生产规模的语言模型中发现了数百万个可解释的特征——包括对应于字符、概念以及令人惊讶的类似人类的抽象概念的特征,例如与情绪状态和内省概念相关的特征。
电路追踪与归因图(2025): 引入了跨层转码器(CLT)作为一种新型稀疏自编码器,用可解释的组件替换 MLP 层,从而能够构建“归因图”——即展示在特定模型前向传播中哪些特征影响了哪些输出的因果图。该方法被应用于生产环境中的 Claude 3.5 Haiku,并且代码库已开源,使电路追踪基础设施可供更广泛的研究社区使用。
Transformer 电路系列(transformer-circuits.pub): 奥拉将 Anthropic 的可解释性研究成果组织到这个公开的出版物系列中,该系列秉承 Distill 的精神,已成为该领域事实上的主要研究场所。
主要贡献
-
创造了“机制可解释性” —— 这个术语及其命名的研究计划都源于奥拉 2020 年的《电路》论文;围绕它发展起来的领域现在已涵盖全球数十个研究小组和数百名研究人员。
-
《放大:电路导论》(2020) —— 现代机制可解释性的奠基性论文;展示了视觉模型中的单个神经元及其连接可以被逆向工程成可解释的算法;引入了特征、电路和普遍性作为组织原则。
-
《叠加的玩具模型》(2022) —— 为理解多语义性和叠加假说提供了理论框架;将可解释性研究引向稀疏分解方法。
-
《迈向单一语义》(2023)和《扩展单一语义》(2024) —— 证明了稀疏自编码器可以将生产语言模型分解成数百万个可解释的特征;是各自年份引用率最高的机制可解释性论文。
-
电路追踪 / 归因图(2025) —— 引入了统一的框架来追踪通过模型计算的因果路径;开源了相关工具;首次在 Claude 生产环境中应用。
-
DeepDream(2015) —— 共同创造了使神经网络内部表征变得公开可见和可理解的技术;一个文化和科学上的里程碑,改变了广大公众对神经网络学习内容的理解。
-
colah.github.io 博客 —— 包括《理解 LSTM 网络》、《计算图上的微积分》、《神经网络、类型与函数式编程》以及《视觉信息论》在内的文章成为了标准的教育参考资料;该博客拥有数百万读者,并培养了一代机器学习从业者。
-
Distill(2017 年联合创办) —— 联合创办了专注于卓越沟通的机器学习科学期刊,为交互式、图表驱动的机器学习论文建立了标准,影响了该领域的发表和自我解释方式。
-
特征可视化(2017,与 Shan Carter) —— 系统性地理解单个神经元优化目标的方法论;是所有后续神经网络内部研究的基础。
奖项与认可
- 时代 100 人工智能 —— 人工智能领域最具影响力人物(2024) —— 被誉为机制可解释性的先驱。
- 蒂尔奖学金(2012) —— 10 万美元奖金,表彰杰出的年轻研究人员和企业家。
- 全国 AP 学者(2010) —— 从阿贝拉尔学校毕业时的学术荣誉。
关键关系
- Dario Amodei —— Anthropic 首席执行官兼联合创始人;可解释性被明确列为 Anthropic 的战略优先事项,部分原因是 Dario 本人认为它是“负责任人工智能发展的最佳赌注之一”;奥拉和 Amodei 共同强调在部署人工智能系统之前理解它们的重要性,这定义了 Anthropic 的安全文化。
- Shan Carter —— 长期研究合作者;《特征可视化》、《可解释性的构建块》和《激活图谱》的合著者;与奥拉共同创办 Distill;奥拉的理论驱动力与卡特的设计和沟通敏感性的结合定义了 Distill 的美学。
- Nick Cammarata —— OpenAI 原始《电路》系列的关键合作者;《放大》的合著者。
- Tom Brown —— Anthropic 联合创始人;同为 OpenAI 校友;GPT-3 的主要作者,带来了与奥拉的可解释性重点互补的语言建模专长。
- Andrej Karpathy —— 奥拉最著名的追随者之一;两人都致力于通过不同方式(Karpathy 通过课程和代码,奥拉通过视觉文章和理论)建立公众对神经网络工作原理的理解。
个人风格
奥拉的学术身份可以简单陈述,因为他已经反复陈述过:“我想清楚地理解事物并很好地解释它们。”这种双重承诺——对真正理解和对真正沟通的承诺——并非空谈;它预测了他产出的形式和实质。他的博客文章以从基本原理出发、尽可能使用精心设计的图表而非方程式、并坚持认为理解意味着能够构建一个让事物在事后看起来显而易见的解释而著称。他在 Anthropic 的研究论文也有同样的美学:Transformer 电路系列读起来更像是一个耐心、渐进的科学叙事,而不是一系列会议论文投稿。
他对人工智能安全的态度在该领域也独具特色:他不是从对齐理论或治理开始,而是从神经网络内部实际发生了什么这个实证问题开始——将可解释性视为其他一切的前提。他曾描述说,自己对人工智能安全中许多有争议的问题感到不确定,但相信“无论答案是什么,理解神经网络在做什么都会很重要。”他的 Digg vibe 个人资料(37% 机制可解释性,“告知”和“教学”占主导)准确地捕捉了一位传播者的形象,其公共形象主要是教学式的——更关心建立对一个真正困难的实证问题的共同理解,而不是争论。
参考资料
- 维基百科 —— 克里斯·奥拉
- 个人博客 —— colah.github.io
- 关于页面 —— colah.github.io/about
- Transformer 电路系列 —— transformer-circuits.pub
- X / Twitter —— @ch402
- GitHub —— @colah
- Digg 个人资料
- Google Scholar
- 《时代》100 人工智能 2024 —— 克里斯·奥拉
- 《连线》—— 「人工智能是个黑箱。Anthropic 找到了窥视内部的方法」(2024)
- 《连线》—— 「为什么人工智能会失控」(2025)
- 80,000 小时 —— 克里斯·奥拉访谈
- Distill —— distill.pub