Tim Dettmers

ref · 2026 年5 月 27 日 10:42

德国研究工程师、卡内基梅隆大学助理教授，其量化算法——LLM.int8()、QLoRA 以及 bitsandbytes 库——消除了此前将大语言模型研究限制在拥有超级计算机级 GPU 集群机构中的硬件障碍。

简介


国籍	德国
现任机构	卡内基梅隆大学（机器学习与计算机科学系助理教授）；艾伦人工智能研究所（研究科学家）
研究方向	模型量化、参数高效微调、分布式训练、开源智能体、基础模型可及性
博士导师	Luke Zettlemoyer
博士论文	可及的基础模型：系统、算法与科学（华盛顿大学，2024）
网站	timdettmers.com
X / Twitter	@Tim_Dettmers
GitHub	timdettmers
Google Scholar	Tim Dettmers

概述

Tim Dettmers 是一位德国研究科学家，也是卡内基梅隆大学机器学习与计算机科学系的助理教授，同时在艾伦人工智能研究所（Ai2）担任研究科学家。他最广为人知的身份是 bitsandbytes 的创建者和维护者——这是一个用于内存高效深度学习的开源库，每月安装量达 220 万次；他也是 LLM.int8() 和 QLoRA 的主要作者——这两种算法共同首次实现了在消费级硬件上运行和微调大语言模型。他于 2024 年在华盛顿大学完成博士学位，师从 Luke Zettlemoyer，量化研究项目正是在此研究环境中成型的。他的核心论点——计算高效的方法将加速并普及深度学习的进步——通过三个层面得以体现：新颖的算法（量化、参数高效微调）、实用软件（bitsandbytes）以及公众教育（为数十万从业者所阅读的博客和 GPU 硬件指南）。他曾获得 ICLR 和 NeurIPS 的论文奖、谷歌开源奖、PyTorch 基金会奖以及 AI2050 早期职业奖学金。他目前的研究重点是开源智能体系统，力求与闭权重模型相竞争。

早期生活与教育

Dettmers 在德国长大，在来到美国之前，曾在欧洲人工智能研究所进行深度学习的早期研究。2010 年代初，他开始在个人博客 timdettmers.com 上撰写面向实践的深度学习硬件指南——这一习惯使他在学术生涯正式开始之前，就成为机器学习社区中最受信赖的技术传播者之一。2018-2019 年，他获得了华盛顿大学的 Jeff Dean – Heidi Hopper 捐赠校董奖学金，并在 2016-2017 年获得了谷歌奖学金，这表明他在博士期间就已获得早期的外部认可。他于 2024 年在华盛顿大学保罗·G·艾伦计算机科学与工程学院完成博士学位，师从 Luke Zettlemoyer。

职业生涯

华盛顿大学——博士研究（约 2016–2024 年）

Dettmers 的博士研究有一个明确的统一目标：消除阻碍没有大型 GPU 预算的学术研究人员和领域科学家研究、适配或训练大语言模型的计算障碍。

8 位优化器（ICLR 2022，口头报告）。 他的首个重要成果是“通过分块量化实现的 8 位优化器”（与 Mike Lewis、Sam Shleifer 和 Luke Zettlemoyer 合作），该研究表明训练时的优化器（如 Adam）可以通过分块量化方案量化为 8 位精度，将内存占用减少 75% 且不降低模型质量。该论文在 ICLR 2022 上作为口头报告进行展示。

LLM.int8()（NeurIPS 2022）。 “LLM.int8()：面向 Transformer 的规模化 8 位矩阵乘法”（与 Mike Lewis、Younes Belkada 和 Luke Zettlemoyer 合作）研究了大语言模型在规模化时朴素 8 位量化失败的原因，并发现了其根源：在约 67 亿参数以上的模型中，会出现一小部分隐藏维度——称为异常特征——它们在激活中携带了不成比例的信息。标准的 8 位投影会破坏这些特征。LLM.int8() 通过检测异常维度并将其保留为 16 位，同时将剩余部分量化为 8 位来解决这个问题。这是第一个在所有规模（高达 1750 亿参数）下都能匹配全精度质量的推理量化方法，直接被集成到 Hugging Face Transformers 和 bitsandbytes 中，并首次实现了在消费级 GPU 上运行十亿参数模型。

k 位推理缩放定律（2022 年）。 一项配套研究描述了最优量化位宽如何与模型大小和硬件约束相互作用，产生了后来影响硬件设计的 k 位推理缩放定律：Dettmers 在 2026 年的一篇文章中指出，k 位推理缩放定律的发现最终在 NVIDIA Blackwell GPU 的硬件层面得到了实现。

QLoRA（NeurIPS 2023）。 “QLoRA：高效微调量化 LLM”（与 Artidoro Pagnoni、Ari Holtzman 和 Luke Zettlemoyer 合作）以一种新颖的方式将量化与低秩适配（LoRA）相结合：基础模型以新的 4 位 NormalFloat（NF4）格式存储——这在信息论上被证明对于正态分布的权重是最优的——并被冻结；仅训练一小部分额外的低秩适配器参数。QLoRA 实现了在单个消费级 GPU（NVIDIA RTX 3090）上微调 650 亿参数的 LLaMA 模型，而这此前需要成群的 A100 GPU。随附的 Guanaco 模型系列——作为首批通过 QLoRA 训练并公开可用的 RLHF 微调模型发布——在公共基准测试中，在单 GPU 评估时达到了接近 GPT-3.5 的性能。QLoRA 成为开源 LLM 社区中可及微调的主导方法，并受到 2023 年 PyTorch 基金会奖和谷歌开源奖的表彰。

SWARM 并行化与 Petals（ICML 2023，NAACL 2023）。 Dettmers 合著了两篇论文，从分布式角度而非压缩角度解决训练和推理问题。SWARM 并行化（ICML 2023）展示了通过标准互联网基础设施在异构设备上协作训练大型模型，达到了专用超级计算硬件约 80% 的效率。Petals（NAACL 2023）在此基础上用于推理，实现了通过互联网连接的志愿者机器对大型模型（包括 BLOOM-176B）进行分布式协作推理——这是完全去中心化大型模型部署的概念验证。

艾伦人工智能研究所——研究科学家（2024 年至今）

完成博士学位后，Dettmers 加入了 Ai2 担任研究科学家，同时开始了他在 CMU 的教职。在 Ai2，他继续从事量化研究，并进入了智能体系统领域。他目前的研究重点是与闭权重系统竞争的、可运行在消费级硬件上的开源编码智能体、设备端混合专家模型以及分层 LLM 架构——这些基础设施旨在实现基于智能体的、在消费级硬件上的科学自动化。

卡内基梅隆大学——助理教授（2025 年至今）

Dettmers 于 2025 年秋季加入 CMU 的机器学习系和计算机科学系，担任助理教授。他在 CMU 的研究小组继续从事模型可及性研究，目前包括博士生 Eulrang Cho 和 Trang Nguyen。他的研究声明将计算效率与他的一种信念联系起来：能够进行人工智能实验的研究人员的多样性，直接决定了人工智能进步的质量和方向。

主要贡献

bitsandbytes——开源 CUDA 库，为 PyTorch 提供 8 位矩阵乘法、分块量化、8 位优化器（Adam、AdamW、LARS、LAMB、Lion）以及 4 位量化原语。月安装量达 220 万，并集成到 Hugging Face Transformers 中，已成为内存高效推理和微调的事实标准。荣获谷歌开源奖和 PyTorch 基金会奖（2023 年）。
LLM.int8()：面向 Transformer 的规模化 8 位矩阵乘法（NeurIPS 2022）——发现“异常特征”（高幅值激活维度）在模型规模超过约 67 亿参数时出现，并阻止了朴素的 8 位量化。提出了混合精度分解方法，将异常通道保留为 16 位，从而实现了对高达 1750 亿参数模型的全精度质量的 8 位推理。这是首个实际可用的、面向消费级硬件的 LLM 量化方法。
QLoRA：高效微调量化 LLM（NeurIPS 2023）——引入了 NF4，这是一种在信息论上对正态分布模型权重最优的 4 位浮点格式，并与以 16 位训练的 LoRA 适配器相结合。实现了在单个消费级 GPU 上微调 650 亿参数模型。发布了 Guanaco，这是首个通过 QLoRA 产生并被广泛下载的 RLHF 微调模型，以极低的计算成本在基准测试中达到了接近 ChatGPT 的性能。这是 2023 年开源 LLM 生态系统中影响最大的论文之一。
通过分块量化实现的 8 位优化器（ICLR 2022，口头报告）——证明训练时的优化器状态（Adam、AdamW）可以使用分块方案安全地量化为 8 位，将优化器内存减少 75% 且无性能损失。使得在固定硬件上可以使用更大的批次大小和更大的模型。
k 位推理缩放定律（2022 年）——描述了模型大小、硬件与最优推理量化位宽之间的关系，得出了能够预测规模化硬件设计需求的缩放定律。Dettmers 称其发现影响了 NVIDIA Blackwell GPU 的设计。
SWARM 并行化（ICML 2023）——合著了一种协议，用于通过消费级互联网基础设施，在异构和地理分布的设备上协作训练大型模型，达到了约 80% 的超级计算机效率。
Petals（NAACL 2023）——合著了一个系统，用于通过互联网连接的志愿者机器对非常大的语言模型（BLOOM-176B）进行分布式、协作推理，扩展了对尖端模型推理的开放访问。
timdettmers.com 博客——定期更新的博客，是深度学习社区中阅读最广泛的实用 GPU 硬件指南之一（“深度学习该买哪款 GPU”），其中关于硬件指南、博士申请和研究方法的文章覆盖了全球范围的从业者受众。

奖项与认可

Google ML and Systems Junior Faculty Award (2025)——授予在机器学习和系统研究交叉领域表现突出的早期职业教师。
AI2050 Early Career Fellow (2024)——被 Schmidt Sciences 的 AI2050 项目选中，旨在研究使基础模型对专业领域的非 AI 科学家具有可及性。
Madrona Prize (2023)——西雅图奖项，授予在人工智能领域杰出的博士研究。
Google Open Source Award (2023)——表彰 bitsandbytes 库。
PyTorch Foundation Award (2023)——表彰通过 bitsandbytes 和 QLoRA 对 PyTorch 生态系统的贡献。
Martin & Beate Block Award (2023)——奖励杰出的博士论文研究。
NeurIPS Best Reviewer Award (2021)——被评为 NeurIPS 2021 最佳审稿人之一。
Jeff Dean – Heidi Hopper Endowed Regental Fellowship, UW (2018–2019)——命名奖学金，授予华盛顿大学杰出的机器学习博士生。
Google Scholarship (2016–2017)——在博士研究早期获得。
ICLR Oral (2022)——关于 8 位优化器的论文。
NeurIPS Spotlight (2022)——关于 LLM.int8()。

关键关系

Luke Zettlemoyer——华盛顿大学的博士导师；华盛顿大学和 Meta 的 NLP 和 LLM 研究员；与 Dettmers 的学术合作共同产生了 LLM.int8()、QLoRA、8 位优化器、SWARM 和 Petals。
Mike Lewis——Meta AI 研究员，LLM.int8() 和 8 位优化器的合著者；在将 Dettmers 的量化工作桥接到大规模生产语言模型方面发挥了重要作用。
Artidoro Pagnoni——QLoRA 合著者；华盛顿大学博士生，为 Guanaco 微调实验做出了贡献。
Ari Holtzman——QLoRA 合著者；华盛顿大学 NLP 研究员，以核采样和生成质量研究闻名。
Nathan Lambert——Ai2 同事和播客（Interconnects）主持人；在 Ai2 开源 LLM 社区的密切智力合作者。
Younes Belkada——Hugging Face 工程师和 LLM.int8() 合著者；通过他们的合作，LLM.int8() 与 Transformers 的集成得以实现，使数百万从业者能够使用该算法。

个人风格

Dettmers 的研究结合了系统工程师的本能——深切关注内存、延迟和硬件成本等现实世界约束——与算法研究者的严谨性。他的核心信念（在其网站上明确阐述）是：计算效率相对于能力研究并非次要问题，而是能力研究的先决条件：能够进行人工智能实验的研究人员的多样性决定了影响其发展的思想的多样性。这在实践中表现为不同寻常的组合：可发表的算法成果（QLoRA、LLM.int8()）与生产级开源软件（bitsandbytes）并存，且两者同时获得学术界和工业界的认可。他的博客已运行超过十年，以同样严谨的实证态度对待硬件购买决策和博士申请策略，如同对待量化理论一样——这是一个明确的信号，表明可及性和沟通在他的研究计划中并非事后考虑。他在公开写作中异常坦诚，包括 2025 年一篇论证人工智能近期不会到来的文章，以及 2026 年一篇详细记录构建其第一个编码智能体（SERA）过程中的失败和迭代的博文。

参考资料

个人网站与简历：timdettmers.com
CMU 教师页面：csd.cs.cmu.edu
AI2050 研究员页面：ai2050.schmidtsciences.org
Google Scholar：scholar.google.com
Hugging Face 资料：huggingface.co/timdettmers
bitsandbytes：github.com/bitsandbytes-foundation/bitsandbytes
Interconnects 播客（2024 年 11 月）：interconnects.ai
UW-IT 资料：it.uw.edu
Digg 资料：digg.com/u/x/tim_dettmers