鲁斯兰·萨拉赫丁诺夫

加拿大籍塔塔尔裔研究者,卡内基梅隆大学UPMC教授,以深度信念网络、深度玻尔兹曼机、Dropout和贝叶斯程序学习的基础性贡献而闻名,现任Meta生成式AI研究副总裁。


个人简介

出生 约1980年,乌兹别克斯坦塔什干(时属苏联)
国籍 加拿大
现任机构 Meta(生成式AI研究副总裁);卡内基梅隆大学(机器学习系UPMC教授)
研究领域 深度学习、概率图模型、大规模优化、多模态大语言模型、AI智能体
博士导师 杰弗里·辛顿
博士论文 学习深度生成模型(多伦多大学,2009)
CMU个人主页 cs.cmu.edu/~rsalakhu
谷歌学术 Ruslan Salakhutdinov — 被引超264,000次
X / Twitter @rsalakhu

概述

Ruslan „Russ“ Salakhutdinov是21世纪中期开始的深度学习复兴的核心人物之一。他在多伦多大学师从杰弗里·辛顿,合著了关于深度信念网络和深度玻尔兹曼机的论文,帮助确立了神经网络作为机器学习主导范式的地位。后来,他共同发明了Dropout——可以说是深度学习史上应用最广泛的正则化技术——并贡献了贝叶斯程序学习,这是一个关于人类一次性概念习得的有影响力的模型。他的职业生涯以不同寻常的方式连接了学术界和工业界:自2016年起,他一直在卡内基梅隆大学担任正教授,同时担任苹果AI研究首任总监,并自2024年起担任Meta生成式AI研究副总裁。他的出版物累计被引用超过26.4万次,使他成为该领域历史上被引用最多的研究者之一。


早年经历与教育

Salakhutdinov大约于1980年出生在塔什干(时属苏联乌兹别克斯坦),具有鞑靼血统。他移民到加拿大,并在多伦多大学完成了全部研究生教育。2004年,他原本考虑离开人工智能领域,但在遇见杰弗里·辛顿后改变了主意,当时辛顿邀请他参与一个专注于训练人工神经网络新方法的项目,辛顿称其为„深度信念网络“。那次会面证明是决定性的:Salakhutdinov在博士期间成为辛顿最亲密的合作者之一,合著了开启现代深度学习时代的多篇论文。

他于2009年在多伦多大学获得机器学习(计算机科学)博士学位。他的博士论文《学习深度生成模型》研究了层次概率模型的无监督学习。博士毕业后,他于2009年至2011年在麻省理工学院大脑与认知科学系以及计算机科学与人工智能实验室(CSAIL)进行了两年博士后研究。


职业生涯

多伦多大学(2011–2016)

Salakhutdinov于2011年加入多伦多大学,担任计算机科学系和统计学系助理教授。在此期间,他获得了多项重要的早期职业奖项,共同发明了Dropout,并与麻省理工学院的合作者一起开展了具有影响力的一次性学习工作。他成为加拿大高等研究院(CIFAR)院士,并获得了NSERC、斯隆基金会、谷歌、微软和三星的资助。

卡内基梅隆大学(2016–至今)

Salakhutdinov于2016年加入卡内基梅隆大学机器学习系,担任副教授。随后,他被任命为UPMC计算机科学教授,这是一个由UPMC资助的捐赠教席,旨在推进人工智能、机器学习和医疗健康数据分析方面的工作。在CMU,他的研究扩展到自然语言处理和多模态学习,他的团队在阅读理解、图神经网络、语言基础智能体和多模态基础模型方面做出了有影响力的工作。他指导了众多博士生,他们的工作在NLP、视觉和强化学习领域产生了广泛影响,其中包括XLNet的共同第一作者杨志麟。

苹果公司 — AI研究总监(2016–2020)

2015年,Salakhutdinov共同创立了专注于AI技术的Perceptual Machines公司,该公司后来被苹果收购。Salakhutdinov于2016年加入苹果,担任AI研究总监——苹果历史上首位拥有该头衔的人——领导了关键的AI和机器学习研究项目。他于2020年初离开,以重新专注于他在CMU的职责。

Meta — 生成式AI研究副总裁(2024–至今)

2024年6月,Salakhutdinov加入Meta,担任生成式AI研究副总裁,他的工作重点是多模态大语言模型(LLM)和AI智能体。他同时保留在CMU的UPMC教授职位。


主要贡献

  • 深度信念网络(DBN)(2006)——与杰弗里·辛顿合著了具有里程碑意义的论文,证明了深度生成模型的高效逐层贪婪预训练方法。该成果发表在《科学》杂志上,同时也作为NIPS论文发表,被广泛认为是现代深度学习复兴的起点之一,首次展示了深度网络可以大规模有效训练。

  • 深度玻尔兹曼机(DBM)——在2009年的AISTATS会议上与辛顿共同提出,将无向图模型框架扩展到多个层次,提供了一种完全概率化的深度架构及近似推理程序。后续关于高效学习DBM的工作(AISTATS 2010)提供了实用的训练算法,使其能够应用于多模态数据。

  • 用于协同过滤的受限玻尔兹曼机——将RBM应用于Netflix大奖推荐问题,取得了有竞争力的结果,并证明了概率潜变量模型可以扩展到工业推荐任务。

  • Dropout(JMLR 2014)——与Nitish Srivastava、杰弗里·辛顿、Alex Krizhevsky和Ilya Sutskever合著。该论文提出了在训练过程中随机丢弃神经网络单元的方法,作为一种简单且高效的 regularization技术。它成为机器学习历史上被引用最多的论文之一,至今仍是神经网络训练的标准组成部分。

  • 贝叶斯程序学习 / 一次性概念学习(《科学》杂志,2015)——与Brenden Lake和Josh Tenenbaum合著。该论文提出了一个人工手写字符学习的概率模型,该模型能够匹配或超越人类从单个示例识别新奇字符的表现,确立了一次性学习作为一个重要的研究课题,并连接了认知科学与深度学习。

  • XLNet(NeurIPS 2019)——与杨志麟、戴子航、杨益明、Jaime Carbonell和Quoc V. Le合著。XLNet提出了一种广义自回归预训练方法,结合了自回归语言模型和BERT风格双向上下文的优势,在20项任务上超越BERT,发布时在包括SQuAD、GLUE和RACE在内的18项任务上达到了最先进的结果。

  • 多模态大语言模型(2023年至今)——在CMU和Meta,Salakhutdinov的团队开展了将语言模型与图像结合以实现多模态联合输入和输出的早期工作(FROMAGe、GILL),以及无需标注的多模态数据进行多模态学习的工作,为现代多模态LLM研究奠定了基础。


奖项与荣誉

  • 阿尔弗雷德·P·斯隆研究奖学金(2013–2015)——授予早期职业研究卓越表现。
  • 微软研究院教师奖学金(2013–2015)——表彰计算机科学领域的杰出青年学者。
  • 早期研究者奖(2012–2017)——安大略省研究与创新部颁发的早期职业研究杰出奖项。
  • 康诺特新研究者奖(2012–2014)——多伦多大学对研究成果的认可。
  • 谷歌教师研究奖(2014–2015)——对卓越研究的资助。
  • 卡内基梅隆大学UPMC教授席位——人工智能、机器学习和健康数据分析方面的捐赠教席。
  • 英伟达AI先驱奖——表彰对该领域的基础性贡献。
  • CIFAR高级研究员——加拿大高等研究院机器与大脑学习项目的高级研究员职位。
  • 谷歌学术引用——总引用超过26.4万次,使他跻身全球被引用最多的AI研究者之列。

主要关系

  • 杰弗里·辛顿——多伦多大学的博士导师和频繁的合作者;2018年图灵奖得主,深度学习项目的主要架构师,Salakhutdinov帮助推动了该项目。2004年与辛顿的偶遇是Salakhutdinov职业生涯的决定性转折点。
  • Josh Tenenbaum——麻省理工学院在贝叶斯程序学习和一次性概念学习方面的合作者;他们连接认知科学和机器学习的工作产出了2015年《科学》杂志上关于人类水平概念学习的论文。
  • Ilya Sutskever——多伦多大学的同事和Dropout论文的合作者;后来成为OpenAI和Safe Superintelligence Inc.的联合创始人。
  • Nitish Srivastava——博士生,Dropout的主要共同发明人,其2014年JMLR论文成为机器学习历史上阅读最多的论文之一。
  • 杨志麟——卡内基梅隆大学博士生,XLNet的第一作者;是Salakhutdinov最有影响力的博士生之一。
  • Alex Krizhevsky——Dropout论文的合作者;也是辛顿的博士生,AlexNet的创造者,其贡献塑造了同一深度学习突破时代。
  • Eric Xing——卡内基梅隆大学机器学习系的同事;在概率模型和NLP方面的长期合作者。

个人风格

Salakhutdinov一直在理论基础到工程实施的广阔光谱上运作,这种广度即使在资深研究员中亦属罕见。他早期的职业贡献——DBN、DBM、Dropout——并非渐进式的改进,而是范式层面的干预,重塑了该领域对无监督预训练、正则化和生成模型的思考方式。在采访中,他强调学术自由和工业规模的互补性:他指出学术界提供了更大的自由度来处理长期问题,而工业研究之所以令人兴奋,是因为当一项核心AI技术得到开发时,它可以影响数百万用户。他在CMU的课程材料和公开教程讲座——包括在伯克利西蒙斯研究所的四部分深度学习教程——已在全球研究生教育中得到广泛应用。


参考资料