德裔美籍自然语言处理先驱,将神经网络引入自然语言处理领域,发明了GloVe词向量和提示工程的基础思想,并随后创办了一系列AI公司——MetaMind、You.com和Recursive——均致力于让AI更广泛地可及或更强大。
个人简介
| 出生 | 1983年,德国德累斯顿(原东德) |
| 国籍 | 德裔美籍 |
| 现任机构 | Recursive(CEO兼联合创始人);You.com(CEO兼创始人);AIX Ventures(创始人兼管理合伙人) |
| 研究领域 | 自然语言处理、深度学习、词表示、多任务学习、循环神经网络、AI搜索、自我改进AI系统 |
| 博士导师 | 克里斯托弗·曼宁;吴恩达 |
| 博士论文 | 《面向自然语言处理和计算机视觉的递归深度学习》(斯坦福大学,2014年) |
| 网站 | socher.org |
| X / Twitter | @RichardSocher |
| 谷歌学术 | Richard Socher — 超过180,000次引用 |
概述
Richard Socher是一位德裔美籍AI研究员和连续创业者,被广泛认为是将深度神经网络引入自然语言处理领域的先驱——当时研究界对此方法深表怀疑。他在斯坦福大学与克里斯托弗·曼宁和吴恩达共同完成的博士及早期博士后工作,将循环神经网络确立为一种用于组合语言理解的实用架构,引入了斯坦福情感树库,并最终催生了GloVe——多年来最广泛使用的词嵌入方法。在创立MetaMind(2016年被Salesforce收购)并担任Salesforce首席科学家之后,他合著了decaNLP论文,该论文提出了将所有NLP任务转化为问答任务的思想,对提示工程范式产生了影响。他于2020年联合创立了You.com,作为首个集成语言模型的搜索引擎,并于2026年推出了Recursive公司,致力于追求递归自我改进的超智能,该公司在成立数月内以46.5亿美元的估值筹集了6.5亿美元。他在谷歌学术上拥有超过18万次引用,并且是少数几位在三个不同的NLP十年中都获得第一作者荣誉的研究员之一。
早期生活与教育
Socher于1983年出生在当时属于东德的德累斯顿,在统一后于一个拥有浓厚数学和技术文化的城市中长大。他形容自己的道路是寻找他两大爱好——数学和语言——之间不可能的交集,他最终在计算语言学和NLP中找到了这个交集。他大约在2003年开始在德国学习语言计算机科学,之后前往美国攻读博士学位。
在斯坦福大学,Socher在克里斯托弗·曼宁(顶尖计算语言学家,指导斯坦福NLP小组)和吴恩达的共同指导下完成了计算机科学博士学位。他的论文《面向自然语言处理和计算机视觉的递归深度学习》(2014年)是第一篇将树结构神经网络作为语言理解通用架构进行综合处理的论文。该论文于2014年获得了斯坦福大学的亚瑟·L·塞缪尔最佳计算机科学博士论文奖。之后,他担任了斯坦福大学计算机科学系的兼职教授,并教授了CS224n课程(自然语言处理与深度学习),该课程通过其公开讲座录像成为全球观看次数最多的NLP课程系列之一。
他被授予德累斯顿工业大学(他的出生城市的旗舰理工大学)荣誉博士学位,以表彰他对AI的贡献。
职业生涯
斯坦福NLP小组——博士研究(2010–2014)
Socher的博士时期正值几乎所有NLP研究都使用统计和基于规则的方法,而神经网络被认为不适合处理语言的时期。从2010年开始,他陆续在ICML、EMNLP、NIPS和ICLR等会议上发表论文,证明了循环神经网络——一种网络结构镜像句子句法解析树的网络——能够学习在情感分析、释义检测、场景解析和语义角色标注等任务上优于最先进统计方法的组合表示。
2013年,他引入了斯坦福情感树库,这是一个在解析树的每个节点上标注情感而非仅在句子层面的数据集,从而能够细致研究情感如何跨从句组合。附带的循环神经张量网络模型在该数据集上设立了基准并被广泛采用。该2013年的论文在十年后的2023年获得了ACL时间检验奖。
2014年,他与Jeffrey Pennington和克里斯托弗·曼宁在EMNLP上发表了GloVe。GloVe从全局共现统计而非局部上下文窗口学习词嵌入,并在标准基准测试上多年优于Word2Vec。它成为NLP研究中默认的词表示方法,直到上下文嵌入(ELMo、BERT)大约在2018年取代了它。
MetaMind——CEO兼CTO(2014–2016)
博士毕业后不久,Socher创立了MetaMind,一家位于帕洛阿尔托的AI初创公司,旨在构建使非专业公司能够使用神经网络训练的工具。MetaMind提供了一个用于训练NLP和计算机视觉模型的云平台,并为包括医疗和客户服务在内的行业构建了企业级NLP应用。该公司于2016年被Salesforce收购。
Salesforce——首席科学家兼EVP(2016–2020)
作为Salesforce的首位首席科学家兼执行副总裁,Socher将Salesforce研究部门从一个小组建设成为世界上最活跃的工业NLP研究团队之一。他领导的团队在ICML、NeurIPS、ICLR和ACL等会议上发表论文,并在一系列有影响力的应用系统之外还进行了有竞争力的学术研究。
这一时期的关键研究成果包括CoVe(上下文化词向量,NeurIPS 2017,与Bryan McCann、James Bradbury和Caiming Xiong合作),该成果在ELMo之前就证明了从神经机器翻译模型迁移的表示能够提升下游NLP任务的性能——这是NLP迁移学习的早期展示。Salesforce团队还发表了关于抽象式摘要(深度强化模型,ICLR 2018)和AI经济学家(一个用于研究税收政策的强化学习框架)的论文。
Salesforce时期的巅峰成果是《自然语言十项全能》(decaNLP,2018年,与Bryan McCann合作),该论文提出将十个不同的NLP任务——问答、翻译、摘要、情感分析、语义解析等——统一视为基于上下文的问答。该论文引入了多任务问答网络,并论证了单一模型架构可以在没有任务特定模块的情况下处理通用语言理解。这种将语言任务统一在问答界面下,以及以正确方式提示的模型可以在任务间迁移的框架,被OpenAI的GPT-2论文直接引用,并被认为是现代提示工程范式的先驱。
You.com——联合创始人兼CEO(2020年至今)
2020年,Socher和Bryan McCann联合创立了You.com,于2021年公开上线,成为首个将大型语言模型直接集成到搜索界面中的搜索引擎,比谷歌、微软等公司类似举措早了大约两年。该公司的初始论点是,将LLM输出与实时搜索检索相结合是减少幻觉的最实际路径——这一立场随后成为了共识。You.com在多轮融资中筹集了9900万美元(包括来自英伟达、Salesforce Ventures和DuckDuckGo的投资),估值达到约15亿美元。该公司从消费者搜索转向企业及开发者API,提供支撑OpenAI、亚马逊、阿里巴巴等主要AI开发者应用的网络搜索、内容提取、研究和金融研究API。
AIX Ventures——创始人兼管理合伙人(2021年至今)
在经营You.com的同时,Socher创立了AIX Ventures,一家专注于AI初创公司的风险投资公司。该公司已进行了超过90项投资。Socher的几位前博士生和实习生后来创办了著名的AI公司;他指出,至少有四位他的门徒领导着估值数十亿美元的公司,包括Hugging Face和Commure的联合创始人。
Recursive——联合创始人兼CEO(2026年至今)
2026年初,Socher与七位联合创始人共同创立了Recursive(也称为Recursive Superintelligence):Tim Rocktäschel、Tim Shi、Josh Tobin、Caiming Xiong、Jeff Clune、Yuandong Tian和Alexey Dosovitskiy。该公司的既定使命是构建递归自我改进的超智能——能够从AI研究本身开始自主跨领域发现新科学知识的AI系统,并计划扩展到物理学、化学和临床前生物学。Socher将这一抱负描述为使AI之于生物学如同微积分之于物理学。Recursive在由GV(前谷歌风投)和Greycroft领投的一轮融资中以46.5亿美元的估值筹集了6.5亿美元,英伟达和AMD的风险投资部门也参与了投资。顾问和附属研究人员包括Peter Norvig、Jeffrey Pennington和Chris Cummins。
关键贡献
- 面向NLP的循环神经网络(2010–2014)——从ICML 2011(最佳论文奖)开始的一系列论文,将树结构递归神经网络确立为用于组合语言理解的实用架构,证明了神经网络能够在解析、情感、场景理解和语义角色标注等方面匹配或超越统计方法。这一系列工作是现代深度学习NLP时代的起点。
- 斯坦福情感树库(SST)和RNTN(EMNLP 2013)——创建了首个大规模数据集,在成分分析树的每个节点上标注情感,使得能够训练模型推理情感如何在语言结构中组合。SST已成为细粒度情感分析的标准基准。获得了ACL 2023时间检验奖。
- GloVe——全局向量词表示(EMNLP 2014)——与Jeffrey Pennington和克里斯托弗·曼宁合作。一种无监督词嵌入方法,通过全局共现矩阵分解而非局部上下文进行学习,在发表时持续优于Word2Vec。GloVe成为NLP研究中约四年的默认词表示方法,其预训练向量仍然被广泛分发和使用。
- CoVe——上下文化词向量(NeurIPS 2017)——与Bryan McCann、James Bradbury和Caiming Xiong合作。证明了来自神经机器翻译模型的编码器表示迁移到其他NLP任务能够提升性能——这是NLP中迁移学习的首批实际演示之一,也是ELMo和BERT的前身。
- decaNLP / 自然语言十项全能(2018)——与Bryan McCann合作。引入了将所有NLP任务视为问答的多任务问答框架,训练了一个跨十个任务且无需任务特定参数的单一模型,并提出了基于提示的任务规范。该论文被GPT-2论文引用,并被公认为指令调优和提示工程的概念先驱。
- CS224n——深度学习NLP——Socher设计并教授的斯坦福课程,自2016年起提供公开录像,已培养了全球大量的NLP深度学习从业人员。多代研究人员将其视为进入该领域的起点。
- You.com API平台——首个将语言模型商业集成到搜索引擎中;转向被OpenAI和亚马逊等主要AI开发者采用的企业搜索和研究API,提供了将LLM输出与实时网络内容相结合的检索基础设施。
奖项与认可
- ICML最佳论文奖(2011年)——表彰在循环神经网络用于NLP方面的早期工作,当时在一个对神经方法持怀疑态度的社区中这是一个备受争议的结果。
- 微软博士生奖学金——在斯坦福博士学习期间获得。
- 斯坦福大学亚瑟·L·塞缪尔最佳计算机科学博士论文奖(2014年)——因《面向自然语言处理和计算机视觉的递归深度学习》获得。
- PAMI Longuet-Higgins奖——因ImageNet论文(斯坦福期间合著)获得,表彰对计算机视觉的基础性贡献。
- 世界经济论坛青年全球领袖(2016年)——由世界经济论坛授予。
- 德累斯顿工业大学荣誉博士学位(Dr.-Ing. h.c.)——由其出生城市的理工大学授予,表彰对AI的贡献。
- ACL时间检验奖(2023年)——因2013年EMNLP情感树库论文获得,十年后因其对该领域的持久影响而获认可。
- 《时代》杂志AI百大人物(2023年)——入选《时代》杂志首届AI领域最具影响力100人名单。
- 世界经济论坛技术先锋(2024年)——因You.com对AI驱动的信息获取的贡献而获认可。
关键关系
- 克里斯托弗·曼宁——斯坦福博士导师;美国顶尖计算语言学家,Socher递归神经网络研究发展的学术家园;GloVe和许多基础NLP论文的合著者。Socher的工作用神经方法扩展并转变了曼宁的概率NLP传统。
- 吴恩达——博士联合导师;提供了深度学习视角和大规模机器学习基础设施思维,为Socher的工作奠定了基础;合著了几篇早期论文,并将Socher与谷歌大脑网络联系起来。
- Bryan McCann——Socher职业生涯中最密切的研究合作伙伴;在Salesforce研究院合著了CoVe和decaNLP,并联合创立了You.com。McCann与Socher的合作定义了Salesforce研究院对现代LLM范式最有影响力的产出。
- Jeffrey Pennington——GloVe合著者;后来成为谷歌大脑的高级研究员;现在是Recursive的联合创始人,延续了跨越三家公司、十五年的合作。
- Caiming Xiong——Salesforce研究院资深人物,CoVe及后续工作的合著者;现在是Recursive的联合创始人。
- Tim Rocktäschel——伦敦大学学院教授兼谷歌DeepMind研究员;为Recursive带来了开放式学习和神经符号AI方面的专业知识,作为联合创始人。
- Jeff Clune——进化计算和开放式研究的研究员(曾任职于OpenAI、UBC);Recursive的联合创始人;他的开放式学习研究与Recursive的自我改进议程直接一致。
个人风格
Socher的职业生涯特点是愿意在非主流观点成为主流之前就进行倡导——2010年的NLP神经网络,2020年的LLM集成搜索,2026年的递归自我改进——然后围绕它们创办公司,而非仅仅发表论文。他的知识禀赋是跨学科的:他进入NLP领域是因为它位于数学和语言的交叉点,并且他始终在视觉、语言、生物学和经济学等多个领域工作,而不是缩小到一个专业领域。他作为导师尤为多产;他的多位博士生和实习生创办了重要的AI公司。在研究之外,他以同样的系统性强度追求动力伞航空和探险摄影——他来自冰岛、纳米比亚和美国国家公园的航拍作品集拥有自己的粉丝群体。他将自己的工作座右铭描述为„更好,更好,永无止境。“
参考文献
- 个人网站:socher.org
- 谷歌学术:scholar.google.com
- You.com文章:you.com/resources
- Recursive 6.5亿美元融资:siliconangle.com
- 斯坦福CS224n:cs224n.stanford.edu
- DLD访谈(2024年):keenon.substack.com
- The Gradient Podcast第64期:thegradientpub.substack.com
- Digg简介:digg.com/u/x/richardsocher