トーマス・ウルフ

Hugging Face の共同創業者兼最高科学責任者(Chief Science Officer)。Transformers ライブラリの生みの親であり、BigScience/BLOOM イニシアチブの設計者。過去10年にわたり、オープンソースAIの民主化において最も影響力のある人物である。


プロフィール

分野 詳細
国籍 フランス
現在の所属 Hugging Face(共同創業者兼最高科学責任者)
研究分野 オープンソースML基盤、大規模言語モデル、多言語AI、ロボティクス、AI for Science
博士号 統計物理学・量子物理学(ピエール・エ・マリー・キュリー大学(UPMC / ソルボンヌ大学))
個人ウェブサイト thomwolf.io
X / Twitter @Thom_Wolf
GitHub @thomwolf
Google Scholar scholar.google.com(58,000件以上の引用)

概要

Thomas Wolf は、オープンソースAIエコシステムの中核的インフラとなった Hugging Face の共同創業者兼最高科学責任者である。彼は Hugging Face Transformers ライブラリの第一著者であり、このライブラリは事実上すべての主要な事前学習モデルファミリーに対して、統一されたプロダクション品質の実装を提供し、世界中の応用NLP、画像認識、マルチモーダルAIにおけるデファクトスタンダードのインターフェースとなっている。彼は BigScience Workshop(2021–2022)を主導した。これは千名以上の研究者が参加した1年にわたる世界的な共同研究であり、その成果として、GPT-3 のパラメータ数を超える初のオープンライセンス大規模言語モデル BLOOM が生まれた。Wolf は Transformers 以外にも、Datasets、Diffusers、Accelerate、DataTrove、smolagents、LeRobot といったライブラリの創作または開発を主導し、世界中のAI実務者の大部分が使用するオープンソースツールキットを構築してきた。彼の経歴は異色である。物理学者としてキャリアをスタートし、5年間弁理士として活動した後、法律業務を通じて機械学習に出会い、コンピュータサイエンスの正式なバックグラウンドを持たないまま2016年に Hugging Face を共同創業した。にもかかわらず、彼は GitHub 史上最も使われているソフトウェアリポジトリの一つを構築し、会社の評価額を45億ドルにまで導いた。


生い立ちと教育

Wolf はフランスで生まれ育った。パリのフランス屈指の工学系グランゼコールであるエコール・ポリテクニークで理論物理学と数学の学部課程を修めた。

博士号(統計物理学・量子物理学)—— ピエール・エ・マリー・キュリー大学(UPMC / ソルボンヌ大学)
Wolf の博士研究は、量子場理論と統計的場理論を扱った。博士課程では物理学の教育も担当し、後に懐かしく思うと語る経験をしたほか、ローレンス・バークレー国立研究所で研究インターンとして、レーザープラズマ加速器からのX線生成に取り組んだ。数学、統計力学、実験物理学を橋渡しする博士課程の学際的な性格は、後に機械学習の多くの手法が本質的に統計物理学をリブランディングしたものに過ぎないと彼が気づいた際、予想外の形で役立つことになる。

法学士号 —— パンテオン・ソルボンヌ大学
博士号取得後、Wolf は第二の学問の道を進み、パリで法学士号を取得した。

知財学 —— 国際知的財産権研究センター(CEIPI)
Wolf はさらに、フランスの知的財産専門機関である CEIPI で知的財産法を学び、欧州弁理士として活動するために必要な資格を取得した。


経歴

ローレンス・バークレー国立研究所 —— 研究インターン

博士課程在籍中、Wolf は米国のローレンス・バークレー国立研究所でインターンとして、レーザープラズマ物理学に関する研究を行った。このアメリカの研究文化と国際的な学術環境への初期の接触は、後の大西洋をまたいだキャリアの先駆けとなった。

Cabinet Plasseraud —— 弁理士(パリ、約2009年~2015年)

博士号と法学の学位を取得した後、Wolf はパリの大手知的財産権事務所である Cabinet Plasseraud に入所し、約5年間欧州弁理士として活動した。彼のクライアントポートフォリオは主にディープラーニング、機械学習、AI関連のスタートアップ企業で構成されており、ニューラルネットワーク手法の初期の商業展開を観察するという異例の視点を得た。彼はAIへの方向転換を「部分的には偶然」と表現している。テクノロジー企業に知的財産に関する助言をする中で、その根底にある数学に触れ、それが馴染みのある統計物理学を新しい表記法で記述したものにすぎないと認識したのである。この認識が契機となり、弁理士業務と並行して、書籍やオンラインコースを通じて独学で機械学習を学び始めた。

Hugging Face —— 共同創業者兼CSO(2016年~現在)

2016年、Wolf は Clément Delangue と Julien Chaumond とともに、ニューヨーク市で Hugging Face を共同創業した。同社は当初、ティーンエイジャーを対象としたコンシューマー向けチャットボットアプリケーションとしてスタートした。社名は :hugs: 絵文字に由来し、コミュニティが自然発生的に採用し、その後会社のアイデンティティの恒久的な要素となった。チャットボットはある程度の成功を収めたが、転機は社内で開発していたNLPツールをチームがオープンソース化したという付随的な決定によるものだった。開発者コミュニティの反応は即座に、そして圧倒的なものだった。Wolf は技術面でのインフラへの方向転換を主導し、Transformers ライブラリが誕生した。

Transformers ライブラリ(2019年~現在)
Wolf は Hugging Face Transformers ライブラリを設計・リリースし、BERT、GPT-2、T5、RoBERTa、そしてその後登場した数百もの事前学習モデルアーキテクチャに対して、統一された PyTorch、TensorFlow、JAX 実装を提供した。Transformers登場以前は、各モデルを扱うには元の研究コードを読み解く必要があり、それらは不完全で、一貫性のないドキュメントであり、特定のフレームワークに依存していることが多かった。Transformers はインターフェースを統一し、APIを標準化し、モデルのホスティングと共有のための Hugging Face Hub と組み合わせた。このリポジトリは GitHub で数百万のスターを獲得し、事前学習モデルを使用する学術的な機械学習論文の大半でインポートされている。「AI」と呼ばれるものの多くを支える基盤として機能している。

Datasets ライブラリ(2020年~現在)
Wolf は Datasets ライブラリの共同開発者であり、統一されたAPI、Apache Arrow による高速読み込み、Hugging Face Hub との統合により、数千もの機械学習データセットへの標準化されたメモリ効率の良いアクセスを提供した。これにより、データセットの入手と前処理の負荷をわずか数行のコードにまで削減し、応用ML研究における再現性とアクセスに関する大きなボトルネックを解消した。

BigScience Workshop と BLOOM(2021年~2022年)
Wolf は BigScience Workshop を主導した。これは2021年4月に彼が組織した1年にわたるオープンな科学コラボレーションであり、最終的に60カ国以上から千名以上の研究者が参加し、GENCI と IDRIS(フランス国立スーパーコンピューティングセンター)から多大な計算リソースの提供を受けた。プロジェクトの成果は BLOOM である。これは1760億パラメータの多言語言語モデルで、46の自然言語と13のプログラミング言語で学習され、2022年7月に責任あるAIライセンス(RAIL)の下でリリースされた。リリース時点で BLOOM は最大のオープンにアクセス可能な言語モデルであり、BigScience のプロセスは、フロンティアAIのオープンな共同開発のテンプレートを確立し、その後の Falcon、Mistral、Llama などのリリースに影響を与えた。

Diffusers、Accelerate、DataTrove、smolagents(2022年~現在)
Wolf は Hugging Face のライブラリエコシステムを拡大し続けた。Diffusers(2022年)は拡散モデルの推論と学習のための標準ライブラリとなった。Accelerate はハードウェアに依存しない分散学習の抽象化を提供した。DataTrove(2024年)は事前学習のための大規模データ処理に対応した。smolagents(2024年~2025年)は軽量なAIエージェントを構築するためのフレームワークを提供した。

LeRobot とロボティクスへの転換(2024年~現在)
2024年、Wolf は Hugging Face のオープンソース活動のかなりの部分をロボティクスに向け始め、Transformers の成功例を明確に踏襲した。すなわち、オープンなインフラを構築し、データセットをリリースし、ハードウェアへの参入障壁を下げるというものである。オープンソースのロボット学習ライブラリ LeRobot は、リリースから数ヶ月で GitHub 上で最も広く使われるオープンロボティクスプラットフォームとなった。2025年4月、Hugging Face は Pollen Robotics を買収し、オープンソースハードウェア(ヒューマノイドロボット Reachy 2)をソフトウェアスタックに追加した。Wolf はロボティクスへの賭けについて、「ちょうつい数年前に大規模言語モデルで私たちがいたのと同じ変曲点に、物理AIは今ある」と述べている。Wolf が LeRobot とともに推進したコンパニオンハードウェアプロジェクトである SO-100 ロボットアームは、明示的に100ドル未満のコストを目指して設計されており、民主化の精神をハードウェアレベルで具現化している。

Hugging Face Hub とプラットフォームの成長
CEOの Clément Delangue、CTOの Julien Chaumond とともに、Wolf の科学的指導の下、Hugging Face はコンシューマーアプリから世界最大の公開AIモデル、データセット、デモのリポジトリへと成長した。Hub は数百万のモデルとデータセットをホストし、700万人以上のユーザーにサービスを提供し、その評価額は45億ドル(2023年シリーズDラウンド)に達する。2025年時点で従業員数は約250名である。


主な貢献

  • Hugging Face Transformers —— 断片化された事前学習モデルの状況を統一された、メンテナンスされ、文書化された単一のPythonパッケージにまとめたライブラリ。現在では世界的にニューラル言語、画像、マルチモーダルモデルを扱うためのデフォルトのインターフェースとなっている。そのオープンアクセスによるリリースにより、博士号や企業予算がなくても最先端のNLPが利用可能になった。

  • BLOOM と BigScience Workshop —— Wolf はフロンティアLLM(1760億パラメータ、46言語)の初の大規模オープン共同開発を組織・主導し、モデル成果物と、コミュニティ主導による大規模オープンサイエンスのためのプロセステンプレートの両方を確立した。

  • Hugging Face Hub —— Wolf が構築を支援した、モデル、データセット、デモを共有するためのプラットフォーム。世界中のAI実務者コミュニティの中核的インフラとして機能し、「機械学習のためのGitHub」と称されている。

  • Datasets ライブラリ —— メモリ効率と再現性を第一に設計された統一データセットアクセス。大規模なストレージや計算インフラを持たない研究者や開発者にとって、ML研究における主要な実用的障壁を大幅に低減した。

  • Diffusers —— 拡散モデルの推論と学習のための標準的なオープンソースライブラリ。Stable Diffusion の派生モデルやその後の画像・音声生成モデルの広範な採用を可能にした。

  • LeRobot —— Transformers がNLPにもたらしたのと同じ、アクセスしやすくコミュニティ主導のインフラを物理AIにもたらすために設計されたオープンソースのロボット学習ライブラリ。初年度に主要なオープンロボティクスプラットフォームとなった。

  • FineWeb と「ウルトラスケールプレイブック」 —— FineWeb はLLM事前学習のための高品質なオープンデータセット(15兆トークン)。ウルトラスケールプレイブックは、大規模モデルを効率的に学習するためのオープンな教育リソース。どちらも、成果物だけでなく、フロンティアAIの背後にある実践的な知識をリリースするという Wolf の哲学を象徴している。

  • 『Transformersによる自然言語処理』(オライリー、Lewis Tunstall、Leandro von Werra との共著) —— Transformerベースのモデルを扱う実務者向けのリファレンス教科書。コースや業界の開発者によって広く使用されている。

  • smolagents —— AIエージェントを構築するための軽量フレームワーク。テキストを予測するだけでなく、世界の中で行動するAIに対する Wolf の現在の焦点を反映している。


受賞と認知

  • 世界経済フォーラム —— 講演者および参加者。オープンAIと技術の民主化に関する主要な声として認められている。
  • TED Talk(2025年3月) —— オープンソースAIを提唱するTEDトークを実施。
  • Google Scholar 引用 —— 58,000件以上の引用。主に Transformers ライブラリ論文、BLOOM論文、および BigScience データセット論文による。伝統的な機械学習の博士号を取得していない者としては異例の引用プロファイルである。

主要な関係性

  • Clément Delangue —— Hugging Face のCEO兼共同創業者。Delangue がビジネスと戦略をリードする一方、Wolf は科学的な方向性をリードする。両者の補完的な役割が、商業プラットフォームとオープンサイエンス機関という会社の二重のアイデンティティを定義している。Delangue は Wolf の最も親しい職業上のコネクションの一人である。
  • Julien Chaumond —— CTO兼共同創業者。創業時チームの第三の柱であり、Wolf が科学的およびオープンソースのアジェンダを推進する一方で、エンジニアリングアーキテクチャを担当している。
  • Yann LeCun —— Wolf の最も著名なプロフェッショナルフォロワーの一人。Meta における LeCun のオープンAI開発への提唱は、Hugging Face における Wolf の哲学と密接に一致しており、両者はクローズドなAI開発に対する業界で最も目に見えるオープンソースのカウンターウェイトを代表している。
  • Rémi Cadène —— 元 Tesla Optimus の科学者であり、Hugging Face に加わり LeRobot イニシアチブを主導。ロボティクスへの転換における Wolf の主要な協力者である。
  • BigScience コミュニティ —— Wolf の組織的指導の下、千名以上の研究者が BLOOM を共同創造した。この関係は、伝統的な研究室を率いるのではなく、分散した科学労働力を組織するという、彼の異例の科学的コラボレーションモードを定義している。

人物像

Wolf の経歴は、通常のAIの伝記に抵抗する軌跡をたどっている。理論物理学者、次いで弁理士、そして独学の機械学習エンジニア、そしてオープンソース基盤アーキテクトへ。彼は法律からMLへの移行について、ディープラーニングの数学的基盤が自身の既に知っていた統計物理学であることに気づいたことだと述べている。これは、一見無関係に見える領域間で構造的な類似性を見出す習慣を示すパターン認識行為である。オープンサイエンスへの彼のコミットメントは修辞的なものではない。彼は一貫して、計画中のリリースに関する論文ではなく、動作しメンテナンスされたコードとデータをリリースすることを選択し、最大のイニシアチブ(BigScience、FineWeb、LeRobot)を独自の研究プログラムとしてではなく、協力的なコミュニティの取り組みとして組織してきた。彼の Digg バイブプロフィール(主に「情報提供」と「希望に満ちている」であり、「挑発的」は稀)は、議論でポイントを稼ぐことよりも、自分が構築しているものを共有することに関心があるコミュニケーターであることを捉えている。ただし、クローズドな AI 開発に関する自身の見解については率直に述べてきた。博士課程の指導教官時代の教育が恋しいと述べており、彼のブログ記事、教育用プレイブック、書籍の共著は、構築するだけでなく説明することへの継続的な並行したコミットメントを反映している。


参考文献