GPT-J と LAION データセットの開発を共同主導し、2019 年に計算効率に最適な単一エポック学習に関する最初の実証的議論を発表し、Google Research で sparse upcycling を共同提案し、研究コミュニティで最も影響力のある AI 論文共有アカウントの 1 つを構築した日本人 AI 研究者。
プロフィール
| 国籍 | 日本 |
| 現在の所属機関 | 独立研究員(博士号取得後) |
| 研究分野 | 大規模言語モデル、スケーリング則、混合専門家モデル、オープンソース AI、生成 AI、画像-テキストデータセット |
| 博士論文 | 機械学習博士号(ジョージア工科大学、2023 年) |
| ブログ | arankomatsuzaki.wordpress.com |
| X / Twitter | @arankomatsuzaki(英語); @arank_jp(日本語) |
| GitHub | AranKomat |
| Google Scholar | Aran Komatsuzaki |
概要
小松崎あらん (Aran Komatsuzaki) は、2023 年にジョージア工科大学で機械学習の博士号を取得した日本人 AI 研究者であり、2017 年から生成 AI 研究に積極的に取り組み、Transformer デコーダーアーキテクチャの能力に焦点を当てています。彼は、2021 年に GPT-J の開発を共同主導したことで最もよく知られています。GPT-J は、60 億パラメータのオープンソース言語モデルであり、当時、GPT-3 のパフォーマンスに匹敵する最初の公開モデルでした。また、LAION-400M の作成を共同主導しました。これは、オープンソースの大規模画像-テキストデータセットとしては初めてのものであり、Stable Diffusion や Google の Imagen をトレーニングするための基盤インフラストラクチャとなりました。その 1 年前の 2019 年には、„One Epoch Is All You Need“ というプレプリントを発表し、拡大されたデータセットを使用した単一エポック学習の計算効率を実証しました。これは、後に「計算効率最適」スケーリングとして知られるようになり、2022 年の Chinchilla 論文で形式化された、初期の、そしてほとんど見過ごされてきた議論でした。2022 年の Google Research でのインターンシップ中に、彼は sparse upcycling を共同提案しました。これは、事前学習済みの高密度モデルを低コストで混合専門家モデル (Mixture-of-Experts) アーキテクチャに変換するための手法です。研究活動と並行して、彼は体系的な論文共有を通じて 10 万人以上のフォロワーを持つソーシャルメディアでの存在感を構築し、2024 年の UCSB の研究では、彼の影響力(@_akhaliq と共に)が AI コミュニティ全体の引用パターンと研究動向に及んでいることが文書化されました。
生い立ちと教育
小松崎は日本人で、大学院進学のためにアメリカ合衆国に移住し、ジョージア工科大学の機械学習博士プログラム (ML@GT) に入学しました。彼は 2023 年に博士号を取得しました。博士指導教官は、入手可能な情報源では公に確認されていません。彼はバイリンガルで英語と日本語のプレゼンスを維持しており、英語圏の国際的な AI 研究コミュニティと日本の AI コミュニティの両方との関わりを反映しています。
経歴
独立研究と初期のスケーリング則 (2017–2020)
小松崎は、最初の GPT 論文の少し前の 2017 年に生成 AI 研究への関与を開始し、当初から Transformer デコーダーの全能力を探求することに焦点を当てていたと述べています。彼の最も重要な初期の貢献は、プレプリント „One Epoch Is All You Need“ (arXiv:1906.06669、2019 年 6 月) でした。この論文は、多くのエポックにわたって小さなデータセットでニューラルネットワークをトレーニングする標準的な手法(強力な正則化と任意のモデルサイズを伴う)は、計算の無駄であると主張しました。この論文は、データセットを拡大し、1 エポックまたは数エポックのみトレーニングし、正則化を緩和し、パラメータ数とトレーニングトークンを計算予算の関数として共同で最適化することにより、トレーニング計算を大幅に削減できることを実証しました。これは、3 年後に広く「計算効率最適」または „Chinchilla“ スケーリングとして知られるようになるものに対する、最初の経験的に根拠付けられた議論であり、小松崎はこのプレプリントが主要な原理を実証した最初のものであると述べています。
EleutherAI — リード研究者 (2020–2023)
小松崎は、2020 年に結成された草の根のボランティア研究者集団である EleutherAI の初期の中心メンバーでした。EleutherAI の最初の主要な成果は The Pile でした。これは、GitHub、PubMed Central、FreeLaw、Stack Exchange など、多様なソースから収集された 825 ギガバイトのテキストコーパスであり、GPT-3 のトレーニングデータの多様性を改善するように設計されました。小松崎は、データセットとそのキュレーションの理論的根拠に貢献しました。
GPT-J (2021 年). 2021 年 5 月、EleutherAI は GPT-J-6B をリリースしました。これは、Ben Wang の mesh-transformer-jax フレームワークを使用して The Pile でトレーニングされた 60 億パラメータの自己回帰言語モデルです。小松崎は開発を共同主導し、実験設計とテクニカルブログ記事に貢献しました。このモデルは、ゼロショットおよび少数ショットのベンチマークで GPT-3 のパフォーマンスに匹敵する最初の公開言語モデルであり、オープンライセンスの下で完全な重みとともにリリースされました。これは、その時代で最も広くダウンロードされたオープンソース言語モデルの 1 つとなり、ヘルスケア、法律、科学アプリケーション向けの多くのファインチューニングモデルのベースとして機能しました。
LAION-400M (2021 年). 並行して、小松崎は LAION-400M (Large-scale Artificial Intelligence Open Network) の作成を共同主導しました。これは、インターネットのより広範なクロールから CLIP 類似度スコアを使用してフィルタリングされた 4 億の画像とテキストのペアからなるデータセットです。2021 年後半にリリースされたこのデータセットは、CLIP クラスのモデルをスクラッチからトレーニングするために必要な規模での最初のオープンソース画像-テキストデータセットでした。これは、Stable Diffusion (Stability AI) のトレーニングに直接使用され、Google の Imagen の基盤となるトレーニングインフラストラクチャとして引用されました。その後の LAION-5B リリースでは、データセットが 58.5 億ペアに拡張されました。
プロンプトエンジニアリング — „Unreal Engine のトリック“ (2021 年 5 月). 2021 年 5 月 31 日、小松崎は、画像生成プロンプトに „Unreal Engine“ というフレーズを追加すると、VQGAN+CLIP 画像合成からの出力の画質が劇的に向上することを示すツイートを投稿しました。このツイートは、画像生成のためのプロンプトエンジニアリングの最も初期のバイラルなデモンストレーションの 1 つとなり、AI アートコミュニティ全体で広く再現され、テキストから画像へのモデルにおけるキーフレーズベースの品質向上の概念を普及させたとされています。彼は、体系的な領域としてのプロンプトエンジニアリングの最も初期の支持者の 1 人であると述べています。
Google Research — 研究インターン (2022 年夏)
2022 年の Google Research でのインターンシップ中、小松崎は sparse upcycling を共同提案しました。これは、„Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints“ (ICLR 2023) として、James Lee-Thorp、Carlos Riquelme、Basil Mustafa、Joshua Ainslie、Yi Tay、Mostafa Dehghani、Neil Houlsby と共に発表されました。この手法は、既存の高密度 Transformer チェックポイントのフィードフォワード層を複製してルーティングすることにより、スパースに活性化される混合専門家モデル (MoE) を初期化します。アップサイクルされたモデルは、元の事前学習計算予算の約 50% のみを使用して、SuperGLUE および ImageNet ベンチマークで高密度の対応物よりも大幅に優れたパフォーマンスを達成し、同じ計算でスクラッチからトレーニングされた MoE モデルよりも優れていました。Sparse upcycling はその後、計算効率の高いモデルスケーリングの標準的な手法として採用され、その後の数十の MoE およびモデル効率に関する論文で引用されています。
ジョージア工科大学博士号取得 (2023 年–現在)
小松崎は 2023 年にジョージア工科大学で博士号を取得しました。彼の自己紹介ページ(最終更新 2024 年 8 月)では、学位取得後の現在の所属機関は特定されていません。彼は積極的な研究とソーシャルメディアへの関与を維持し、オープンソース AI コミュニティへの参加を続けています。
主な貢献
-
„One Epoch Is All You Need“ (arXiv, 2019) — 計算効率最適トレーニングに関する最初に発表された実証的議論:適切なサイズのモデルとトレーニングトークン数を使用して大規模データセットで単一エポックトレーニングを行うと、強力な正則化を伴う複数エポックトレーニングの一般的な手法と比較して、計算の無駄が大幅に削減されることを実証。Hoffmann ら (2022) の正式なスケーリング則フレームワークを 3 年先取り。
-
GPT-J-6B (EleutherAI, 2021) — GPT-J の開発を共同主導。これは、公開ベンチマークで GPT-3 に匹敵する最初のオープンソース言語モデルであり、完全な重みとともにリリース。オープンソース LLM エコシステムの基盤インフラストラクチャとなり、さまざまなドメインにわたるダウンストリームのファインチューニング研究を可能に。
-
LAION-400M および LAION-5B (2021) — オープンソースの大規模画像-テキストデータセットの最初の作成を共同主導。Stable Diffusion のトレーニングデータとして機能し、生成画像 AI 分野に基礎的なデータインフラストラクチャを提供。
-
Sparse Upcycling (ICLR 2023) — 事前学習済みの高密度 Transformer チェックポイントを、元の事前学習計算コストの約 50% でスパースに活性化される混合専門家モデルに変換する方法を共同提案。スクラッチから MoE モデルをトレーニングするコストをかけずに、モデル容量の継続的な拡大を可能に。
-
„Unreal Engine のトリック“ (2021 年 5 月) — 画像生成プロンプトに „Unreal Engine“ を追加すると出力品質が劇的に向上することを示すバイラルツイート。テキストから画像へのモデルに対するプロンプトエンジニアリングの最も初期の広く再現されたデモンストレーションの 1 つであり、キーフレーズベースのプロンプトチューニングの普及に貢献。
-
AI 論文共有とコミュニティへの影響 — X/Twitter での体系的な毎日の論文共有を維持し、10 万人以上のフォロワーを獲得。2024 年の UCSB の研究 (arXiv:2401.13782) で、@_akhaliq と並んで、AI 研究コミュニティ全体の引用パターンと研究動向に測定可能な影響を与えたことが文書化。
受賞と表彰
- ICLR 2023 — Sparse Upcycling が国際学習表現会議で採択。
- 文書化されたコミュニティへの影響 — 2024 年の UCSB の研究で、@_akhaliq と共に、最も影響力のある AI 論文共有アカウントの 1 つとして指名され、引用動向に測定可能な影響を与えた。
- GPT-J の引用と採用 — GPT-J は 2021〜2022 年の最もダウンロードされ引用されたオープンソース言語モデルの 1 つとなり、ヘルスケア、法律、科学 NLP 研究全体でベースモデルとして採用。
主な関係
- Ben Wang — EleutherAI の共同開発者であり、Google TPU Research Cloud ハードウェア上で mesh-transformer-jax を使用した GPT-J の主要実装著者。公式引用では Wang-Komatsuzaki の GPT-J クレジットが共有されています。
- Connor Leahy — EleutherAI の共同設立者。オープンソース LLM インフラストラクチャのビジョンが、LAION と GPT-J が構築された状況を形成した創設グループの一員。
- Christoph Schuhmann — LAION の共同設立者。LAION-400M および LAION-5B の背後にある組織的およびコミュニティ調整の取り組みを主導。
- James Lee-Thorp — Google Research の共著者であり、sparse upcycling プロジェクトの共同リーダー。
- Yi Tay、Mostafa Dehghani、Neil Houlsby — sparse upcycling に関する Google Research の共著者。ViT、MLP-Mixer、および関連アーキテクチャを担当する同じチューリッヒ地域のチームの一員。
- @_akhaliq (Khalid Al-Khatib) — UCSB 影響力調査で、もう 1 つの主要な AI 論文共有アカウントとして共同特定。2 人は、どの AI 論文が研究コミュニティで注目を集めたかを形成したとして頻繁に一緒に引用されます。
個人的なスタイル
小松崎は、„Transformer デコーダーの能力をその誕生の時点から探求してきた“ と述べています。これは正確な自己評価です。彼の 2019 年の単一エポックスケーリング論文は、スケーリング則に対するコミュニティの広範な認識に先行し、彼の GPT-J の研究は、ほとんどのオープンソース LLM 運動に 1 年先駆けていました。彼は、技術研究(査読付き論文、データセット構築、アーキテクチャの革新)とコミュニティキュレーション(毎日の論文共有、影響力のあるツイート)を同時に行い、研究がどのように注目を集めるかという社会的メカニズムについて異例の透明性を持っています。彼が別々の英語と日本語の X アカウントを維持していることは、グローバルな AI 研究の会話と日本語の機械学習コミュニティの両方とつながり続けようとする意図的な努力を反映しています。彼は、最先端の研究所と比較したオープンソースモデルが直面する計算障壁、およびデータセットの品質と人間のフィードバックが計算能力と並ぶ制限要因として過小評価されていることについて見解を表明しています。
参考文献
- 個人ウェブサイト / 自己紹介: arankomatsuzaki.wordpress.com
- Google Scholar: scholar.google.com
- „One Epoch Is All You Need“ (arXiv, 2019): arxiv.org/abs/1906.06669
- GPT-J-6B: huggingface.co/EleutherAI/gpt-j-6b
- LAION-400M (arXiv): arxiv.org/abs/2111.02114
- Sparse Upcycling (arXiv): arxiv.org/abs/2212.05055
- UCSB influence study (arXiv): arxiv.org/abs/2401.13782
- Unsupervised Learning podcast (July 2023): unsupervisedlearning.substack.com
- Digg profile: digg.com/u/x/arankomatsuzaki