Dota 2를 위해 OpenAI에서 가장 큰 강화 학습 시스템 중 하나를 구축한 중국계 미국인 연구 엔지니어이자, Meta AI에서 OPT-175B의 학습 인프라와 오픈 릴리즈를 공동 주도했으며, 정렬(alignment)에 방대한 레이블 데이터셋이 필요하지 않다는 것을 보여준 논문 LIMA의 공동 저자입니다.
프로필
| 국적 | 미국 (중국계 미국인) |
| 현 소속 | Google DeepMind (Principal Research Engineer) |
| 연구 분야 | 대규모 ML 시스템, LLM 학습 인프라, 대규모 강화 학습, 정렬, 멀티모달 언어 모델 |
| 학력 | 프린스턴 대학교, 수학 학사 |
| 웹사이트 | suchenzang.github.io |
| X / Twitter | @suchenzang |
| GitHub | suchenzang |
| Google Scholar | Susan Zhang |
개요
Susan Zhang은 중국계 미국인 연구 엔지니어이자 분산 시스템 전문가로, 현재 샌프란시스코 베이 에어리어에 있는 Google DeepMind에서 Principal Research Engineer로 재직 중입니다. 그녀는 두 가지 획기적인 프로젝트로 가장 잘 알려져 있습니다. 하나는 전문 Dota 2 팀을 물리친 에이전트인 OpenAI Five를 구동한, 역사상 가장 큰 강화 학습 학습 시스템 중 하나를 구축한 것이고, 다른 하나는 Meta AI에서 전체 가중치, 학습 코드, 114페이지 분량의 운영 일지를 포함하여 최초로 공개된 1,750억 개 매개변수 언어 모델인 OPT-175B의 개발 및 오픈 릴리즈를 공동 주도한 것입니다. OPT 릴리즈는 대규모 언어 모델 개발의 투명성에 대한 업계 선례를 세웠으며, 이후 오픈소스 LLM 개발에 직접적인 영향을 미쳤습니다. 또한 그녀는 LIMA(Less Is More for Alignment)의 공동 저자로, 1,000개의 신중하게 선별된 예제만으로 훨씬 더 많은 데이터로 학습된 모델과 경쟁할 수 있는 정렬 품질을 달성할 수 있음을 입증했습니다. 그녀의 자신에 대한 설명인 „저는 방대한 데이터를 처리하고 대규모 모델을 개발하기 위해 큰 시스템을 구축하는 것을 전문으로 합니다“라는 말은 그녀의 경력을 정확하게 보여줍니다. 그녀는 시스템 엔지니어링과 연구의 경계에서 활동하며, 최첨단 모델 학습을 위한 인프라 자체가 과학적, 엔지니어링적 도전 과제가 되는 분야에서 일하고 있습니다.
학력 및 초기 경력
Zhang은 프린스턴 대학교에서 수학을 전공하여 학사 학위를 받았습니다. AI 시스템 분야에 진출하기 전에 로스앨러모스 국립 연구소와 여러 클라우드 제공업체의 데이터 인프라 관련 직무에서 근무하며 분산 시스템에 대한 배경 지식을 쌓았고, 이는 이후 현대 LLM 학습 파이프라인의 규모에서 효과적으로 일할 수 있는 기반이 되었습니다. 또한 Unity Games에서 게임과 기술 인프라의 접점에서 일한 후, AI 연구 시스템 분야로 완전히 전향했습니다.
경력
OpenAI — RL 시스템 엔지니어 (약 2018년 ~ 2021년)
Zhang은 Dota 2 강화 학습 에이전트인 OpenAI Five 개발 중 OpenAI에 합류했습니다. 그녀는 수만 개의 CPU 코어에서 비동기 자가 대결을 통해 실행되는 역사상 가장 큰 RL 학습 파이프라인 중 하나의 핵심 구성 요소를 구축했으며, 이를 통해 OpenAI Five는 프로 수준의 플레이에 도달하고 2019년 4월 라이브 경기에서 세계 챔피언 팀을 물리칠 수 있었습니다. 이 시스템은 이전 연구를 훨씬 뛰어넘는 규모의 분산 RL에서 근본적인 문제들, 즉 수천 개의 게임 환경 관리, 여러 병렬 작업자 간의 그래디언트 업데이트 동기화, 수개월 간의 지속적인 자가 대결 학습 동안 학습 안정성 유지 등을 해결해야 했습니다. 이러한 엔지니어링 기여는 주요 OpenAI Five 기술 논문(„Dota 2 with Large Scale Deep Reinforcement Learning,“ arXiv 2019)과 장기 계획 및 상황 인식에 관한 두 편의 동반 논문에서 인정받았습니다. 그녀는 2022년 초 컴퓨터 역사 박물관과 Harvard CS50에서 OpenAI Five 시스템에 대한 강연을 하여, 시스템 뒤에 숨은 엔지니어링 결정에 대한 가장 상세한 공개 기록 중 하나를 제공했습니다.
Meta AI / FAIR — 연구 엔지니어 (약 2021년 ~ 2022년)
Zhang은 Meta AI의 Fundamental AI Research 그룹으로 옮겨 OPT-175B를 만든 LLM 학습 인프라 프로젝트의 수석 엔지니어로 활동했습니다. 이 프로젝트는 992개의 80GB A100 GPU에서 1,750억 개 매개변수의 GPT-3급 디코더 전용 트랜스포머를 학습시켰으며, GPU당 147 TFLOP/s의 활용도를 달성하여 GPT-3 대비 약 7분의 1의 탄소 발자국으로 유사한 품질을 달성했습니다. 학습은 새로운 하드웨어에서 56일 동안 진행되었으며, 반복적인 불안정성, 하드웨어 오류, 체크포인트 롤백이 발생하여 실시간 엔지니어링 결정이 필요했습니다.
2022년 5월의 릴리즈는 세 가지 측면에서 업계 선례를 세웠습니다. 첫째, 연구 라이선스 하에 전체 모델 가중치를 제공했습니다. 이는 GPT-3급 모델이 공개적으로 제공된 첫 번째 사례였습니다. 둘째, 전체 학습 코드베이스를 metaseq라는 오픈소스 프레임워크로 공개했으며, 이는 이후 대규모 트랜스포머 언어 모델 학습에 널리 사용되었습니다. 셋째, 가장 독특한 점으로, 중요한 학습 사건들을 일별로 기록한 114페이지 분량의 운영 일지를 게시했습니다. 여기에는 하드웨어 오류, 손실 스파이크, 하이퍼파라미터 변경, 엔지니어링 완화 조치 등이 포함되었습니다. 이 수준의 투명성은 최첨단 LLM 개발에서 전례가 없었으며, 연구 커뮤니티에 실제로 대규모 LLM 학습이 무엇을 수반하는지에 대한 사실적인 기록을 제공했습니다. Zhang은 NeurIPS 2022(Has It Trained Yet? 워크숍), Scale Transform X(2022), Stanford MLSys Seminar(2023), CMU의 LLM Seminar(2023)에서 OPT 연구를 발표했습니다.
OPT 이후, Zhang은 Scaling Laws for Generative Mixed-Modal Language Models 논문(2023)에 기여하여 스케일링 법칙이 이미지와 텍스트를 모두 처리하는 모델로 어떻게 확장되는지 연구했고, CM3 멀티모달 자기회귀 모델(„Scaling Autoregressive Multi-Modal Models,“ 2023)에도 기여했습니다. 또한 그녀는 학습 역학을 특성화하는 두 편의 이론 관련 논문, „A Theory on Adam Instability in Large-Scale Machine Learning“과 „Effective Theory of Transformers at Initialization“(모두 2023년)에 기여했습니다.
LIMA: Less Is More for Alignment (NeurIPS 2023). Zhang은 LIMA의 공동 저자(Chunting Zhou, Pengfei Liu, Punit Singh Koura, Weizhu Chen, Graham Neubig 등과 함께)로, 650억 개 매개변수의 LLaMA 모델을 다양한 작업과 형식을 포괄하는 1,000개의 신중하게 선별된 예제만으로 미세 조정했습니다. LIMA는 훨씬 더 큰 데이터셋으로 RLHF를 통해 학습된 모델과 대부분의 평가 차원에서 일치하거나 능가했으며, 정렬을 위해 방대한 양의 피드백이 주석된 학습 데이터가 필요하다는 기존의 가정에 도전했습니다. 논문에서 소개된 „표면적 정렬 가설(superficial alignment hypothesis)“ — 즉, 모델의 지식과 능력은 사전 학습 중에 확립되고 미세 조정은 주로 출력 형식과 스타일을 조정한다는 것 — 은 정렬 및 RLHF 문헌에서 영향력 있는 프레임워크가 되었습니다.
Luminous Computing (짧은 경력, 약 2022년~2023년)
Zhang은 Google DeepMind로 이직하기 전에 광자 컴퓨팅 스타트업인 Luminous Computing에서 시스템 엔지니어링 역할로 잠시 근무했습니다.
Google DeepMind — Principal Research Engineer (약 2023년~현재)
Zhang은 Principal Research Engineer로 Google DeepMind에 합류하여 대규모 학습 시스템과 연구의 접점에서 계속 작업하고 있습니다. 그녀는 샌프란시스코 베이 에리어에 기반을 두고 있습니다.
주요 기여
-
OpenAI Five RL 학습 시스템 (2018~2019) — 역사상 가장 계산 집약적인 RL 파이프라인 중 하나인 OpenAI Five를 학습시킨 분산 강화 학습 인프라를 공동 구축했습니다. 수개월의 실제 학습 시간 동안 축적된 수천 년에 해당하는 자가 대결 경험을 통해 에이전트가 전문 Dota 2 세계 챔피언을 물리칠 수 있게 했습니다. 주요 OpenAI Five 논문(arXiv 2019) 및 계획 및 상황 인식에 관한 동반 논문의 공동 저자입니다.
-
OPT-175B (arXiv 2022, 제1저자) — 최초로 공개된 1,750억 매개변수 언어 모델인 Open Pre-trained Transformers(OPT-175B)의 개발 및 오픈 릴리즈를 공동 주도하여 GPT-3 성능을 7분의 1의 탄소 비용으로 달성했습니다. 릴리즈에는 전체 모델 가중치, metaseq 학습 코드베이스, 114페이지 분량의 일별 학습 일지가 포함되어 있어 당시 대규모 언어 모델 개발에서 가장 투명한 기준을 세웠습니다.
-
metaseq — Meta의 오픈소스 대규모 언어 모델 학습 프레임워크인 metaseq를 공동 개발 및 공개했으며, 이를 통해 OPT-175B 학습이 가능해졌고 이후 연구에서 채택되었습니다.
-
LIMA: Less Is More for Alignment (NeurIPS 2023) — 1,000개의 고품질 정렬 예제가 대규모 RLHF 모델과 경쟁할 수 있는 지시 따르기 품질을 생성할 수 있음을 입증하는 연구를 공동 저술했으며, 정렬 학습 데이터 요구 사항에 대한 기존 가정에 도전하는 „표면적 정렬 가설“을 소개했습니다.
-
Scaling Laws for Generative Mixed-Modal Language Models (2023) — 스케일링 법칙 분석을 텍스트와 이미지를 아우르는 멀티모달 언어 모델로 확장하고, 모달리티 간 계산 최적 모델 및 데이터 할당이 어떻게 변화하는지 특성화한 실증 연구를 공동 저술했습니다.
-
Adam Instability and Transformer Initialization Theory (2023) — 대규모 학습 중 관찰된 불안정성 현상에 대한 이론적, 경험적 근거를 제공하는 두 편의 논문을 공동 저술했습니다. Adam 옵티마이저의 실패 모드를 특성화하고 초기화 시 트랜스포머 가중치 분포에 대한 효과적인 이론을 도출했습니다.
수상 및 인정
- NeurIPS 2022 워크숍 발표 — OPT-175B가 NeurIPS 2022의 „Has It Trained Yet?“ 워크숍에서 발표됨.
- Stanford MLSys Seminar (2023) — OPT-175B 학습 인프라에 대한 초청 연사로, MLSys 세미나 시리즈에서 가장 많이 시청된 강연 중 하나.
- Harvard CS50 및 Computer History Museum (2022) — OpenAI Five에 대한 초청 연사로, 대규모 RL 시스템에 대한 기술적 설명을 일반 대중에게 전달함.
주요 관계
- Stephen Roller 및 Naman Goyal — Zhang과 함께 OPT-175B 논문의 공동 제1저자로, 프로젝트 핵심 엔지니어링 팀을 대표함.
- Luke Zettlemoyer — OPT 프로젝트의 Meta AI 연구 책임자로, OPT 릴리즈와 LIMA 논문의 방향을 정한 학술 연구 방향을 제공함.
- Myle Ott — OPT의 Meta AI 엔지니어이자 공동 저자. metaseq의 설계는 Ott가 개발한 fairseq 프레임워크에 크게 기반함.
- Christopher Berner, Christy Dennison — OpenAI Five의 OpenAI 엔지니어링 동료로, Zhang은 Berner 등이 이끄는 RL 엔지니어링 팀에서 일함.
- Chunting Zhou 및 Graham Neubig — LIMA의 공동 저자. Neubig(카네기 멜론 대학교)은 정렬 가설에 대한 학술 연구 맥락을 제공함.
개인 스타일
Zhang은 자신의 전문적 정체성을 여러 분야에 걸쳐 두루 능숙하지만 몇 가지 상호 보완적인 영역에 깊은 전문성을 가진 사람(jack-of-all-trades)이라고 설명합니다. 이는 그녀가 공개적으로 의도적인 경력 전략으로 언급한 입장입니다. 즉, 시스템, ML 이론, 엔지니어링 전반에 걸쳐 광범위하게 능력을 유지하면서 시간이 지남에 따라 드문 깊이의 조합을 축적하는 것입니다. 그녀의 출판된 연구는 RL 시스템, LLM 인프라, 학습 이론, 정렬을 아우르며 이러한 철학과 일관됩니다. 그녀가 릴리즈의 일부로 옹호한 OPT 학습 일지는 최종 모델뿐만 아니라 모든 실패, 디버깅 결정, 하드웨어 사고를 보여줌으로써 최첨단 모델 개발에서는 드문 투명성에 대한 가치 헌신을 반영합니다. 그녀는 44,000명 이상의 팔로워를 보유한 Twitter 계정을 유지하며 이 플랫폼을 통해 AI 연구 동향, 인프라 관행, 더 넓은 기술 산업의 역학에 대해 논평합니다. 그녀의 소개는 그녀의 경력을 효율적으로 요약합니다: „@ Google DeepMind. Past: @MetaAI, @OpenAI, @unitygames, @losalamosnatlab, @Princeton etc. Always hungry for intelligence.“
참고 자료
- 개인 웹사이트: suchenzang.github.io
- Google Scholar: scholar.google.com
- OPT-175B 논문: arxiv.org/abs/2205.01068
- metaseq: github.com/facebookresearch/metaseq
- OPT 학습 일지: github.com/facebookresearch/metaseq/tree/main/projects/OPT/chronicles
- LIMA 논문: arxiv.org/abs/2305.11206
- OpenAI Five 논문: arxiv.org/abs/1912.06680
- Stanford MLSys 강연 (2023): youtube.com/watch?v=p9IxoSkvZ-M
- Digg 프로필: digg.com/u/x/suchenzang