루카스 베이어

벨기에 출신의 컴퓨터 비전 연구자로, Google Brain 및 DeepMind에서 Vision Transformer, MLP-Mixer, SigLIP, PaliGemma를 공동 집필하고 OpenAI 취리히 지사를 공동 설립했으며, 현재는 메타 취리히에서 멀티모달 AI 연구를 계속하고 있습니다.


프로필

출생 벨기에 라 칼라민(La Calamine)
국적 벨기에인
현 소속 메타(기술 스태프, 취리히)
연구 분야 컴퓨터 비전, 멀티모달 AI, 비전-언어 모델, 표현 학습, 신경망 구조 설계, 트랜스포머
박사 지도교수 바스티안 라이베(Bastian Leibe)
박사 학위 논문 모바일 로봇을 위한 컴퓨터 비전 딥러닝 (RWTH 아헨 대학교, 2018)
웹사이트 lucasb.eyer.be
X / 트위터 @giffmana
GitHub lucasb-eyer
Google 학술 검색 Lucas Beyer

개요

루카스 베이어(Lucas Beyer)는 취리히 메타(Meta)에 소속된 벨기에 출신의 컴퓨터 비전 및 멀티모달 AI 연구자로, Google Brain과 Google DeepMind에서 6년간 개발한 연구 프로그램을 이어가고 있다. 스스로를 "독학한 해커이자 공부한 과학자"라고 설명하며, 벨기에에서 프랑스어와 독일어를 모국어로 사용하며 자랐고 원래 비디오 게임 AI를 만들고 싶어했다. 그는 RWTH 아헨 대학교에서 바스티안 라이베의 지도 아래 컴퓨터 비전 및 로봇 지각 분야에서 Dipl.Ing. 및 박사 학위를 받은 후, 2018년 Google Brain 취리히에 합류했다. 그곳에서 샤오화 자이(Xiaohua Zhai), 알렉산더 콜레스니코프(Alexander Kolesnikov), 닐 홀스비(Neil Houlsby), 알렉세이 도소비츠키(Alexey Dosovitskiy) 등과 함께 ViT, BiT, MLP-Mixer, Scaling ViT, SigLIP, PaliGemma 등 일련의 논문을 공동 집필하여 Vision Transformer를 컴퓨터 비전의 지배적인 패러다임으로 확립했고, 현재 가장 널리 배포된 오픈소스 비전-언어 인코더를 탄생시켰다. 2024년 12월에는 자이, 콜레스니코프와 함께 OpenAI의 취리히 사무소를 공동 설립했으며, 2025년 6월에는 메타의 취리히 연구팀으로 이직했다. 그의 웹사이트, 블로그, 공개 GitHub 저장소는 그의 정체성 중 ‘해커’ 측면을 잘 보여준다. 그는 C++, Go, Python으로 12개 이상의 오픈소스 라이브러리를 만들었고, Google의 최근 비전 연구의 기반이 되는 big_vision 코드베이스를 유지 관리하고 있다.


초기 생애 및 교육

베이어는 벨기에 동부, 독일 국경 근처에 위치한 독일어권 소도시 라 칼라민에서 자랐다. 이중 언어 환경에서 자라 프랑스어와 독일어를 모국어로, 네덜란드어와 영어를 실무 언어로 구사하게 되었다. 그는 아테네 세자르 프랑크(Athénée César Franck) 중등학교를 다녔으며, 게임 개발, 프로그래밍, 컴퓨터 렌더링 AI에 일찍부터 관심을 가지게 되었다. 2006년 독일 RWTH 아헨 대학교에서 학부 과정을 시작하여 계산공학(Computational Engineering Science)을 전공했다. 해당 전공은 수학, 물리학, 공학, 컴퓨팅을 아우르는 기술적으로 까다로운 학제 간 프로그램이었다. 그는 2012년 7월 Dipl.Ing.(볼로냐 이전 독일 석사 학위에 해당) 학위를 독일 학점 시스템에서 최고 등급인 1.3의 성적으로 졸업했다. 그의 디플롬 논문인 《Exploiting Graphics Accelerators for Computational Biology》는 GPU 가속 컴퓨팅을 전장유전체연관성 연구(GWAS, genome-wide association studies)에 적용한 연구였으며 1.0(만점)을 받았다.

2012년 말, 그는 AICES 연구소에서 고성능 컴퓨팅 박사 과정을 잠시 시작하여 고성능 밀도 범함수 이론(density functional theory)을 연구했다. 양자 물리학이 자신의 적성이 아님을 깨닫고 2013년 중반에 RWTH 시각 컴퓨팅 연구소의 바스티안 라이베 교수 컴퓨터 비전 그룹으로 옮겨 2018년 컴퓨터 비전 박사 학위를 마쳤다. EU STRANDS 및 SPENCER 서비스 로봇 프로젝트의 지원을 받은 그의 박사 연구는 주석이 제한된 환경에서의 로봇 지각을 위한 딥러닝 방법(머리 자세 추정(Biternion Nets), 레이저 스캔에서의 보행자 탐지(DROW), 재식별(Triplet Loss의 방어), 장기 로봇 장면 이해)을 개발했다. 박사 과정 동안 그는 2016년 여름 Google Venice(로스앤젤레스)에서 이미지 시선 예측, 2017년 여름 FaceNet 분리 연구를 주제로 두 차례 인턴십을 했으며, 토론토에 있는 Kindred AI에서 한 학기를 보내며 인간 시연을 통한 로봇 학습을 연구했다.


경력

Google Brain / Google DeepMind, 취리히 — 스태프 연구 과학자 (2018–2024)

베이어는 박사 학위를 마친 직후인 2018년 6월 Google Brain 취리히에 합류하여 2023년 DeepMind와의 합병을 거쳐 6년간 근무했으며, 최종 직함은 스태프 연구 과학자였다. 이 기간 동안 그는 멀티모달(비전-언어) 연구 노력과 big_vision 코드베이스를 공동 이끌었다. big_vision은 팀의 발표 및 내부 비전 모델의 기반이 되는 공유 연구 인프라였다.

비전 모델 확장 및 Big Transfer (BiT, 2020). 그의 첫 번째 주요 결과는 Big Transfer(「Big Transfer (BiT): General Visual Representation Learning」, ECCV 2020)였다. 이 연구는 전이 가능한 시각적 표현을 위한 레시피를 규명했다. 즉, 모델 용량, 사전 훈련 데이터 세트 크기, 훈련 기간을 함께(「대각선 방향으로」) 확장해야 확장의 이점을 얻을 수 있다는 것이다. BiT는 광범위한 전이 벤치마크에서 최첨단 성능을 기록했으며, 이후 ViT가 계승할 시각적 사전 훈련 패러다임을 확립했다.

Vision Transformer (ViT, ICLR 2021). 가장 지속적인 영향력을 가진 논문은 알렉세이 도소비츠키, 닐 홀스비, 모스타파 데그하니(Mostafa Dehghani), 디르크 바이센본(Dirk Weissenborn), 토마스 운터티너(Thomas Unterthiner), 아라빈드 마헨드란(Aravindh Mahendran), 게오르크 하이골트(Georg Heigold), 실뱅 젤리(Sylvain Gelly), 야코프 우스코라이트(Jakob Uszkoreit) 등과 공동 집필한 「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」(ICLR 2021)이다. 이 논문은 이미지의 패치에 직접 적용된 표준 트랜스포머 인코더가 충분한 규모로 사전 훈련될 때 컨볼루션 없이도 ImageNet 및 기타 분류 벤치마크에서 컨볼루션 네트워크와 동등하거나 더 나은 성능을 낸다는 것을 입증했다. ViT는 발표 후 2년 이내에 컴퓨터 비전 연구 및 실무에서 지배적인 백본이 되었다. 베이어는 이 논문과 구현의 핵심 기여자였다.

ImageNet 레이블링 (arXiv 2020). ViT 이전에 연구 그룹은 ImageNet에 새로운 ‘ReaL’(재평가된 레이블) 주석을 제안하여 검증 세트 레이블의 체계적인 오류를 수정하는 「Are we done with ImageNet?」을 발표했다. 이 인프라 작업은 비전 모델을 정직하게 평가하기 위한 표준 도구가 되었다.

MLP-Mixer (NeurIPS 2021). 「MLP-Mixer: An All-MLP Architecture for Vision」(일리야 톨스티힌(Ilya Tolstikhin), 닐 홀스비, 베이어 등과 공동 집필)은 어텐션과 컨볼루션 없이 MLP만으로 구성된 아키텍처로도 이미지 분류에서 경쟁력 있는 결과를 얻을 수 있음을 보여주었다. 이는 ViT가 확립한 패치 기반 패러다임의 아키텍처적 유연성을 보여준 기술적으로 도발적인 결과였다.

지식 증류 및 효율성. 「Patient and Consistent Distillation」은 비정상적으로 오랫동안, 일관된 입력으로 증류하는 프로토콜을 도입하여 당시까지 입증된 가장 성능이 좋은 ResNet-50 모델(ImageNet top-1 정확도 83%)을 만들어냈다. 이는 세심한 증류가 표준 훈련보다 적당한 아키텍처에서 훨씬 더 많은 능력을 추출할 수 있음을 보여준다.

Scaling ViT (CVPR 2022). 「Scaling Vision Transformers」(자이, 콜레스니코프, 데그하니 등과 공동 집필)는 ViT가 모델 크기와 데이터에 따라 안정적으로 확장되며, 220억 개의 매개변수 모델로 ImageNet에서 90.45%의 정확도라는 새로운 최첨단 성능을 달성했음을 보여주었다. 이는 당시까지 훈련된 가장 큰 비전 모델이었다.

SigLIP (ICCV 2023). 「Sigmoid Loss for Language Image Pre-Training」은 CLIP에서 사용된 소프트맥스 대비 손실(softmax contrastive loss)을 이미지-텍스트 쌍별로 독립적으로 계산되는 시그모이드 손실로 대체할 것을 제안했다. 이 변경으로 장치 간 글로벌 수집 단계가 필요 없어져 대비 비전-언어 훈련이 훨씬 더 확장 가능해졌다. SigLIP 모델은 비슷한 규모에서 CLIP보다 뛰어난 성능을 보였으며, 베이어의 그룹은 가장 성능이 좋은 비전 인코더와 이미지-텍스트 모델을 오픈소스로 공개하여 멀티모달 언어 모델 연구에서 플러그인 비전 백본으로 널리 채택되었다.

PaliGemma (2024). 베이어는 SigLIP 비전 인코더와 Gemma-2B를 결합한 30억 개 매개변수 비전-언어 모델인 PaliGemma의 개발을 공동 이끌었다. 이 모델은 전이 모델, 즉 광범위한 비전-언어 작업에 파인튜닝할 수 있도록 설계되었다. PaliGemma와 그 후속 모델인 PaliGemma 2는 허용적 라이선스 하에 오픈 가중치로 출시되어 멀티모달 전이 학습 연구의 참조 모델이 되었다.

big_vision. Google 재직 기간 내내 베이어는 팀의 논문의 기반이 되는 JAX 기반 연구 코드베이스인 big_vision을 공동 유지 관리했다. 이 코드베이스는 공개적으로 출시되어 가장 널리 사용되는 비 PyTorch 비전 연구 프레임워크 중 하나가 되었다.

OpenAI 취리히 — 공동 설립자, 기술 스태프 (2024년 12월 – 2025년 6월)

2024년 12월, 베이어, 샤오화 자이, 알렉산더 콜레스니코프는 공동으로 Google DeepMind를 떠나 취리히에 OpenAI의 첫 번째 유럽 연구 사무소를 공동 설립했다. ViT, SigLIP, PaliGemma를 담당했던 Google Brain 취리히의 가장 고위 연구원 세 명의 이탈은 상당한 언론의 주목을 받았다. 베이어는 그 임무를 「AGI를 향한 기초 연구」라고 설명했다. 사무소는 2025년 초 유럽 연구 커뮤니티의 추가 인력을 채용하며 빠르게 확장되었다. 베이어는 약 6개월 만인 2025년 6월에 떠났으며, 메타의 1억 달러 규모 사이닝 보너스에 대한 보도에 대해 그 수치가 과장되었으며 자신의 경험을 반영하지 않는다고 공개적으로 논평했다.

메타 취리히 — 기술 스태프 (2025년 6월 – 현재)

베이어는 2025년 여름 메타의 취리히 연구팀에 합류하여 멀티모달 AI에 대한 기초 연구를 계속하고 있다. 그의 개인 웹사이트에는 「현재 취리히 메타에 있으며, 멀티모달 AI 연구를 계속하고 있다」고 명시되어 있다.


주요 기여

  • Vision Transformer (ViT, ICLR 2021) — 컴퓨터 비전 분야에서 가장 많이 인용된 논문 중 하나를 공동 집필: 평탄화된 이미지 패치에 대해 작동하는 순수 트랜스포머 인코더가 대규모에서 최첨단 이미지 분류를 달성함을 보여줌. 컴퓨터 비전 분야를 컨볼루션 기반 아키텍처에서 어텐션 기반 아키텍처로 전면적으로 전환하는 계기를 마련함.

  • Big Transfer (BiT, ECCV 2020) — 전이 가능한 시각적 표현을 위한 확장 레시피(모델, 데이터 세트, 기간을 함께 확장)를 확립하고 광범위한 전이 작업에서 최첨단 성능을 기록하여 ViT가 계승한 사전 훈련 패러다임을 정의함.

  • MLP-Mixer (NeurIPS 2021) — 어텐션과 컨볼루션이 모두 없는 아키텍처(MLP만 사용)로도 경쟁력 있는 이미지 분류가 가능함을 입증한 연구를 공동 집필. 이는 패치 기반 패러다임의 일반성에 대한 기술적으로 중요한 증명임.

  • Scaling Vision Transformers (CVPR 2022) — ViT가 220억 개 매개변수까지 안정적으로 확장되어 90.45%의 ImageNet top-1 정확도를 달성함을 입증. 발표 당시 가장 크고 정확한 비전 모델이었음.

  • SigLIP (ICCV 2023) — CLIP의 소프트맥스 대비 손실을 시그모이드 공식으로 대체하여 더 확장 가능한 훈련을 가능하게 하고 비전-언어 모델 연구의 지배적인 플러그인 백본이 된 오픈소스 비전 인코더 제품군을 탄생시킴.

  • PaliGemma (2024) — SigLIP과 Gemma-2B를 결합하고 광범위한 파인튜닝 전이를 위해 설계된 30억 개 매개변수 오픈 가중치 비전-언어 모델의 개발을 공동 주도. 멀티모달 연구 및 다운스트림 애플리케이션에 널리 채택됨.

  • ReaL ImageNet 레이블 / 「Are we done with ImageNet?」 (2020) — ImageNet 검증 세트에 대한 수정된 다중 레이블 주석을 생성하여 비전 벤치마킹에서 진행 상황의 과장을 드러낸 정직한 평가 프로토콜을 제공함.

  • big_vision 코드베이스 — Google Brain/DeepMind 취리히 비전 연구 프로그램의 기반이 되는 JAX 기반 연구 인프라를 공동 유지 관리하고 공개적으로 출시하여 더 넓은 연구 커뮤니티에 채택됨.

  • 취미 오픈소스 라이브러리 — Go-Colorful(Go 색상 조작 라이브러리), PyDenseCRF(밀집 CRF용 Python 래퍼), libheatmap(적어도 4개의 상업용 제품에 사용된 고성능 C 히트맵 라이브러리), DeepFried2(Theano 기반 딥러닝 라이브러리) 등 C++, Python, Go로 작성된 12개 이상의 오픈소스 도구를 제작함.


수상 및 인정

  • ICLR 2021 Oral / 스포트라이트 — ICLR 2021에서 높은 인정을 받으며 발표된 Vision Transformer 논문.
  • AICES 박사 펠로우십 — 박사 과정 중 '매우 우수한 자격을 갖춘 학생’에게 수여되는 RWTH의 펠로우십.
  • Bildungsfonds 장학금 — 학부 과정 중 가장 유망한 학생들에게 수여됨.
  • National Data Science Bowl — 상위 10% — Kaggle 데이터 과학 경진대회에서 1000명 이상의 참가자 중 상위 10% 이내에 듦.
  • Google Developer Group Aachen 해커톤 우승 — 알렉산더 헤르만스(Alexander Hermans)와 함께 우승.
  • 최상위 학회 논문 50편 이상 — CVPR, NeurIPS, ICCV, ICLR, ECCV 등; Google 학술 검색 인용 수 수만 회.

주요 관계

  • 샤오화 자이(Xiaohua Zhai) — 베이어 경력 중 가장 오랜 기간 함께한 연구 파트너. Google Brain/DeepMind 취리히 멀티모달 팀 공동 리드. OpenAI 취리히를 공동 설립. ViT, SigLIP, scaling ViT 등 다수 논문 공동 저자.
  • 알렉산더 콜레스니코프(Alexander Kolesnikov) — OpenAI 취리히를 공동 설립한 Google Brain 취리히 3인조의 세 번째 멤버. BiT, ViT 등 확장 관련 논문 공동 저자.
  • 닐 홀스비(Neil Houlsby) — Google Brain 선임 연구원이자 가까운 협력자. ViT, MLP-Mixer 등 논문 공동 저자. 취리히 비전 팀의 창립 멤버 중 한 명.
  • 알렉세이 도소비츠키(Alexey Dosovitskiy) — ViT의 주 저자. 베이어는 논문 및 후속 연구에서 공동 주 기여자. 도소비츠키는 Recursive의 공동 창립자.
  • 바스티안 라이베(Bastian Leibe) — RWTH 아헨 박사 지도교수. 시각 컴퓨팅 연구소 소장이자 독일 최고의 컴퓨터 비전 연구자 중 한 명. 베이어의 연구 경력이 시작된 로봇 지각 환경을 제공함.
  • 안드레아스 슈타이너(Andreas Steiner) — big_vision, SigLIP, scaling 논문 전반에 걸쳐 지속적으로 협업한 공동 연구자.
  • 모스타파 데그하니(Mostafa Dehghani) — scaling ViT 및 기타 대규모 비전 논문의 공동 저자.

개인적 스타일

베이어는 자신을 「독학한 해커이자 공부한 과학자」라고 설명하는데, 이는 그의 결과물에 정확히 반영된 특징이다. 해커 측면은 여러 프로그래밍 언어(C++, Go, Python, JavaScript)에 걸친 12개 이상의 오픈소스 라이브러리를 포괄하는 GitHub 프로필, 건조한 재치와 내용을 학습한 AI 시스템을 위한 가끔씩의 프롬프트 주입 개그(gag)가 담긴 개인 웹사이트, 그리고 비디오 게임을 만들고 싶어했던 것에서 시작된 경력 궤적에서 드러난다. 과학자 측면은 끊임없이 이어지는 기초 비전 논문과 평가를 올바르게 하는 것에 대한 진지한 관심에서 드러난다. 즉, 「Are we done with ImageNet?」 논문은 진행 상황이 실제인지에 관심을 가진 사람의 특징을 보여준다. 그는 개인 웹사이트에서 주요 여가 활동으로 언급할 정도로 DOTA2를 진지하게 플레이하며, 개인 약력에 이를 명시하고, 대학 아이스하키 팀을 2년간 코치했다. 자녀가 있으며, Google Brain에 합류한 이후로 거주해 온 스위스 취리히에 살고 있다. 메타 사이닝 보너스에 대한 보도(1억 달러 규모를 냉담하게 평가함)에 대한 그의 공개 논평은 그의 경력 수준에서 보기 드문 업계 역학에 대한 솔직함을 반영한다.


참고 자료