Lucas Beyer

ref · 27 Mayo, 2026 12:59

Investigador belga de visión por computadora, coautor de Vision Transformer, MLP-Mixer, SigLIP y PaliGemma en Google Brain y DeepMind, cofundó brevemente la oficina de OpenAI en Zúrich y ahora continúa la investigación en IA multimodal en Meta en Zúrich.

Perfil


Nacimiento	La Calamine, Bélgica
Nacionalidad	Belga
Institución(es) actual(es)	Meta (Member of Technical Staff, Zúrich)
Áreas de investigación	Visión por computadora, IA multimodal, modelos de visión y lenguaje, aprendizaje de representaciones, diseño de arquitecturas neuronales, Transformers
Director de doctorado	Bastian Leibe
Tesis doctoral	Deep Learning for Computer Vision on Mobile Robots (RWTH Aachen University, 2018)
Sitio web	lucasb.eyer.be
X / Twitter	@giffmana
GitHub	lucasb-eyer
Google Scholar	Lucas Beyer

Resumen

Lucas Beyer es un investigador belga de visión por computadora e IA multimodal, actualmente en Meta en Zúrich, donde continúa el programa de investigación que desarrolló durante seis años en Google Brain y Google DeepMind. Se describe a sí mismo como «un hacker autodidacta y científico de formación», creció en Bélgica con el francés y el alemán como lenguas maternas y originalmente quería crear IA para videojuegos. Obtuvo el título de Dipl.Ing. y el doctorado en visión por computadora y percepción robótica en la RWTH Aachen University bajo la dirección de Bastian Leibe, antes de incorporarse a Google Brain Zúrich en 2018. Allí, junto a Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Alexey Dosovitskiy y otros, coescribió una secuencia de artículos (ViT, BiT, MLP-Mixer, Scaling ViT, SigLIP y PaliGemma) que establecieron colectivamente el Vision Transformer como paradigma dominante en visión por computadora y produjeron los codificadores de visión y lenguaje de código abierto más ampliamente utilizados en la actualidad. En diciembre de 2024 cofundó la oficina de OpenAI en Zúrich con Zhai y Kolesnikov; en junio de 2025 se trasladó al equipo de investigación de Meta en Zúrich. Su sitio web, blog y GitHub público reflejan la faceta de «hacker» de su identidad: ha creado más de una docena de bibliotecas de código abierto en C++, Go y Python, y mantiene el código base de big_vision, que es la base de la mayor parte de la investigación reciente de Google en visión.

Primeros años y educación

Beyer creció en La Calamine, un pequeño municipio de la comunidad germanófona del este de Bélgica, cerca de la frontera alemana; una educación bilingüe que le dio el francés y el alemán como lenguas maternas, y el neerlandés y el inglés como lenguas de trabajo. Asistió a la escuela secundaria Athénée César Franck y desarrolló un interés temprano por el desarrollo de videojuegos, la programación y la IA computacional. Comenzó sus estudios de grado en 2006 en la RWTH Aachen University, en Alemania, donde cursó Computational Engineering Science, un programa interdisciplinario técnicamente exigente que abarca matemáticas, física, ingeniería e informática. Se graduó en julio de 2012 con el título de Dipl.Ing. (equivalente alemán anterior a Bolonia a un máster) con una calificación de 1.3, el rango más alto del sistema alemán. Su tesis de Diplom, Exploiting Graphics Accelerators for Computational Biology, aplicó computación acelerada por GPU a estudios de asociación del genoma completo (GWAS) y obtuvo una calificación de 1.0 (perfecta).

Comenzó brevemente un programa de doctorado en Computación de Alto Rendimiento en el instituto AICES a finales de 2012, trabajando en teoría del funcional de la densidad de alto rendimiento. Al reconocer que la física cuántica no era lo suyo, se trasladó a mediados de 2013 al grupo de visión por computadora del profesor Bastian Leibe en el Visual Computing Institute de la RWTH, donde completó un doctorado en visión por computadora en 2018. Su investigación doctoral —financiada por los proyectos de robots de servicio europeos STRANDS y SPENCER— desarrolló métodos de aprendizaje profundo para la percepción robótica con restricciones de baja anotación: estimación de la pose de la cabeza (Biternion Nets), detección de peatones en escáneres láser (DROW), reidentificación (In Defense of the Triplet Loss) y comprensión de escenas robóticas a largo plazo. Durante el doctorado realizó dos prácticas en Google Venice (Los Ángeles) —sobre predicción de la mirada en imágenes en el verano de 2016 y sobre desenredo de FaceNet en el verano de 2017— y pasó un semestre en Kindred AI en Toronto trabajando en aprendizaje robótico a partir de demostraciones humanas.

Carrera

Google Brain / Google DeepMind, Zúrich — Staff Research Scientist (2018–2024)

Beyer se incorporó a Google Brain Zúrich en junio de 2018 inmediatamente después de defender su doctorado, y pasó seis años allí hasta la fusión con DeepMind en 2023, ostentando finalmente el título de Staff Research Scientist. Durante este periodo codirigió el equipo de investigación multimodal (visión-lenguaje) y el código base de big_vision, la infraestructura de investigación compartida que sustentaba los modelos de visión publicados e internos del equipo.

Escalado de modelos de visión y Big Transfer (BiT, 2020). Su primer resultado importante fue Big Transfer («Big Transfer (BiT): General Visual Representation Learning», ECCV 2020), que caracterizó la receta para obtener representaciones visuales transferibles: es necesario escalar la capacidad del modelo, el tamaño del conjunto de datos de preentrenamiento y la duración del entrenamiento de forma conjunta y proporcional (en diagonal) para aprovechar los beneficios del escalado. BiT estableció el estado del arte en una amplia gama de benchmarks de transferencia y sentó las bases del paradigma de preentrenamiento visual que posteriormente heredaría ViT.

Vision Transformer (ViT, ICLR 2021). La publicación de mayor impacto duradero fue «An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale» (ICLR 2021), coescrita con Alexey Dosovitskiy, Neil Houlsby, Mostafa Dehghani, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit y otros. El artículo demostró que un codificador Transformer estándar aplicado directamente a parches de una imagen —sin convoluciones— iguala o supera a las redes convolucionales en ImageNet y otros benchmarks de clasificación cuando se preentrena a una escala suficiente. ViT se convirtió en la arquitectura dominante para la investigación y la práctica de la visión por computadora en los dos años siguientes a su publicación. Beyer fue un contribuyente central en el artículo y en la implementación.

Etiquetado de ImageNet (arXiv 2020). Antes de ViT, el grupo publicó «Are we done with ImageNet?», proponiendo nuevas anotaciones «ReaL» (Reassessed Labels) para ImageNet, corrigiendo errores sistemáticos en las etiquetas de validación. Este trabajo de infraestructura se convirtió en una herramienta estándar para evaluar modelos de visión de forma honesta.

MLP-Mixer (NeurIPS 2021). «MLP-Mixer: An All-MLP Architecture for Vision» (con Ilya Tolstikhin, Neil Houlsby, Beyer y otros) demostró que se pueden obtener resultados competitivos en clasificación de imágenes con una arquitectura que no contiene ni atención ni convolución, solo MLPs. Un resultado técnicamente provocador que mostró la flexibilidad arquitectónica del paradigma basado en parches establecido por ViT.

Destilación de conocimiento y eficiencia. «Patient and Consistent Distillation» introdujo un protocolo —destilar durante un tiempo excepcionalmente largo y con entradas consistentes— que produjo el mejor modelo ResNet-50 (83% de precisión top-1 en ImageNet) demostrado hasta ese momento, mostrando que una destilación cuidadosa puede extraer mucha más capacidad de arquitecturas modestas que el entrenamiento estándar.

Scaling ViT (CVPR 2022). «Scaling Vision Transformers» (con Zhai, Kolesnikov, Dehghani y otros) demostró que los ViT escalan de forma fiable con el tamaño del modelo y los datos, logrando un nuevo estado del arte en ImageNet con un 90.45% de precisión con un modelo de 22 mil millones de parámetros —en ese momento, el modelo de visión más grande jamás entrenado.

SigLIP (ICCV 2023). «Sigmoid Loss for Language Image Pre-Training» propuso reemplazar la pérdida contrastiva softmax utilizada en CLIP por una pérdida sigmoidea calculada de forma independiente por cada par imagen-texto. El cambio eliminó la necesidad de un paso de recolección global entre dispositivos, haciendo que el entrenamiento contrastivo de visión y lenguaje fuera sustancialmente más escalable. Los modelos SigLIP superaron a CLIP a escala comparable, y el grupo de Beyer publicó como código abierto el codificador visual y el modelo imagen-texto con mejor rendimiento, que fue ampliamente adoptado como backbone visual enchufable para la investigación de modelos de lenguaje multimodal.

PaliGemma (2024). Beyer codirigió el desarrollo de PaliGemma, un modelo de visión y lenguaje de 3 mil millones de parámetros que combina un codificador visual SigLIP con Gemma-2B, diseñado como un modelo de transferencia —ajustable a una amplia gama de tareas de visión y lenguaje. PaliGemma y su sucesor PaliGemma 2 se publicaron con pesos abiertos bajo una licencia permisiva y se convirtieron en modelos de referencia para la investigación en aprendizaje por transferencia multimodal.

big_vision. Durante todo el periodo en Google, Beyer comantuvo big_vision, el código base de investigación basado en JAX que sustentaba las publicaciones del equipo. Se publicó públicamente y se convirtió en uno de los marcos de investigación en visión no basados en PyTorch más utilizados.

OpenAI Zúrich — Co-Founder, Member of Technical Staff (diciembre de 2024 – junio de 2025)

En diciembre de 2024, Beyer, Xiaohua Zhai y Alexander Kolesnikov abandonaron conjuntamente Google DeepMind para cofundar la primera oficina de investigación europea de OpenAI en Zúrich. La salida de tres de los investigadores más veteranos de Google Brain Zúrich —responsables de ViT, SigLIP y PaliGemma— atrajo una considerable atención mediática. Beyer describió el mandato como «investigación fundamental hacia la AGI». La oficina se expandió rápidamente a principios de 2025 con nuevas contrataciones de la comunidad investigadora europea. En junio de 2025, Beyer se marchó tras aproximadamente seis meses, comentando públicamente sobre las informaciones relativas a los bonos de fichaje de 100 millones de dólares de Meta, calificando las cifras de exageradas y no representativas de su propia experiencia.

Meta Zúrich — Member of Technical Staff (junio de 2025 – presente)

Beyer se incorporó al equipo de investigación de Meta en Zúrich en el verano de 2025, continuando la investigación fundamental sobre IA multimodal. Su sitio web personal señala que «ahora está en Meta en Zúrich, donde continúa investigando sobre IA multimodal».

Contribuciones clave

Vision Transformer (ViT, ICLR 2021) — Coautor de uno de los artículos más citados en visión por computadora: demostró que un codificador Transformer puro que opera sobre parches de imagen aplanados logra un rendimiento de clasificación de imágenes de última generación a escala. Desencadenó un cambio masivo en el campo de la visión por computadora, pasando de arquitecturas convolucionales a arquitecturas basadas en atención.
Big Transfer (BiT, ECCV 2020) — Estableció la receta de escalado para representaciones visuales transferibles (escalar modelo, conjunto de datos y duración conjuntamente), estableciendo el estado del arte en un amplio conjunto de tareas de transferencia y definiendo el paradigma de preentrenamiento que heredó ViT.
MLP-Mixer (NeurIPS 2021) — Coautor de la demostración de que se puede lograr una clasificación de imágenes competitiva con arquitecturas que no contienen ni atención ni convolución, utilizando solo MLPs —una prueba técnicamente importante de la generalidad del paradigma basado en parches.
Scaling Vision Transformers (CVPR 2022) — Demostró que los ViT escalan de forma fiable hasta 22 mil millones de parámetros, alcanzando un 90.45% de precisión top-1 en ImageNet —el modelo de visión más grande y preciso en el momento de la publicación.
SigLIP (ICCV 2023) — Reemplazó la pérdida contrastiva softmax en CLIP por una formulación sigmoidea, permitiendo un entrenamiento más escalable y produciendo una familia de codificadores visuales de código abierto que se convirtieron en el backbone enchufable dominante para la investigación de modelos de visión y lenguaje.
PaliGemma (2024) — Codirigió el desarrollo de un modelo de visión y lenguaje de 3 mil millones de parámetros con pesos abiertos, que combina SigLIP y Gemma-2B, diseñado para una amplia transferencia por ajuste fino. Ampliamente adoptado para investigación multimodal y aplicaciones posteriores.
Etiquetas ReaL de ImageNet / «Are we done with ImageNet?» (2020) — Produjo anotaciones multietiqueta corregidas para el conjunto de validación de ImageNet, proporcionando un protocolo de evaluación honesto que expuso las exageraciones sobre el progreso en la evaluación comparativa de la visión.
Código base de big_vision — Comantuvo la infraestructura de investigación basada en JAX que sustentaba el programa de investigación en visión de Google Brain/DeepMind Zúrich, publicado públicamente y adoptado por la comunidad investigadora en general.
Bibliotecas de hobby de código abierto — Creó Go-Colorful (manipulación de color en Go), PyDenseCRF (envoltura de Python para CRF densos), libheatmap (biblioteca de mapas de calor de alto rendimiento en C utilizada en al menos cuatro productos comerciales) y DeepFried2 (una biblioteca de aprendizaje profundo basada en Theano), entre más de una docena de herramientas de código abierto en C++, Python y Go.

Premios y reconocimiento

ICLR 2021 Oral / Spotlight — Artículo sobre Vision Transformer presentado en ICLR 2021 con gran reconocimiento.
Beca doctoral AICES — Beca de la RWTH para «estudiantes extremadamente bien cualificados» durante el doctorado.
Beca Bildungsfonds — Otorgada a los estudiantes más prometedores durante los estudios de grado.
National Data Science Bowl — Top 10% — Finalizó en el decil superior entre más de 1000 participantes en una competición de ciencia de datos de Kaggle.
Ganador del hackathon de Google Developer Group Aachen — Ganó junto con Alexander Hermans.
Más de 50 publicaciones en conferencias de primer nivel — CVPR, NeurIPS, ICCV, ICLR, ECCV y otras; perfil de Google Scholar con decenas de miles de citas.

Relaciones clave

Xiaohua Zhai — El socio de investigación a largo plazo más cercano en la carrera de Beyer; codirector del equipo multimodal en Google Brain/DeepMind Zúrich; cofundó OpenAI Zúrich juntos; coautor en ViT, SigLIP, scaling ViT y muchos otros artículos.
Alexander Kolesnikov — Tercer miembro del trío de Google Brain Zúrich que cofundó OpenAI Zúrich; coautor en BiT, ViT y otros artículos sobre escalado.
Neil Houlsby — Investigador sénior de Google Brain y colaborador cercano; coautor en ViT, MLP-Mixer y otros trabajos; uno de los miembros fundadores del equipo de visión de Zúrich.
Alexey Dosovitskiy — Autor principal de ViT; Beyer fue coautor principal en el artículo y en trabajos posteriores; Dosovitskiy es cofundador de Recursive.
Bastian Leibe — Director de tesis doctoral en la RWTH Aachen; director del Visual Computing Institute y uno de los principales investigadores de visión por computadora de Alemania; proporcionó el entorno de percepción robótica en el que comenzó la carrera investigadora de Beyer.
Andreas Steiner — Colaborador constante en big_vision, SigLIP y artículos sobre escalado.
Mostafa Dehghani — Coautor en scaling ViT y otros artículos sobre visión a gran escala.

Estilo personal

Beyer se describe a sí mismo como «un hacker autodidacta y científico de formación», una caracterización que se corresponde con precisión con su producción. La faceta de hacker se manifiesta en un perfil de GitHub que abarca más de una docena de bibliotecas de código abierto en múltiples lenguajes de programación (C++, Go, Python, JavaScript), un sitio web personal escrito con ironía y ocasionales bromas de inyección de mensajes para sistemas de IA entrenados con su contenido, y una trayectoria profesional que comenzó con el deseo de crear videojuegos. La faceta de científico se manifiesta en una cadena continua de artículos fundamentales sobre visión y un gran interés por hacer bien la evaluación: el artículo «Are we done with ImageNet?» es característico de alguien a quien le importa si el progreso es real. Juega al DOTA2 con la suficiente seriedad como para que su sitio web lo mencione como actividad de ocio principal y su biografía personal lo especifique, y entrenó al equipo de hockey sobre hielo de su universidad durante dos años. Tiene un hijo y vive en Zúrich, Suiza, donde reside desde que se incorporó a Google Brain. Sus comentarios públicos sobre los informes de los bonos de fichaje de Meta —echando agua fría sobre las cifras de 100 millones de dólares— reflejan una franqueza sobre la dinámica de la industria que es inusual en un investigador de su nivel.

Referencias

Sitio web personal: lucasb.eyer.be
Google Scholar: scholar.google.com
Perfil de RWTH Aachen VCI: vision.rwth-aachen.de
Perfil de IQ.wiki: iq.wiki
Artículo de Fortune (junio de 2025): fortune.com
Cobertura del lanzamiento de OpenAI Zúrich: Google Search
Repositorio de big_vision: github.com/google-research/big_vision
Perfil de Digg: digg.com/u/x/giffmana