J. Zico Kolter

ref · 28 Mayo, 2026 14:05

Profesor y director del Departamento de Aprendizaje Automático en la CMU, cuyo trabajo en optimización diferenciable, robustez adversarial demostrable y jailbreaking automatizado de LLM le valió un puesto en la junta directiva de OpenAI como presidente de su Comité de Seguridad y Protección.

Perfil


Nacionalidad	Estadounidense
Institución(es) actual(es)	Universidad Carnegie Mellon — Departamento de Aprendizaje Automático (Profesor y Director); Bosch Center for AI (Científico Jefe, Investigación en IA); Gray Swan AI (Cofundador y Asesor Senior); OpenAI (Miembro de la Junta Directiva, Presidente del Comité de Seguridad y Protección)
Áreas de investigación	Seguridad de la IA, Robustez Adversarial, Optimización Diferenciable, Teoría del Aprendizaje Profundo, Redes Neuronales Implícitas, Sistemas Energéticos
Asesor doctoral	Andrew Y. Ng
Tesis doctoral	Learning and Control with Inaccurate Models (Universidad de Stanford, 2010)
Sitio web	zicokolter.com
X / Twitter	@zicokolter
GitHub	zkolter · locuslab (org. del laboratorio)
Google Scholar	J. Zico Kolter

Resumen

J. Zico Kolter es un informático estadounidense que ha dedicado su carrera a la intersección precisa entre la teoría de la optimización y el diseño de redes neuronales. Como profesor y director del Departamento de Aprendizaje Automático de la Universidad Carnegie Mellon —puesto que ocupa desde que se incorporó al claustro en 2012— ha producido un cuerpo de trabajo técnicamente inusual por su insistencia en garantías sólidas: arquitecturas cuyas salidas son demostrablemente robustas frente a perturbaciones adversariales, capas que son literalmente solucionadores de optimización convexa, y redes definidas no por ecuaciones explícitas de paso hacia adelante sino por condiciones de punto fijo. Su artículo de 2023 que introdujo el ataque Greedy Coordinate Gradient (GCG), que demostró por primera vez que los modelos de lenguaje grandes alineados podían ser jailbreakeados de forma automática y universal, se convirtió simultáneamente en uno de los artículos más citados en seguridad de LLM y en el trabajo fundacional de Gray Swan AI, la startup de seguridad que cofundó. En agosto de 2024 fue nombrado miembro de la junta directiva de OpenAI y designado presidente de su Comité de Seguridad y Protección —uno de los roles de gobernanza de seguridad de IA más significativos desde el punto de vista operativo en la industria.

Primeros años y educación

Kolter completó su licenciatura en Ciencias de la Computación en la Universidad de Georgetown. Posteriormente, en 2005, se matriculó en el programa de doctorado en Ciencias de la Computación de la Universidad de Stanford, donde trabajó en el grupo de Andrew Ng en la intersección del aprendizaje automático y el control robótico. Su tesis doctoral, Learning and Control with Inaccurate Models (2010), abordó cómo los agentes de aprendizaje por refuerzo pueden funcionar eficazmente cuando los modelos que utilizan para planificar son imperfectos —una preocupación con implicaciones tanto para la robótica como para la IA segura que prefigura su investigación posterior centrada en la seguridad. El trabajo en coautoría con Ng y Sebastian Thrun durante este período cubrió la locomoción con patas, la conducción autónoma extrema y la desagregación de energía. Tras su doctorado, realizó una beca posdoctoral en el MIT CSAIL de 2010 a 2012, antes de incorporarse a la CMU como profesor asistente.

Carrera

Universidad Carnegie Mellon — Departamento de ML (2012–presente)

Kolter se incorporó a la CMU en 2012 y fue ascendiendo hasta convertirse en profesor titular, llegando finalmente a ser director (jefe de departamento) del Departamento de Aprendizaje Automático dentro de la Escuela de Ciencias de la Computación. Mantiene afiliaciones con el Departamento de Ciencias de la Computación, el Instituto de Robótica, el Departamento de Sistemas Software y Societales, y el Instituto de Seguridad y Privacidad CyLab. Su grupo de investigación, conocido como Locus Lab (GitHub: locuslab), ha producido un flujo de artículos influyentes en tres temas superpuestos:

Optimización diferenciable y arquitecturas implícitas. La vertiente técnicamente más distintiva del trabajo de Kolter trata los problemas clásicos de optimización como bloques de construcción para redes neuronales. OptNet (ICML 2017, con Brandon Amos) mostró cómo incrustar un programa cuadrático como una capa diferenciable, permitiendo a las redes imponer restricciones estrictas y razonar sobre dependencias estructuradas que las capas convencionales no pueden capturar; está implementado en el paquete de código abierto qpth y se convirtió en una referencia fundamental para la literatura de diferenciación implícita. Las Redes Neuronales Convexas de Entrada (ICML 2017, también con Amos) introdujeron arquitecturas cuyas salidas están garantizadas como convexas en sus entradas, con aplicaciones en la optimización de sistemas energéticos y la predicción estructurada. Los Modelos de Equilibrio Profundo (DEQ, NeurIPS 2019, con Shaojie Bai y Vladlen Koltun) reformularon las redes profundas como puntos fijos de una única capa repetida, permitiendo un razonamiento de profundidad infinita con memoria constante durante los pases hacia adelante mediante solucionadores de búsqueda de raíces; un trabajo de seguimiento sobre DEQ multiescala amplió aún más el marco.

Robustez adversarial demostrable. A partir de aproximadamente 2018, el grupo de Kolter se centró en la cuestión de si los clasificadores profundos podrían hacerse robustos de forma certificable —no solo empíricamente resistentes a los ataques, sino demostrablemente, con garantías formales. El artículo de ICML 2018 “Provable Defenses Against Adversarial Examples via the Convex Outer Adversarial Polytope” (con Eric Wong) fue el primer método que proporcionó exactamente esto para redes de tamaño no trivial, utilizando una relajación convexa de la región adversarial alrededor de cada entrada para calcular radios certificados exactos. Los trabajos posteriores desarrollaron el suavizado aleatorizado y las arquitecturas acotadas por Lipschitz, dando lugar a un grupo de la CMU que se convirtió en uno de los principales contribuyentes a los puntos de referencia de robustez certificable.

Seguridad de LLM y red-teaming automatizado. A partir de 2022, el grupo de Kolter comenzó a aplicar métodos adversariales a los modelos de lenguaje alineados. El artículo emblemático “Universal and Transferable Adversarial Attacks on Aligned Language Models” (arXiv 2307.15043, 2023, con Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr y Matt Fredrikson) introdujo el ataque GCG: un método de optimización discreta basado en gradientes que encuentra un sufijo universal que, cuando se añade a cualquier consulta dañina, hace que los LLM alineados —incluyendo Llama-2, Vicuna, ChatGPT, Bard y Claude— cumplan. El artículo demostró que las barreras de seguridad de los LLM eran frágiles de una manera estructuralmente fundamental, provocó una oleada sustancial de investigación posterior sobre jailbreak y defensa, y recibió una amplia cobertura en la prensa técnica y general.

C3.ai — Director de Datos (fechas sin confirmar)

Kolter se desempeñó como director de datos en C3.ai, la empresa de software de IA empresarial, en un momento anterior de su carrera. Dijo a los periodistas que los LLM «son vectores de ataque», una cita que circuló ampliamente después del artículo de GCG. El momento y la duración del cargo en C3.ai no se han especificado públicamente más allá de LinkedIn.

Bosch Center for AI — Científico Jefe, Investigación en IA (en curso)

Además de su puesto en la CMU, Kolter se desempeña como científico jefe de investigación en IA en la oficina de Pittsburgh del Bosch Center for AI. Bosch proporciona una financiación sustancial para la investigación en su grupo de la CMU, lo que permite un trabajo a una escala no típica para un laboratorio académico; la relación ha sido reconocida abiertamente en su biografía institucional.

Gray Swan AI — Cofundador y Asesor Senior (2023/2024–presente)

Kolter cofundó Gray Swan AI —cuyo nombre hace referencia al concepto de riesgos catastróficos previsibles pero infravalorados— como una empresa de seguridad y protección de IA con sede en Pittsburgh cuya misión principal es endurecer los sistemas de IA contra ataques adversariales y evaluar la seguridad de los LLM a escala. La producción investigadora de la empresa incluye el paquete nanoGCG, una implementación ligera de código abierto del algoritmo GCG. Kolter se desempeña como asesor senior mientras mantiene su puesto en la CMU.

Junta Directiva de OpenAI y Comité de Seguridad y Protección (agosto de 2024–presente)

El 8 de agosto de 2024, OpenAI anunció el nombramiento de Kolter en su junta directiva, nombrándolo simultáneamente presidente del recién constituido Comité de Seguridad y Protección. El comité tiene la autoridad para hacer recomendaciones sobre decisiones críticas de seguridad y protección para todos los proyectos de OpenAI, incluido el poder de retrasar los lanzamientos de modelos pendientes de revisión de seguridad. El presidente de la junta, Bret Taylor, señaló que Kolter «aporta una profunda comprensión técnica y perspectiva en seguridad y robustez de la IA». Los reguladores incorporaron referencias a la función de supervisión del comité en acuerdos formales con OpenAI, lo que convierte el papel de Kolter en uno de los pocos puestos de gobernanza de seguridad de IA con estatus regulatorio documentado. En 2025 fue además nombrado beneficiario de la financiación del programa de ciencia de seguridad de IA de Schmidt Sciences.

Contribuciones clave

OptNet — Optimización Diferenciable como una Capa en Redes Neuronales (ICML 2017, con Brandon Amos) — Primer marco general para incrustar programas cuadráticos restringidos como capas de redes neuronales diferenciables; introdujo el paquete qpth para PyTorch y fundó el subcampo de diferenciación implícita / redes declarativas.
Redes Neuronales Convexas de Entrada (ICML 2017, con Amos) — Arquitecturas cuyas salidas son convexas en sus entradas por construcción, permitiendo modelos basados en energía y predicción estructurada con geometría convexa garantizada.
Defensas Demostrables mediante el Politopo Adversarial Exterior Convexo (ICML 2018, con Eric Wong) — Primer método que proporciona clasificadores profundos robustos certificables para redes no triviales, mediante una relajación de programación lineal de la región de entrada adversarial.
Modelos de Equilibrio Profundo (DEQ) (NeurIPS 2019, con Shaojie Bai y Vladlen Koltun) — Reformularon las redes profundas como puntos fijos de una única transformación repetida, resueltos mediante búsqueda de raíces con memoria constante; abrieron la literatura de redes neuronales implícitas.
Ataque GCG / Ataques Adversariales Universales y Transferibles en LLM Alineados (arXiv 2307.15043, 2023; con Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, Matt Fredrikson) — Introdujeron el método Greedy Coordinate Gradient, el primer jailbreak universal automatizado para modelos de lenguaje alineados; demostraron la transferencia exitosa a modelos cerrados sin acceso de caja blanca; se convirtió en la línea base de ataque definitoria para la investigación de red-teaming de LLM y la base de Gray Swan AI.
Comité de Seguridad y Protección de OpenAI (2024–presente) — Como presidente, tiene la autoridad formal para recomendar retrasos en los lanzamientos de modelos por razones de seguridad; un caso inusual de investigación técnica en seguridad de IA directamente instanciada en la gobernanza corporativa con reconocimiento regulatorio.

Premios y reconocimientos

Múltiples Premios al Mejor Artículo en NeurIPS, ICML y AISTATS — Reconocido en las sedes donde su grupo publica con mayor frecuencia; años y artículos específicos no consolidados en una única fuente pública.
Programa de Ciencia de Seguridad de IA de Schmidt Sciences (2025) — Financiación competitiva que reconoce la investigación temprana en seguridad de IA.
Nombramiento en la Junta Directiva de OpenAI (2024) — Selección como la voz técnica principal en seguridad en la junta de la empresa de IA de mayor perfil del mundo.
Premio NSF CAREER (c. 2014–2019, fechas aproximadas) — Financiación temprana en la CMU para trabajo en desagregación de energía y aprendizaje automático.

Relaciones clave

Andrew Y. Ng — Asesor de doctorado en Stanford; el trabajo temprano en robótica, locomoción y desagregación de energía bajo Ng estableció la orientación ingenieril y de aplicación al mundo real que atraviesa toda la investigación posterior de Kolter.
Brandon Amos — Su estudiante de doctorado más influyente; coautor de los artículos de OptNet e ICNN, cuyas ideas continúan ramificándose a través de la programación diferenciable; Amos ahora está en Meta FAIR.
Andy Zou — Estudiante de doctorado y coautor del artículo de GCG; simultáneamente cofundador de Gray Swan AI; el trabajo de Zou sobre ataques adversariales a LLM dio al grupo de Kolter su identidad investigadora más prominente reciente.
Shaojie Bai — Estudiante de doctorado y primer autor de los Modelos de Equilibrio Profundo; el trabajo de DEQ representa la contribución arquitectónica más novedosa de Kolter a la literatura de redes implícitas.
Matt Fredrikson — Colega de la CMU y coautor del artículo de GCG y de la investigación más amplia sobre seguridad de LLM; un criptógrafo convertido en investigador de seguridad que aportó rigor al marco del ML adversarial.
Vladlen Koltun — Científico de Adobe Research y coautor de los DEQ; su perspectiva de sistemas complementó las contribuciones teóricas del Locus Lab.
Priya Donti — Estudiante de doctorado de su grupo que se convirtió en una voz prominente sobre IA y clima; cofundó Climate Change AI; su trabajo sobre optimización diferenciable para sistemas energéticos extiende OptNet a aplicaciones de redes eléctricas.
Sam Altman / junta directiva de OpenAI — Kolter se unió a una junta reconstituida que también incluye a Adam D’Angelo y Larry Summers; su nombramiento se enmarcó explícitamente como una respuesta a la brecha de credibilidad en seguridad técnica dejada por la crisis de gobernanza de noviembre de 2023.

Estilo personal

La estética investigadora de Kolter es una de las más coherentes en el ML contemporáneo: casi todo lo que publica o bien (a) incrusta un objeto matemático clásicamente entendido —un QP, una ecuación de punto fijo, un conjunto convexo— dentro de una red neuronal, o bien (b) ataca la cuestión de cuándo y si las redes neuronales satisfacen garantías formales. El artículo de GCG es la expresión más clara del segundo instinto aplicado a los modelos de lenguaje: en lugar de probar la seguridad empíricamente, plantea la pregunta como un problema de optimización y lo resuelve. Su transición de roles académicos a roles de gobernanza ha sido inusualmente directa —el artículo de GCG llevó casi inmediatamente a Gray Swan, y el perfil de Gray Swan condujo al nombramiento en OpenAI— reflejando un consenso de la comunidad de que sus credenciales de seguridad son sustanciales y no performativas. Es notablemente raro entre las figuras de seguridad de IA por haber publicado tanto ataques importantes a sistemas alineados como defensas importantes, lo que otorga a sus posiciones políticas una especificidad técnica de la que a menudo carecen los comentaristas de seguridad más teóricos.