Professeur et directeur du Département d’apprentissage automatique à la CMU. Ses travaux sur l’optimisation différentiable, la robustesse adversaire prouvable et le jailbreaking automatisé des LLM lui ont valu un siège au conseil d’administration d’OpenAI en tant que président de son comité de sécurité et de sûreté.
Profil
| Nationalité | Américain |
| Institution(s) actuelle(s) | Carnegie Mellon University — Machine Learning Department (Professeur et directeur) ; Bosch Center for AI (Directeur scientifique, Recherche en IA) ; Gray Swan AI (Co-fondateur et conseiller principal) ; OpenAI (Membre du conseil d’administration, Président du comité de sécurité et de sûreté) |
| Domaines de recherche | Sécurité de l’IA, Robustesse adversaire, Optimisation différentiable, Théorie de l’apprentissage profond, Réseaux neuronaux implicites, Systèmes énergétiques |
| Directeur de thèse | Andrew Y. Ng |
| Thèse de doctorat | Learning and Control with Inaccurate Models (Université de Stanford, 2010) |
| Site web | zicokolter.com |
| X / Twitter | @zicokolter |
| GitHub | zkolter · locuslab (org. du labo) |
| Google Scholar | J. Zico Kolter |
Aperçu
J. Zico Kolter est un informaticien américain qui a passé sa carrière à l’intersection précise de la théorie de l’optimisation et de la conception de réseaux neuronaux. En tant que professeur et directeur du Département d’apprentissage automatique de l’Université Carnegie Mellon — un poste qu’il occupe depuis son arrivée au corps professoral en 2012 — il a produit un ensemble de travaux techniquement inhabituels par leur insistance sur des garanties solides : des architectures dont les sorties sont robustes de manière prouvable aux perturbations adversaires, des couches qui sont littéralement des solveurs d’optimisation convexe, et des réseaux définis non pas par des équations de passage avant explicites mais par des conditions de point fixe. Son article de 2023 introduisant l’attaque Greedy Coordinate Gradient (GCG), qui a démontré pour la première fois que les grands modèles de langage alignés pouvaient être automatiquement et universellement jailbreakés, est simultanément devenu l’un des articles les plus cités en matière de sécurité des LLM et le travail fondateur de Gray Swan AI, la startup de sécurité qu’il a co-fondée. En août 2024, il a été nommé au conseil d’administration d’OpenAI et nommé président de son comité de sécurité et de sûreté — l’un des rôles de gouvernance de la sécurité de l’IA les plus importants sur le plan opérationnel dans l’industrie.
Jeunesse et formation
Kolter a obtenu sa licence en informatique à l’Université de Georgetown. Il s’est ensuite inscrit en 2005 au programme de doctorat en informatique de l’Université de Stanford, où il a travaillé dans le groupe d’Andrew Ng à l’intersection de l’apprentissage automatique et du contrôle robotique. Sa thèse de doctorat, Learning and Control with Inaccurate Models (2010), traitait de la manière dont les agents d’apprentissage par renforcement peuvent fonctionner efficacement lorsque les modèles qu’ils utilisent pour planifier sont imparfaits — une préoccupation ayant des implications à la fois pour la robotique et pour une IA sûre, qui préfigure ses recherches ultérieures axées sur la sécurité. Les travaux co-écrits avec Ng et Sebastian Thrun durant cette période couvraient la locomotion sur jambes, la conduite autonome extrême et la désagrégation énergétique. Après son doctorat, il a effectué un postdoctorat au MIT CSAIL de 2010 à 2012, avant de rejoindre la CMU en tant que professeur assistant.
Carrière
Carnegie Mellon University — Département ML (2012–présent)
Kolter a rejoint la CMU en 2012 et a été promu au fil des rangs jusqu’à devenir professeur titulaire, puis directeur (chef de département) du Département d’apprentissage automatique au sein de l’École d’informatique. Il maintient des affiliations avec le Département d’informatique, l’Institut de robotique, le Département des systèmes logiciels et sociétaux, et l’Institut CyLab pour la sécurité et la vie privée. Son groupe de recherche, connu sous le nom de Locus Lab (GitHub : locuslab), a produit un flux d’articles influents couvrant trois thèmes qui se chevauchent :
Optimisation différentiable et architectures implicites. Le filon le plus distinctif techniquement du travail de Kolter traite les problèmes d’optimisation classiques comme des blocs de construction pour les réseaux neuronaux. OptNet (ICML 2017, avec Brandon Amos) a montré comment intégrer un programme quadratique en tant que couche différentiable, permettant aux réseaux d’imposer des contraintes strictes et de raisonner sur des dépendances structurées que les couches conventionnelles ne peuvent pas capturer ; il est implémenté dans le package open source qpth et est devenu une référence fondatrice pour la littérature sur la différenciation implicite. Les Input Convex Neural Networks (ICML 2017, également avec Amos) ont introduit des architectures dont les sorties sont garanties convexes par rapport à leurs entrées, avec des applications dans l’optimisation des systèmes énergétiques et la prédiction structurée. Les Deep Equilibrium Models (DEQ, NeurIPS 2019, avec Shaojie Bai et Vladlen Koltun) ont reformulé les réseaux profonds comme les points fixes d’une seule couche répétée, permettant un raisonnement de profondeur infinie avec une mémoire constante pendant les passages avant via des solveurs de recherche de racines ; un suivi sur les DEQ multi-échelles a étendu le cadre.
Robustesse adversaire prouvable. À partir d’environ 2018, le groupe de Kolter s’est tourné vers la question de savoir si les classifieurs profonds pouvaient être rendus robustes de manière certifiable — non seulement résistants de manière empirique aux attaques, mais de manière prouvable, avec des garanties formelles. L’article ICML 2018 « Provable Defenses Against Adversarial Examples via the Convex Outer Adversarial Polytope » (avec Eric Wong) a été la première méthode à fournir exactement cela pour des réseaux de taille non triviale, en utilisant une relaxation convexe de la région adverse autour de chaque entrée pour calculer des rayons certifiés exacts. Les travaux suivants ont développé le lissage randomisé et les architectures à bornes Lipschitz, conduisant à un groupe de la CMU qui est devenu l’un des principaux contributeurs aux benchmarks de robustesse certifiable.
Sécurité des LLM et red-teaming automatisé. À partir de 2022, le groupe de Kolter a commencé à appliquer des méthodes adversaires aux modèles de langage alignés. L’article marquant « Universal and Transferable Adversarial Attacks on Aligned Language Models » (arXiv 2307.15043, 2023, avec Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr et Matt Fredrikson) a introduit l’attaque GCG : une méthode d’optimisation discrète basée sur le gradient qui trouve un suffixe universel qui, lorsqu’il est ajouté à toute requête nuisible, amène les LLM alignés — y compris Llama-2, Vicuna, ChatGPT, Bard et Claude — à se conformer. L’article a démontré que les garde-fous de sécurité des LLM étaient fragiles d’une manière structurellement fondamentale, a déclenché une vague substantielle de recherches sur les jailbreaks et les défenses, et a reçu une large couverture dans la presse technique et générale.
C3.ai — Chief Data Scientist (dates non confirmées)
Kolter a occupé le poste de chief data scientist chez C3.ai, la société de logiciels d’IA d’entreprise, à un stade antérieur de sa carrière. Il a déclaré aux journalistes que les LLM « sont des vecteurs d’attaque », une citation qui a largement circulé après l’article GCG. Le moment et la durée du rôle chez C3.ai n’ont pas été précisés publiquement au-delà de LinkedIn.
Bosch Center for AI — Directeur scientifique, Recherche en IA (en cours)
En plus de son poste à la CMU, Kolter est directeur scientifique de la recherche en IA au bureau de Pittsburgh du Bosch Center for AI. Bosch fournit un financement substantiel pour la recherche dans son groupe de la CMU, permettant un travail à une échelle qui n’est pas typique pour un laboratoire universitaire ; la relation a été ouvertement reconnue dans sa biographie institutionnelle.
Gray Swan AI — Co-fondateur et conseiller principal (2023/2024–présent)
Kolter a co-fondé Gray Swan AI — nommé d’après le concept de risques catastrophiques prévisibles mais sous-pondérés — en tant que firme de sécurité et de sûreté de l’IA basée à Pittsburgh dont la mission principale est de durcir les systèmes d’IA contre les attaques adversaires et d’évaluer la sécurité des LLM à grande échelle. Les résultats de recherche de l’entreprise incluent le package nanoGCG, une implémentation open source légère de l’algorithme GCG. Kolter sert de conseiller principal tout en conservant son poste à la CMU.
Conseil d’administration d’OpenAI et Comité de sécurité et de sûreté (août 2024–présent)
Le 8 août 2024, OpenAI a annoncé la nomination de Kolter à son conseil d’administration, le nommant simultanément président du comité de sécurité et de sûreté nouvellement constitué. Le comité détient l’autorité de faire des recommandations sur les décisions critiques de sécurité et de sûreté pour tous les projets d’OpenAI, y compris le pouvoir de retarder les versions de modèles en attendant un examen de sécurité. Le président du conseil, Bret Taylor, a noté que Kolter « apporte une compréhension technique approfondie et une perspective en matière de sécurité et de robustesse de l’IA ». Les régulateurs ont intégré des références à la fonction de surveillance du comité dans des accords formels avec OpenAI, faisant du rôle de Kolter l’un des rares postes de gouvernance de la sécurité de l’IA à avoir un statut réglementaire documenté. En 2025, il a également été nommé bénéficiaire du financement du programme de science de la sécurité de l’IA de Schmidt Sciences.
Contributions clés
- OptNet — Differentiable Optimisation as a Layer in Neural Networks (ICML 2017, avec Brandon Amos) — Premier cadre général pour intégrer des programmes quadratiques contraints comme couches différentiables de réseaux neuronaux ; a introduit le package PyTorch qpth et a fondé le sous-domaine de la différenciation implicite / des réseaux déclaratifs.
- Input Convex Neural Networks (ICML 2017, avec Amos) — Architectures dont les sorties sont convexes par rapport à leurs entrées par construction, permettant des modèles basés sur l’énergie et une prédiction structurée avec une géométrie convexe garantie.
- Provable Defences via the Convex Outer Adversarial Polytope (ICML 2018, avec Eric Wong) — Première méthode produisant des classifieurs profonds robustes de manière certifiable pour des réseaux non triviaux, via une relaxation de programmation linéaire de la région d’entrée adverse.
- Deep Equilibrium Models (DEQ) (NeurIPS 2019, avec Shaojie Bai et Vladlen Koltun) — A reformulé les réseaux profonds comme points fixes d’une seule transformation répétée, résolus par recherche de racines avec une mémoire constante ; a ouvert la littérature sur les réseaux neuronaux implicites.
- Attaque GCG / Universal and Transferable Adversarial Attacks on Aligned LLMs (arXiv 2307.15043, 2023 ; avec Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, Matt Fredrikson) — A introduit la méthode Greedy Coordinate Gradient, le premier jailbreak universel automatisé pour les modèles de langage alignés ; a démontré un transfert réussi vers des modèles fermés sans accès white-box ; est devenu la baseline d’attaque de référence pour la recherche en red-teaming des LLM et le fondement de Gray Swan AI.
- Comité de sécurité et de sûreté d’OpenAI (2024–présent) — En tant que président, détient l’autorité formelle de recommander des retards de versions de modèles pour des raisons de sécurité ; un cas inhabituel de recherche technique en sécurité de l’IA directement instanciée dans la gouvernance d’entreprise avec une reconnaissance réglementaire.
Prix et distinctions
- Plusieurs Best Paper Awards à NeurIPS, ICML et AISTATS — Reconnu dans les conférences où son groupe publie le plus fréquemment ; années et articles spécifiques non consolidés dans une seule source publique.
- Schmidt Sciences AI Safety Science Programme (2025) — Financement compétitif reconnaissant la recherche précoce en sécurité de l’IA.
- Nomination au conseil d’OpenAI (2024) — Sélection comme la voix technique principale en matière de sécurité au conseil de l’entreprise d’IA la plus en vue au monde.
- NSF CAREER Award (c. 2014–2019, dates approximatives) — Financement en début de carrière à la CMU pour des travaux sur la désagrégation énergétique et l’apprentissage automatique.
Relations clés
- Andrew Y. Ng — Directeur de thèse à Stanford ; les premiers travaux sur la robotique, la locomotion et la désagrégation énergétique sous Ng ont établi l’orientation ingénierie-d’abord, application-dans-le-monde-réel qui traverse toutes les recherches ultérieures de Kolter.
- Brandon Amos — Son étudiant en doctorat le plus influent ; co-auteur des articles OptNet et ICNN, dont les idées continuent de se propager dans la programmation différentiable ; Amos est maintenant chez Meta FAIR.
- Andy Zou — Étudiant en doctorat et co-auteur de l’article GCG ; simultanément co-fondateur de Gray Swan AI ; le travail de Zou sur les attaques adversaires des LLM a donné au groupe de Kolter son identité de recherche la plus importante et la plus récente.
- Shaojie Bai — Étudiant en doctorat et premier auteur des Deep Equilibrium Models ; le travail DEQ représente la contribution la plus novatrice sur le plan architectural de Kolter à la littérature sur les réseaux implicites.
- Matt Fredrikson — Collègue de la CMU et co-auteur de l’article GCG et de recherches plus larges sur la sécurité des LLM ; un cryptographe devenu chercheur en sécurité qui a apporté de la rigueur au cadrage de l’apprentissage automatique adverse.
- Vladlen Koltun — Chercheur chez Adobe Research et co-auteur des DEQ ; sa perspective système a complété les contributions théoriques du Locus Lab.
- Priya Donti — Étudiante en doctorat de son groupe devenue une voix éminente sur l’IA et le climat ; a co-fondé Climate Change AI ; son travail sur l’optimisation différentiable pour les systèmes énergétiques étend OptNet aux applications de réseaux électriques.
- Sam Altman / conseil d’OpenAI — Kolter a rejoint un conseil reconstitué qui comprend également Adam D’Angelo et Larry Summers ; sa nomination a été explicitement présentée comme comblant le déficit de crédibilité technique en matière de sécurité laissé par la crise de gouvernance de novembre 2023.
Style personnel
L’esthétique de recherche de Kolter est l’une des plus cohérentes du ML contemporain : presque tout ce qu’il publie soit (a) intègre un objet mathématique classiquement compris — un QP, une équation de point fixe, un ensemble convexe — à l’intérieur d’un réseau neuronal, soit (b) attaque la question de savoir quand et si les réseaux neuronaux satisfont à des garanties formelles. L’article GCG est l’expression la plus claire du second instinct appliqué aux modèles de langage : plutôt que de sonder empiriquement la sécurité, il pose la question comme un problème d’optimisation et le résout. Sa transition des rôles académiques aux rôles de gouvernance a été inhabituellement directe — l’article GCG a presque immédiatement conduit à Gray Swan, et le profil de Gray Swan a conduit à la nomination chez OpenAI — reflétant un consensus communautaire selon lequel ses références en matière de sécurité sont substantielles plutôt que performatives. Il est particulièrement rare parmi les figures de la sécurité de l’IA d’avoir publié à la fois des attaques majeures contre des systèmes alignés et des défenses majeures, ce qui donne à ses positions politiques une spécificité technique que les commentateurs théoriques de la sécurité manquent souvent.
Références
- Site web personnel : zicokolter.com
- Page du corps professoral du Département ML de la CMU
- Wikipédia : Zico Kolter
- Profil Google Scholar
- arXiv : GCG / Universal Adversarial Attacks on Aligned LLMs (2307.15043)
- arXiv : OptNet (1703.00443)
- Blog de recherche de Gray Swan AI
- Reuters : OpenAI nomme Zico Kolter au conseil d’administration (août 2024)
- Annonce de la CMU : Kolter rejoint le conseil d’OpenAI