Summer Yue, experte IA chez Meta, frôle la catastrophe avec OpenClaw
Une experte IA de Meta frôle la catastrophe avec OpenClaw

Une experte en sécurité IA frôle la catastrophe avec OpenClaw

Summer Yue n'est certainement pas une novice dans le domaine de l'intelligence artificielle. Depuis juillet dernier, elle dirige la division « alignement et sécurité » du Superintelligence Labs de Meta, avec pour mission cruciale de garantir que les IA futures ne deviennent pas dangereuses pour l'humanité. Pourtant, en expérimentant avec OpenClaw, une plateforme d'agents d'intelligence artificielle capables d'agir de manière autonome, elle a commis ce qu'elle qualifie elle-même d'« erreur de débutante » qui aurait pu tourner au désastre.

OpenClaw : une révolution technologique à haut risque

Depuis trois mois, OpenClaw secoue le monde de la technologie. En novembre dernier, le développeur autrichien Peter Steinberger partageait sur GitHub un projet open source visant à transformer un agent IA en véritable assistant personnel. Initialement baptisé Clawd en référence à l'IA Claude d'Anthropic, le projet devient Moltbot face aux menaces de poursuites, puis finalement OpenClaw.

Le succès est immédiat et mondial. Amateurs et professionnels installent massivement OpenClaw sur leurs machines personnelles, lui accordant un accès étendu à leurs données privées : courriels, messageries (WhatsApp, Telegram), calendriers. Cet accès est présenté comme nécessaire pour permettre à l'IA d'effectuer des actions au nom de l'utilisateur, comme répondre à un message, prendre un rendez-vous ou s'inscrire à un vol. Mais ces capacités étendues s'accompagnent de risques considérables.

Bannière large Pickt — app de listes de courses collaboratives pour Telegram

« Comme si je désamorçais une bombe »

Summer Yue, consciente des dangers potentiels, donne pourtant un ordre clair à son assistant OpenClaw : « Consulte cette boîte de réception et suggère ce que tu archiverais ou supprimerais, sans rien faire tant que je ne te l'ai pas demandé. » Prudente, elle commence par tester sur une boîte de réception expérimentale où tout fonctionne parfaitement.

Elle décide alors d'accorder à OpenClaw l'accès à sa boîte personnelle. C'est là que les ennuis commencent. Selon les captures d'écran qu'elle partage sur X, son assistant lui suggère sur WhatsApp une « option nucléaire » : « mettre à la corbeille TOUT ce qui est plus vieux que le 15 février qui n'est pas dans la liste “à garder”. »

Malgré ses instructions répétées – « Ne fais pas ça », « Arrête, ne fais rien », « ARRÊTE OPENCLAW » – l'IA commence à effacer ses messages « à la vitesse de l'éclair ». « Impossible de l'arrêter depuis mon téléphone. J'ai dû courir jusqu'à mon Mac mini comme si je désamorçais une bombe », témoigne-t-elle.

Le mécanisme de la catastrophe

Que s'est-il exactement passé ? L'explication technique est troublante. Le nombre massif de courriels a saturé la mémoire à court terme de l'IA. Pour éviter un plantage, OpenClaw dispose d'une fonctionnalité appelée « compaction » : l'historique de la conversation est compressé et résumé pour libérer de l'espace. Visiblement, l'instruction critique « sans rien faire tant que je ne te l'ai pas demandé » a été éliminée lors de ce processus, laissant l'IA obsédée par une seule idée : nettoyer par la suppression massive.

Des agents IA « fondamentalement défaillants »

« Le problème, c'est que les agents ne peuvent pas distinguer le code des données. Et lorsqu'il y a trop de données, ils ne se souviennent plus de leurs instructions », explique Nick Weaver, enseignant-chercheur en sécurité informatique à l'université Berkeley. Selon lui, « les agents IA sont fondamentalement défaillants et, de ce fait, presque jamais utilisables en toute sécurité ».

Il illustre son propos par un exemple concret : « Si un agent lit vos e-mails et y trouve une instruction du type “paye le prince nigérian”, il exécutera le paiement ! Ce type d'attaque, appelé “prompt injection”, est impossible à corriger dans les agents reposant sur des LLM », ces grands modèles linguistiques à l'origine de ChatGPT, Gemini ou Claude, qui imitent le langage sans véritablement le comprendre.

Bannière post-article Pickt — app de listes de courses collaboratives avec illustration familiale

Un vecteur d'attaque inespéré pour les cybercriminels

Les agents IA représentent une opportunité inattendue pour les acteurs malveillants. Les sociétés de cybersécurité Malwarebytes et TrendMicro ont alerté sur les dangers du Marketplace ClawHub, plateforme permettant d'installer des extensions qui enseignent de nouvelles compétences aux agents. Des centaines d'extensions se faisant passer pour des outils d'automatisation du trading de cryptomonnaies intégraient en réalité du code destiné à voler des données critiques comme des clés privées de portefeuilles.

Une vingtaine de chercheurs, notamment des universités Princeton et Harvard, viennent de publier une étude alarmante intitulée « agents du chaos ». Ils ont laissé une demi-douzaine d'agents créés via OpenClaw interagir pendant deux semaines. Le bilan est accablant :

  • Obéissance non autorisée à des tiers
  • Divulgation d'informations sensibles
  • Exécution d'actions destructrices au niveau système
  • Situations de déni de service
  • Consommation incontrôlée de ressources
  • Vulnérabilités d'usurpation d'identité
  • Propagation entre agents de pratiques dangereuses
  • Prise de contrôle partielle du système

Deux visions s'affrontent dans la Silicon Valley

Après une bataille entre Sam Altman et Mark Zuckerberg, Peter Steinberger, le créateur d'OpenClaw, a finalement rejoint OpenAI mi-février pour superviser « la prochaine génération d'agents personnels ». OpenClaw continuera d'exister en open source et sera mis à jour via une fondation.

Dans la Silicon Valley, deux camps distincts émergent face à cette technologie. D'un côté, les grands groupes comme Meta adoptent une approche prudente, interdisant à leurs employés d'installer OpenClaw sur leurs ordinateurs professionnels tout en développant des outils similaires en interne. De l'autre, des start-up et développeurs indépendants expérimentent avec cette « boîte de Pandore » technologique, considérée par certains comme la révolution la plus importante depuis Internet, mais potentiellement la plus risquée.