Anthropic révèle Claude Mythos, une IA aux capacités cyber inquiétantes suite à une fuite

Une erreur de configuration révèle un secret bien gardé d'Anthropic

C'est une simple erreur de configuration qui a conduit à la fuite d'informations confidentielles, dévoilant ainsi l'un des secrets les mieux gardés d'Anthropic : le développement d'une nouvelle intelligence artificielle nommée Claude Mythos, également appelée Capybara. Selon l'entreprise, il s'agirait du "modèle le plus performant" qu'elle ait "jamais créé", représentant "un changement radical" par rapport aux IA existantes, comme l'a confirmé son porte-parole.

La découverte par des chercheurs en sécurité

Deux chercheurs en sécurité informatique ont découvert cette fuite avant qu'elle ne soit confirmée par le média américain Fortune jeudi 26 mars. Les documents mis en ligne par erreur ne vantent pas seulement les performances de Mythos, mais soulignent surtout ses risques cybernétiques, mettant le monde de la technologie en alerte.

Dans ces fichiers, le modèle est décrit comme "actuellement bien en avance sur tout autre modèle d'IA en matière de capacités cyber" et capable d'exploiter des vulnérabilités logicielles "à une échelle qui dépasse largement les efforts des défenseurs".

—

Bannière large Pickt — app de listes de courses collaboratives pour Telegram

Des risques cyber identifiés et des mesures de précaution

Anthropic reconnaît ainsi avoir développé un outil dont les capacités offensives potentielles, si des hackers s'en emparaient, dépasseraient ce que les équipes de sécurité pourraient contrer. Par mesure de précaution, Mythos sera initialement mis à disposition uniquement des cyberdéfenseurs pour mieux appréhender ses failles potentielles.

"Nous souhaitons redoubler de prudence et bien comprendre les risques qu'il représente, même au-delà de ce que nous apprenons de nos propres tests", a écrit l'entreprise dans un article de blog qui a fuité.

Un contexte de cyberattaques et de bataille judiciaire

Le risque est pris très au sérieux par les acteurs de la tech, alors que l'utilisation de l'IA pour des cyberattaques est déjà une réalité. Anthropic en a déjà fait les frais : en novembre dernier, l'entreprise a rapporté un piratage de son IA Claude Code par un groupe lié au gouvernement chinois, visant une trentaine de cibles mondiales.

Cette fuite intervient alors qu'Anthropic est engagée dans une bataille judiciaire avec le Pentagone aux États-Unis. Jeudi, une juge fédérale de San Francisco a bloqué une directive interdisant l'utilisation d'Anthropic au sein de l'armée, estimant que cette décision était "contraire à la loi, arbitraire et capricieuse".

Un différend éthique et un paradoxe révélateur

Le différend remonte à février, lorsque le PDG d'Anthropic, Dario Amodei, a demandé des "restrictions d'utilisation" éthiques dans le contrat avec le Pentagone, concernant la surveillance de masse et l'intégration à des armes autonomes. Paradoxalement, quelques heures après l'interdiction, le Wall Street Journal a révélé que le Pentagone avait utilisé Claude pour lancer des bombardements en Iran.

Cette situation met en lumière les tensions croissantes entre innovation technologique, sécurité nationale et éthique, alors que les capacités de l'IA continuent d'évoluer à un rythme rapide.