Le projet First Proof, lancé par des mathématiciens américains de haut rang pour évaluer le niveau des intelligences artificielles en recherche mathématique, a rendu ses conclusions il y a quelques semaines. Les grands modèles de langage (LLM) parviennent désormais à résoudre seuls des problèmes d'un très bon niveau, mais ils font encore beaucoup d'erreurs et produisent parfois des résultats incompréhensibles.
Un test inédit sur des problèmes non publiés
L'équipe du projet First Proof a demandé à dix mathématiciens de sélectionner un problème qu'ils avaient résolu mais dont le résultat n'était pas encore publié, et dont aucune solution n'était disponible en ligne. « Nous devions procéder avec une grande prudence, car les modèles d'IA sont extrêmement performants pour la recherche d'informations sur Internet », explique Lauren Williams, mathématicienne à Harvard et coordinatrice du projet.
L'objectif était de répondre au « discours excessif des boîtes d'IA sur la capacité de leurs modèles » et de sensibiliser la communauté mathématique à ces outils précieux, selon Williams.
Des résultats contrastés
Les tests ont montré une grande évolution des LLM par rapport aux années précédentes. Les IA ont réussi à résoudre plusieurs problèmes de recherche de bon niveau, dépassant le simple cadre des Olympiades internationales de mathématiques ou de la recherche de solutions existantes en ligne. Cependant, dans la majorité des cas, les modèles ont commis des erreurs significatives ou produit des démonstrations incompréhensibles.
« Même si pour le moment, les très bons mathématiciens restent meilleurs », résume le rapport. Les chercheurs humains conservent une avance nette, notamment dans la capacité à construire des raisonnements originaux et à éviter les incohérences logiques.
Un outil prometteur mais pas encore autonome
Malgré ces limites, le projet First Proof souligne l'utilité croissante des IA comme outils d'assistance pour les mathématiciens. Les modèles peuvent aider à explorer des pistes, vérifier des calculs ou générer des conjectures. « Beaucoup de mathématiciens semblent ignorer l'utilité de ces outils », regrette Lauren Williams.
L'étude recommande de poursuivre le développement des IA spécialisées en mathématiques, tout en maintenant une évaluation rigoureuse de leurs capacités réelles. Les prochaines étapes du projet First Proof devraient inclure des tests sur des problèmes encore plus complexes, impliquant des branches entières des mathématiques pures.



