Humanity Last Exam : le défi ultime pour les intelligences artificielles
Dans le domaine de la mythologie grecque, qui est l'arrière-grand-père maternel de Jason ? Si cette question vous semble ardue, peut-être préférerez-vous vous attaquer à un problème sur les syllabes fermées se terminant par une consonne en hébreu biblique, en vous basant sur la tradition de prononciation tibérienne. Ou peut-être souhaitez-vous plutôt tester vos connaissances sur les réactions en cascade péricyclique thermique d'ester méthylique ? Ces interrogations ne proviennent pas des annales d'examen d'une prestigieuse université, mais bien de Humanity Last Exam.
La frontière ultime entre humains et machines
"Le dernier examen académique que nous voulons faire passer aux intelligences artificielles", explique Long Phan, chercheur en intelligence artificielle au Center of AI Safety et l'un des créateurs de ce test conçu comme l'ultime frontière entre les humains et les machines. Ce benchmark représente une tentative ambitieuse de mesurer les capacités cognitives les plus avancées.
Des questions de niveau doctorat
Les tests pour évaluer les performances des IA, communément appelés benchmarks, étaient utilisés bien avant l'avènement de l'intelligence artificielle générative pour déterminer si les produits technologiques étaient prêts à être déployés. Cependant, avec l'arrivée des LLM (large language models) qui propulsent des outils comme ChatGPT, ces évaluations ont rapidement été dépassées.
Le benchmark MMLU, dévoilé en 2020, avait été conçu spécifiquement pour être plus difficile que les autres tests existants. Il évaluait les intelligences artificielles sur pas moins de 16 000 questions exigeant à la fois une vaste culture générale et des capacités de raisonnement sophistiquées. Pourtant, dès sa sortie en novembre 2022, ChatGPT 3.5 affichait déjà un taux impressionnant de 70 % de bonnes réponses à ce test réputé difficile.
La nécessité d'un nouveau standard
Cette performance rapide des modèles de langage a mis en lumière la nécessité de développer des benchmarks encore plus exigeants. Humanity Last Exam se positionne comme cette nouvelle référence, avec des questions qui touchent à des domaines spécialisés allant de la linguistique historique à la chimie organique avancée, en passant par les mathématiques des processus stochastiques.
Les créateurs de ce test estiment que ces questions complexes, nécessitant une compréhension profonde et une capacité de raisonnement abstrait, représentent actuellement le meilleur moyen de distinguer les capacités humaines des performances algorithmiques. Alors que les IA continuent de progresser à un rythme accéléré, ce benchmark pourrait bien devenir l'étalon-or pour mesurer l'écart qui persiste entre l'intelligence artificielle et l'intelligence humaine.



