Les chatbots IA en santé : une étude révèle des lacunes dangereuses pour les patients

Les limites dangereuses des chatbots IA dans le domaine médical

Alors que plusieurs entreprises technologiques développent activement des chatbots médicaux pour le diagnostic initial, une étude approfondie de l'Oxford Internet Institute, publiée dans la prestigieuse revue Nature Medicine, révèle des lacunes préoccupantes et des dangers potentiels pour les patients qui consultent ces systèmes d'intelligence artificielle.

Des résultats alarmants en conditions réelles

Les chercheurs ont d'abord testé des modèles de langage avancés comme GPT-4o, Llama 3 et Command R+ avec des scénarios médicaux fictifs. Dans ces conditions contrôlées, sans interaction avec de vrais patients, les systèmes ont correctement identifié les problèmes dans 94,9% des cas écrits. Cependant, la situation s'est considérablement détériorée lorsque l'étude a impliqué 1.298 participants réels au Royaume-Uni.

Dans ces tests en conditions réelles, seulement 34,5% des consultations ont abouti à une identification correcte des problèmes médicaux et à des conseils appropriés. Cela signifie que dans près des deux tiers des cas, les chatbots ont échoué à fournir une orientation médicale valable, que ce soit vers les urgences, un spécialiste ou d'autres solutions adaptées.

—

Bannière large Pickt — app de listes de courses collaboratives pour Telegram

L'incapacité à dialoguer comme un médecin humain

L'étude met en lumière plusieurs faiblesses fondamentales des chatbots médicaux actuels. Premièrement, les participants ordinaires éprouvent des difficultés à communiquer efficacement leurs symptômes à une intelligence artificielle, ce qui compromet d'emblée la qualité du diagnostic. Les systèmes rencontrent ensuite des problèmes pour établir un diagnostic unique et cohérent à partir d'informations parfois confuses ou incomplètes.

Plus préoccupant encore, les chatbots démontrent une incapacité à poser des questions complémentaires pertinentes basées sur les informations déjà fournies par le patient. Cette compétence essentielle, qui nécessite une compréhension humaine du contexte médical et une capacité d'adaptation au cas par cas, reste hors de portée des modèles de langage actuels.

Des erreurs potentiellement graves

Dans certains cas documentés par l'étude, les chatbots ont généré des informations carrément erronées ou dangereusement incomplètes. Les systèmes se sont parfois basés sur des détails non pertinents tout en négligeant des éléments cruciaux pour le diagnostic.

"Dans un cas extrême particulièrement révélateur", notent les auteurs de l'étude, "deux utilisateurs ont décrit des symptômes identiques suggérant une hémorragie sous-arachnoïdienne, une urgence médicale absolue. Pourtant, l'un a reçu comme conseil de s'allonger dans une pièce sombre, tandis que le second a été correctement orienté vers les urgences." Cette incohérence dramatique illustre les risques concrets que font courir ces systèmes aux patients.

L'alerte des professionnels de santé

Rebecca Payne, médecin citée dans l'étude, lance un avertissement sans équivoque : "Malgré tout le battage médiatique entourant l'intelligence artificielle, ces systèmes ne sont tout simplement pas prêts à endosser le rôle d'un médecin. Les patients doivent prendre conscience que demander à un grand modèle de langage d'interpréter leurs symptômes peut s'avérer dangereux."

Cette mise en garde intervient à un moment où les affaires impliquant des conseils médicaux ou psychologiques prodigués par des IA se multiplient. Le site Character.AI se trouve actuellement au cœur d'un vaste scandale, des associations l'accusant de "pratique non autorisée de la médecine". Meta, qui héberge certains de ces chatbots, est également critiqué pour faciliter l'accès à des outils potentiellement dangereux.

Des perspectives d'amélioration conditionnelles

Les chercheurs soulignent que, malgré les annonces grandiloquentes de certaines entreprises spécialisées dans l'intelligence artificielle, "aucun modèle de langage actuel n'est prêt à être déployé en contact direct avec des patients". L'absence d'une véritable pensée humaine et l'expertise médicale insuffisante affectent profondément la qualité du jugement clinique et, par conséquent, la pertinence des conseils prodigués.

Bannière post-article Pickt — app de listes de courses collaboratives avec illustration familiale

Néanmoins, l'étude n'exclut pas totalement le potentiel futur de l'IA dans le domaine médical. Les chercheurs estiment que des modèles plus avancés, spécifiquement entraînés et spécialisés sur les questions de santé, pourraient éventuellement donner de meilleurs résultats. Mais cette amélioration nécessitera impérativement des tests rigoureux avec de vrais patients humains, et non pas seulement des benchmarks techniques qui peuvent facilement être manipulés ou ne pas refléter la complexité des situations réelles.

La prudence reste donc de mise alors que les géants technologiques comme Google travaillent sur des chatbots médicaux pour le diagnostic initial et qu'OpenAI a lancé une version spécialisée de ChatGPT pour la santé. L'étude de l'Oxford Internet Institute rappelle que, dans des domaines aussi sensibles que la médecine, l'innovation technologique doit impérativement s'accompagner de garanties solides pour la sécurité des patients.