ChatGPT échoue dans la moitié des diagnostics médicaux selon une étude

L'Intelligence Artificielle en santé : des limites dangereuses révélées par une étude

L'utilisation de l'Intelligence Artificielle (IA) s'est généralisée dans notre quotidien, avec des outils comme ChatGPT qui sont parfois perçus comme des sources d'expertise. Cependant, une mise en garde s'impose : il est crucial de ne pas considérer toutes les réponses générées comme des vérités absolues, particulièrement dans des domaines sensibles comme la santé.

Une étude alarmante sur les capacités diagnostiques de ChatGPT

Forbes rapporte ce dimanche les conclusions d'une recherche publiée le 23 février dans la prestigieuse revue scientifique Nature. Cette étude, menée par des chercheurs de l'Icahn School of Medicine at Mount Sinai Medical School à New York, a évalué les performances de ChatGPT sur 60 scénarios cliniques couvrant 21 spécialités médicales différentes.

Les situations testées variaient en gravité, allant de problèmes pouvant être traités à domicile à des urgences médicales nécessitant une intervention immédiate. La méthodologie rigoureuse a permis d'obtenir des résultats particulièrement préoccupants pour les utilisateurs qui s'appuieraient sur l'IA pour des conseils de santé.

—

Bannière large Pickt — app de listes de courses collaboratives pour Telegram

Des erreurs de diagnostic dans plus de la moitié des cas

L'analyse des données révèle des chiffres alarmants : ChatGPT n'a fourni de bons conseils que pour 48,4% des urgences médicales et seulement 35,2% des situations non urgentes. Parmi les erreurs les plus graves identifiées par les chercheurs :

Une minimisation dangereuse de crises d'asthme sévères
Une sous-estimation des complications liées au diabète
Un manque de sérieux dans l'évaluation des problèmes de santé mentale

Concernant spécifiquement la détection des risques suicidaires, l'outil n'a renvoyé vers les numéros d'urgence appropriés que dans quatre des quatorze scénarios présentés, alors que cette fonctionnalité est censée être systématique.

Une surprescription inquiétante et des limites évidentes

L'étude met également en lumière une tendance à la surprescription : ChatGPT a recommandé de consulter un médecin dans 64,8% des cas où cela n'était pas médicalement nécessaire. Cette prudence excessive pourrait engorger inutilement les systèmes de santé tout en générant de l'anxiété chez les patients.

Le docteur Girish Nadkarni, coauteur de l'étude, explique cette dichotomie dans les performances : « ChatGPT Health a obtenu de bons résultats dans les situations d'urgence classiques telles que les accidents vasculaires cérébraux ou les réactions allergiques graves. Mais il a eu du mal dans des situations plus nuancées où le danger n'est pas immédiatement évident, et ce sont souvent ces cas-là qui requièrent le plus un jugement clinique ».

Les implications pour l'avenir de l'IA en médecine

Cette recherche souligne l'importance cruciale du jugement humain dans l'évaluation médicale, particulièrement dans les cas complexes où les symptômes ne sont pas immédiatement alarmants. Les algorithmes d'IA, bien que performants dans certains domaines, ne peuvent remplacer l'expertise clinique et l'expérience des professionnels de santé.

Les auteurs de l'étude recommandent une approche prudente : l'Intelligence Artificielle peut servir d'outil complémentaire en médecine, mais ne doit en aucun cas être considérée comme une source fiable de diagnostic autonome. Cette mise en garde est particulièrement importante alors que de plus en plus de patients se tournent vers ces technologies pour des questions de santé.