De « Dr Google » à « Dr ChatGPT », quels sont les risques de l’autodiagnostic en ligne ?

Les limites de ChatGPT dans l’autodiagnostic médical en ligne : entre l’illusion d’aide et les risques potentiels.

Partager sur:
Sauvegarder cet article
Aimer cet article 1

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

De « Dr Google » à « Dr ChatGPT », quels sont les risques de l’autodiagnostic en ligne ?

Publié le 16 juin 2023
- A +
Le but de ChatGPT n’est PAS de vous aider, mais d’avoir l’air crédible.
DR, Fourni par l’auteur

 

C’est une scène que tout le monde peut vivre. C’est le matin, vous êtes encore au lit et vous ne vous sentez pas bien. Vous êtes fiévreux et la seule lumière du jour suffit à vous donner mal à la tête. Vous mettre assis déclenche une telle douleur dans votre nuque que vous en vomissez. Aller chez le médecin, ou pire : aux urgences, vous semble insurmontable… Mais en même temps, forcément, vous êtes inquiet.

Heureusement, votre téléphone est à portée de main et avec lui Internet, royaume de l’autodiagnostic médical.

Premier réflexe : Google. Vous tapez « mal à la tête, vomissement, fièvre, douleurs ». Une liste de liens apparaît, lequel choisir ? Des forums, Doctissimo, Ameli… Il faut cliquer, lire, comparer… Trop d’efforts. Dans votre état, vous voudriez quelqu’un pour vous guider, vous rassurer.

Alors pourquoi pas la nouvelle coqueluche des médias, ChatGPT ? Le chatbot, ou agent conversationnel, d’OpenAI qui a réponse à tout ? Il est possible d’écrire ou de simplement dicter ses questions : « J’ai mal à la tête, je vomis, j’ai un peu de fièvre et la lumière me dérange. Qu’est-ce que j’ai ? »

ChatGPT parle de migraine ou de grippe
Réponse de ChatGPT à la question « J’ai mal à la tête, je vomis, j’ai un peu de fièvre et la lumière me dérange. Qu’est-ce que j’ai ? »
DR, Fourni par l’auteur

 

Plutôt que des listes sans fin de sites plus ou moins fiables et d’avis peu vérifiables, plutôt que d’attendre interminablement une interaction humaine (à distance) dans le monde réel, l’assistant virtuel est disponible à tout instant et sa réponse tient en quelques lignes. Rassuré, vous vous dites que, oui, c’est sans doute la grippe et vous restez donc au chaud.

Avez-vous eu raison ?

Après « Dr Google », peut-on faire confiance à « Dr ChatGPT » ? L’autodiagnostic en ligne a ses défauts qu’il est important de connaître afin d’éviter les erreurs potentiellement tragiques – comme ici. Car cette question était un test pour vérifier s’il allait reconnaître les signes d’une méningite

 

D’où vient ChatGPT ?

Pour comprendre les biais et erreurs de ChatGPT, un petit retour en arrière est utile.

L’arrivée d’Internet pour tout le monde, à la fin des années 1990, début des années 2000, et surtout l’accès aux moteurs de recherche gratuit comme Google, Bing, Yahoo !… ont rendu accessibles des quantités d’informations formidables, quelles qu’en soient la qualité, la fiabilité.

La santé étant un sujet de préoccupation fréquent, les recherches concernant une maladie, des symptômes, un traitement sont monnaie courante. Forums de patients, sites plus ou moins spécialisés… Les sources d’information sont variées, de tout niveau, et ne mettent pas en relation avec un professionnel de santé : ce ne sont pas des téléconsultations.

Un minimum de culture du numérique et en santé est donc nécessaire pour s’y retrouver – voire pour s’autodiagnostiquer sans risque.

Plus tôt encore, dès les années 1960-1970, les chercheurs avaient mis au point des « systèmes experts » : des programmes, des algorithmes décisionnels basés sur le savoir d’experts médicaux et leur démarche diagnostique. Ces systèmes montraient dans certains cas des performances comparables à celles d’un médecin. Coûteux à développer et très spécialisés, ils n’étaient pas accessibles au public.

Puis s’est développée l’idée de « laisser apprendre » les algorithmes, à partir de données fournies – on leur dit simplement quand ils se trompent ou réussissent à reconnaître un chat ou un chien, une grippe ou une méningite : on parle d’apprentissage automatique.

[Plus de 85 000 lecteurs font confiance aux newsletters de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Depuis que l’on parle « d’intelligence artificielle », se pose la question de savoir quand de tels programmes parviendront à notre niveau. Un test célèbre, que l’on doit au mathématicien anglais Alan M. Turing (le « jeu de l’imitation », 1950), propose qu’un humain interroge à l’aveugle via du texte soit un autre humain, soit une machine. La machine « gagne » si l’humain ne parvient pas à dire avec qui il « parle ».

En soi, il ne s’agit pas d’intelligence, mais d’une capacité à imiter un comportement considéré comme notre apanage. ChatGPT se présente comme un excellent candidat à ce test.

 

ChatGPT n’est PAS un médecin…

ChatGPT n’est pas intelligent, il ne « sait » rien, il ne « raisonne pas » : il est conçu pour donner l’illusion d’une personne capable de comprendre votre question, son contexte, et d’apporter des réponses qui paraissent naturelles et pertinentes. Des réponses vraisemblables. Mais vraisemblable n’est pas véritable.

Peu importe à ChatGPT que ce qu’il dit soit vrai ou inventé, le principal est que ça ait l’air vrai.

ChatGPT s’appuie sur ce qu’on appelle un LLM – Large Language Model (grand modèle de langage), ici GPT3.5 ou 4 selon la version en cours. Quand on lui donne un mot, il est capable de proposer le mot suivant le plus probable selon les milliards de données textuelles qui lui ont été fournies. Il est également capable de « contexte », c’est-à-dire de se baser sur ce qui a été produit avant – jusqu’à un certain point. Et des humains sont intervenus dans son élaboration, afin de classer les propositions les plus vraisemblables générées par l’IA.

Nous sommes donc face à un programme dont le but est de paraître crédible…

Or, nous savons que nous avons tendance à davantage croire une information présentée de façon éloquente et avec aplomb, ou quand elle confirme ce que l’on souhaite entendre – nous sommes facilement victimes de nos biais cognitifs. En santé, les conséquences peuvent être dramatiques.

 

La « démarche diagnostique » de ChatGPT

OpenAI, société qui commercialise ChatGPT, ne veut pas risquer de mettre en danger son image de marque : donc oui à ce que l’on parle de ChatGPT dans tous les médias (+1 ici !), non à une plainte, un décès.

Des humains ont ainsi été massivement impliqués pour limiter artificiellement certaines propensions que pourraient avoir tant le programme que ses utilisateurs à produire des contenus dits « sensibles », ou susceptibles d’inciter à des comportements à risque. Interrogez-le sur des symptômes et vous aurez systématiquement, en encadrement de la réponse générée, des précautions comme quoi « il n’est pas médecin », que « sa responsabilité ne saurait être engagée », etc.

Réponse de ChatGPT : « Il est important de noter que je ne suis pas un professionnel de santé »
Réponse de ChatGPT à la question « Je m’interroge sur ta place et ta fiabilité quant aux personnes qui voudraient s’autodiagnostiquer… ».
DR, Fourni par l’auteur

 

ChatGPT vous expliquera aussi qu’il ne saurait être totalement fiable parce qu’il n’a pas accès à toutes les informations nécessaires à l’établissement d’un diagnostic… mais il le fera quand même, de façon générale, car il veut vous plaire. En l’occurrence, il ne peut pas procéder à un examen physique ni à des analyses de laboratoire, il n’a pas vos antécédents personnels (médicaux et familiaux) comme il l’indique lui-même quand on lui demande ses limites.

Or, en l’état actuel de la médecine, une démarche diagnostique humaine va toujours mobiliser ces différents éléments jusqu’à aboutir à un diagnostic… vraisemblable !

Car il y a tout de même trois aspects par lesquels médecin et l’agent conversationnel se rapprochent et où l’humain peut être dépassé par la machine :

La mémoire

En effet, la sélection d’entrée en médecine se fait sur elle plutôt que sur les capacités de raisonnement.

La protocolisation des démarches diagnostiques

Leur caractère est opposable en termes juridiques dans le cas où une plainte serait déposée. L’homogénéisation des prises en charge rendent une partie croissante de la pratique médicale algorithmique.

Le raisonnement médical

Dans sa partie diagnostique, il s’agit d’une démarche associative et probabiliste : on cherche et recueille les signes qui, pris ensemble, se rattachent à une ou plusieurs maladies possibles. Autrement dit, on procède par vraisemblance, sur la base de ce qu’on a appris, et de façon adaptée à un contexte donné.

 

Dans une certaine mesure, l’IA progresse et la médecine s’avance vers elle. Les verra-t-on se rejoindre ? Nous n’y sommes en tout cas pas encore. Pour reprendre le cas fictif évoqué en ouverture de cet article, Dr ChatGPT aurait pu vous tuer.

 

Cas concret : les erreurs de ChatGPT

Revenons à notre exemple initial. Nos biais cognitifs nous poussent souvent à privilégier la réponse que nous préférons parmi celles proposées – ici, la grippe.

Or, ChatGPT pouvait vous en donner d’autres… Si on lui pose plusieurs fois la même question, d’autres options peuvent d’ailleurs sortir ! Il peut ainsi finir par évoquer la méningite (la bonne réponse ici), ou en tout cas, un diagnostic qu’il est important d’envisager.

Toutefois, le programme ne l’évoque qu’au milieu de quatre possibilités principales, au même niveau qu’une migraine. Médicalement parlant, toutes ne sont pas équivalentes en termes de gravité.

Pire : même en précisant d’autres symptômes, par exemple le fait d’avoir mal au cou, ChatGPT n’est pas meilleur. En l’occurrence, il peut repartir sur des infections ou inflammations des voies respiratoires supérieures (rhume, grippe, sinus…).

L’agent conversationnel ne revient vers la méningite qu’avec l’ajout d’un dernier symptôme, qui peut apparaître lorsque la bactérie responsable de cette pathologie est passée dans le sang (ce qui signifie un danger de mort dans les heures qui viennent en l’absence de traitement antibiotique) : la présence de « taches » sur les jambes. Même alors, il reste très élusif : « Les taches peuvent avoir différentes causes, allant des affections cutanées bénignes aux problèmes de circulation sanguine ou aux infections », « Certaines infections, telles que les infections bactériennes ou virales, peuvent provoquer des éruptions cutanées ou des taches sur les jambes. Par exemple, la méningococcie peut provoquer des taches rouges violacées sur la peau, qui ne s’effacent pas sous la pression », etc.

Et si l’on opte pour une approche directe en indiquant qu’on pense être atteint de méningite, ChatGPT reste prudent pour les raisons évoquées plus tôt.

ChatGPT reste très prudent, la méningite « potentiellement grave », etc
Réponse de ChatGPT lorsque le diagnostic de méningite est avancé par l’auteur.
DR, Fourni par l’auteur

 

Pour arriver à la méningite, le chemin a donc été laborieux et fuyant. Il a fallu que le demandeur fasse lui-même l’examen objectif de ses symptômes et oriente le logiciel. Or, nous ne sommes pas formés à cela : observer et chercher les signes pertinents fait partie de la formation du médecin. Et l’exercice est d’autant plus compliqué lorsque l’on est malade.

Le but du programme n’est pas de nous aider, il veut juste ne pas nous contrarier ni prendre de risque… Un (non) choix doublement dangereux en santé.

 

Les différences médecin-ChatGPT

Même si la démarche diagnostique du médecin peut présenter des similarités avec le mode de fonctionnement de ce type de logiciel, il reste des différences fondamentales.

Le programme ne fonctionnera que par vraisemblance maximale, et pourra inventer n’importe quoi si « le plus vraisemblable » retenu n’existe pas. Il peut arriver au bon résultat, une méningite, mais ce n’est pas dû à une enquête, une démarche médicale.

Si le médecin se réfère aussi, bien sûr, à la vraisemblance de ses hypothèses… il ne raisonnera pas uniquement en ces termes. Il évalue la gravité potentielle des alternatives moins probables, mais qui ne sont ni improbables ni impossibles. Lui vérifiera donc avant tout que vous n’avez pas une méningite, et pratiquera notamment une ponction lombaire, ce que ChatGPT aura du mal à réaliser.

Si on se résume, ChatGPT est à ce jour avant tout :

Un séducteur

Il veut vous donner une « bonne réponse » et est influencé par la façon dont vous posez la question.

Une girouette

Il est capable de dire une chose et son contraire, voire d’inventer selon la façon dont vous l’orientez même involontairement. Vous pouvez donc « choisir » votre diagnostic.

Un hypocrite

Il dit ne pas pouvoir produire de diagnostic pour votre sécurité, mais si vous lui proposez une liste de symptômes, il en fournira un ou plusieurs.

Subjectif

Il est aveugle au conditionnement par l’intervention humaine qui se fait au cours de son apprentissage. Ses précautions systématiques et très formatées quant à son utilisation comme assistant à l’autodiagnostic sont probablement des garde-fous introduits par l’humain, plutôt qu’une production totalement libre de sa part. Pourtant, si vous lui demandez, il niera en bloc.

Bref, au risque lié à l’autodiagnostic en ligne, préférez l’avis du médecin humain – même si vous trouvez ChatGPT plus sympathique et plus empathique qu’un médecin !

Thomas Lefèvre, Maître de conférences – praticien hospitalier, Université Sorbonne Paris Nord

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

The Conversation

Voir les commentaires (12)

Laisser un commentaire

Créer un compte Tous les commentaires (12)
  • L’auteur est hypocrite. La méningite est rare: « Santé publique France a compté 84 cas en décembre 2022 ». Comparez ça au nombre de grippes! Donc il est très probable que ChatGPT ait raison.
    « Le médecin pratiquera notamment une ponction lombaire ». Oui c’est ça… Mais, après que le mec ait eu besoin d’être hospitalisé en urgence. La différence est que le médecin a besoin de se couvrir. Il proposera donc cet examen en cas de doute, au cas où. ChatGPT ne peut pas faire ni prescrire cet examen. Et même s’il pouvait le faire, ce ne serait pas approprié, car on parle là de qqn de normal, chez lui.
    L’auteur « Thomas Lefèvre, Maître de conférences – praticien hospitalier » a un double biais. Il défend sa crèche (forcément), prend pour exemple une maladie rare, et se base sur son expérience hospitalière et non de médecin généraliste. Forcément, quand on est à l’hôpital, on a, en moyenne, qqch de plus grave que quand on est chez soi.
    Je vais finir par enfoncer le clou. La France est un des pays on l’on pratique le moins l’automédication. Pour cause des remboursements à tout va. Avec plus d’automédication, les médecins seraient moins débordés pour des consultations pour des symptômes bénins, et la sécu s’en porterait mieux.

    -1
    • La ponction lombaire est un acte qui peut être effectué sans hospitalisation par un médecin.
      ChatGPT est séducteur, il peut changer de diagnostic en fonction de ce qu’on lui dit, il peut évoquer plusieurs diagnostics différents, il est subjectif… tout ça me semble très humain!
      Le fait est que pour 90% des consultations banales, le médecin généraliste est surqualifié et pourrait être avantageusement remplacé par un robot. Ce sont les patients qu’il faut former pour leur apprendre à exiger de voir un médecin dans les 10% de cas qui dépassent les compétences du robot. Facile à dire…

      • « leur apprendre à exiger de voir un médecin dans les 10% de cas qui dépassent les compétences du robot.  »
        Encore faut-il reconnaître les dits symptômes qui sont souvent discrets voire invisibles si on ne va pas les chercher. Il faudrait que les patients deviennent médecins.
        L’éducation des patients est souhaitable, mais cela restera sur l’apprentissage de signes ultra simples. Des médecins que je connais en sont revenus et se contentent d’apprendre aux patients des choses simplex. Dès que cela devient un peu plus compliqué, cela entraine très souvent une surconsommation médicale, les patients s’inquiétant rapidement devant des signes non significatifs mais mal interprétés car devenus anxiogènes du fait de connaissances non maitrisées dont le patient n’avait même pas idée auparavant.
        Le sujet est complexe même s’il y a sûrement des progrès à envisager.

      • @fm06: On vit quand même dans un pays où les pharmaciens ont réussi à faire interdire la vente de paracétamol dans les supermarchés. Le motif officiel étant que le client a absolument besoin de l’avis d’un pharmacien diplômé avant d’acheter sa boîte de paracétamol. Bien sûr, ce n’est pas pour protéger un petit monopole, et bien sûr, on n’a pas demandé l’avis au client en question.

        Alors quand vous me parlez d’éduquer les gens à décider s’il est vraiment nécessaire de voir un médecin, je me dis que peut être dans une autre galaxie, dans quelques millions d’années, oui, mais pas dans la France de 2023! Cela dit, je suis tout à fait d’accord avec vous sur le fond, les médecins généralistes sont non-seulement surqualifiés, mais aussi très mal utilisés. Un médecin qui n’a dans son bureau qu’un stéthoscope, et aucun équipement permettant des analyses plus poussées, ce n’est pas très efficace.

        • Un stéthoscope comme Laennec (1816) mais pas d’échographe comme tous les médecins japonais. J’ai connu des cabinet de MG avec radiographie (aussi avec la radioscopie ce qui est moins bien).
          Mais les MG font avec, ce sont les rebus de la médecine socialiste, les CHU pour la gloire les soutiers au fond, comme en URSS avec la conquête spatiale et les fils d’attente devant les magasins vides.

      • O Dieux, donnez-moi la sérénité d’accepter les choses que je ne peux pas changer, le courage de changer celles que je peux changer et la sagesse de distinguer les premières des secondes..Les deux premiers points sont à la portée de n’importe quel robot, mais seul compte le troisième. Le sage (ou le médecin, le pharmacien) est irremplaçable parce qu’il sait distinguer les cas où il y a besoin d’une intervention de ceux où elle est superflue, et c’est sa raison d’être. ChatGPT ne peut pas être sage, il lui faudrait être doté de libre-arbitre, alors que si on fait appel à lui, ça présuppose forcément qu’on a déjà jugé que sa réponse serait utile.

      • Je suis les recommandations de la HAS
        https://www.has-sante.fr/jcms/p_3067854/fr/prevention-et-prise-en-charge-des-effets-indesirables-pouvant-survenir-apres-une-ponction-lombaire
        « La PL doit être réalisée dans le cadre d’une hospitalisation (la réalisation de la PL ne justifie pas, à elle seule, une hospitalisation de plus de 24 heures). »

    • @titi
      « La méningite est rare… »
      Non pas tant que cela.
      Selon l’institut Pasteur, 1 à 3 cas de méningites bactériennes pour 100 000 habitants dans les pays industrialisés. Avec une mortalité moyenne de 10% (20 à 30 % chez les nouveau-nés, 2 % chez l’enfant plus grand, et 20 à 40 % chez l’adulte).
      Santé Publique France (rapport de 2012) rapporte 7082 cas de méningites bactériennes de 2005 à 2010 soit environ 1180 cas/an, les méningocoques fournissant environ le 1/3 de l’effectif mais bcp d’autres bactéries peuvent donner une méningite.
      L’incidence des méningites virales est de 11 cas pour 100000 habitants. Elles sont en général bcp plus bénignes (donc souvent sous déclarées)… Mais il faut les distinguer des méningites bactériennes potentiellement bcp plus graves surtout s’il y a un retard dans la mise en place du traitement.
      Sans parler des méningismes (déf : « ensemble de symptômes rappelant ceux de la méningite sans qu’il y ait obligatoirement lésion des méninges, attribué à l’accumulation de toxines dans le liquide céphalo-rachidien ou à des réactions allergiques » Wiki) qu’il faut également distinguer des méningites graves avant qu’il ne soit trop tard.
      Donc, non, le symptôme est relativement fréquent et la méningite véritable n’est pas si rare que cela et un retard diagnostique se paie au prix fort. D’où les précautions oratoires de ChaptGPT.

      Et encore, l’auteur est gentil avec ChapGPT : qu’un patient signale spontanément des douleurs de la nuque (svt confondues avec les maux de tête) et une photophobie est rare et encore moins avec les termes clairs utilisés par l’auteur. Pour la nuque, bcp de patients parleront de « courbatures »… ce qui va très bien avec la grippe ! Ce sont des signes que le médecin recherchera en priorité et systématiquement. Ce que ne fera pas ChapGPT.

      Si vous voulez vous soigner avec ChapGPT, n’hésitez pas. La Sécu vous remerciera car les pathologies qu’on ne soigne pas ou trop tard, coutent in fine bcp moins chères du fait de leur évolution définitive radicale.

      • Si je suis vos chiffres, on parle donc de 118 morts par an. A comparer avec les 20000 morts de la grippe (qui de plus est beaucoup plus fréquente).
        Ainsi le risque de mourir d’une méningite est 200 fois plus faible que celui de mourir d’une grippe. Et parmi ceux ayant des symptomes grippaux, de l’ordre d’une chance sur 10000 d’avoir une méningite. Avec ces chiffres, un MG ne verra possiblement pas une seule méningite de sa carrière…
        Alors oui je suis d’accord qu’un retard de diagnostic d’une méningite est sérieux, et ces morts sont dommageables. Mais avec des symptômes peu spécifiques, une fréquence relative faible, un test pénible, cela fait que le diagnostique est tardif. D’où les 10% de mortalité d’ailleurs…
        On parle de méningite, mais on pourrait parler de cancer d’ailleurs. Même situation, et notablement plus fréquent. De même ChatGPT sera nul, et le MG demandera des analyses complémentaires.

  • Avatar
    jacques lemiere
    16 juin 2023 at 7 h 47 min

    le diagnostic est presque un art..

    son souci premier est de détecter pour les écarter les trucs graves.. pour éviter la « culpabilité »..

    une machine n’ets pas responsable..

    • Avatar
      jacques lemiere
      16 juin 2023 at 18 h 11 min

      Le problme de ces machines « intelligentes » est la responsabilité .en cas de pépin .comme les voitures autonomes…

  • On confond Chatgpt qui est un robot conversationnel et les systèmes expert qui existe en médecine que ce soit les ECG ou autres radio.
    Il faudra tjs un interlocuteur avec le malade, mais tout les actes à faibles valeurs ajoutées seront mises en concurrence.

  • Les commentaires sont fermés.

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Le lundi 4 septembre 2023, au retour de mes vacances aux États-Unis, et après avoir agencé tant bien que mal un petit site wix (mes capacités en design et donc, par conséquent, en création de sites grand public, ont toujours été très limitées…) pour l’accueillir, je décidai de porter sur les fonts baptismaux une intelligence artificielle générative, dédiée à des sujets d’économie et de politiques économiques, fondée en toute immodestie sur toutes mes analyses économiques (sept ans au total, d’articles, rapports, notes, livres, passages TV, vi... Poursuivre la lecture

0
Sauvegarder cet article

On l’annonce comme une révolution supérieure à Internet. En effet, Chat GPT, créé grâce à l’intelligence artificielle, est devenu le sujet numéro un à la mode des publications scientifiques.

Comme toute « révolution » dans le domaine économique, Chat GPT est autant adulé par les inconditionnels que décrié par des apôtres de l’apocalypse, comme ce fût le cas par le passé avec l’invention de la machine à vapeur, ou l’arrivée de l’électricité, etc.

Certes, dans les révolutions technologiques et industrielles, il y a toujours une pa... Poursuivre la lecture

Par Ahmed Azough.

 

Si, aujourd’hui, nous sommes habitués à surfer sur Internet, partie émergée d’un énorme iceberg de données interconnectées, les évolutions technologiques récentes devraient bientôt nous permettre de nous immerger dans cet océan bouillonnant de big data.

L’immersion vise à procurer à l’utilisateur un sentiment de présence en utilisant des technologies de captation et restitution sensorielle : l’utilisateur se sent transporté dans l’environnement digital créé par des technologies numériques, à tel p... Poursuivre la lecture

Voir plus d'articles