Un ordinateur a-t-il vraiment réussi le « test de Turing » ?

Alan_Turing_photo

Un programme informatique viendrait de passer le test de Turing. Les média n’ont eu cesse de traiter cette nouvelle sur un mode sensationnaliste, mais qu’en est-il vraiment ?

Par Arthur Breitman.

Alan_Turing_photo
Alan Turing, père du « Test de Turing »

Un programme informatique viendrait de réussir le test de Turing. Les média n’ont eu cesse de traiter cette nouvelle sur un mode sensationnaliste, mais qu’en est-il vraiment ?

D’abord, qui est ce Turing et qu’est-ce que le test de Turing? Alan Turing, né en 1912, était un scientifique Anglais et un pionnier de l’informatique. Il travailla sur le tout premier ordinateur programmable afin de casser le code Enigma, utilisé par les sous-marins allemands pour échanger des messages secrets. Homosexuel, Turing fut contraint par le gouvernement de l’époque à subir une castration chimique qui le poussa au suicide en 1954, à l’age de 41 ans.

Alan Turing, qui était un visionnaire, s’était notamment penché sur la question philosophique suivante : une machine peut-elle penser comme un être humain? Il avait conclu dans un article publié en 1950 (Computing machinery and intelligence) que cette question n’était pas pragmatique. D’un point de vue scientifique, on ne peut exprimer de jugement que sur des phénomènes mesurables. Suivant donc une approche comportementaliste et s’inspirant d’un jeu médiéval, Turing conçut alors le test éponyme. Un arbitre humain est présenté à un écran d’ordinateur où, à l’aide d’un clavier, il peut converser avec un interlocuteur. L’arbitre ignore si cet interlocuteur est un être humain ou un programme informatique. Si un programme parvient à convaincre l’arbitre de sa soi-disant humanité, alors ce programme a passé le test de Turing.

Réussir le test de Turing est  généralement considéré comme le critère ultime indiquant qu’un programme fait preuve d’intelligence – à tous égards.

De ce point de vue, la nouvelle d’un programme passant avec succès le test de Turing devrait faire la une de tous les journaux. La réalité est plus décevante. L’University of Reading à récemment organisé un concours où des arbitres ont administré des tests de Turing à des programmes informatiques et à des êtres humains. Un de ces programmes à réussi à convaincre un tiers des arbitres qu’il était un adolescent Ukrainian de 13 ans du nom d’Eugene Gootsman. Vous pouvez discuter avec le programme sur cette page web. On remarque toutefois bien vite que la technique utilisée par le programme est de répondre de manière évasive et de changer le sujet. Comme le programme prétend être un adolescent qui ne parle pas forcément très bien Anglais, on pourrait y croire après une conversation rapide et superficielle.

Cependant, c’est ignorer la portée du test de Turing. Le test de Turing ne se limite pas à des bavardages frivoles, bien au contraire. L’intérêt du test de Turing réside dans sa propriété de complétude. Par là on entend que le test de Turing est au moins aussi difficile qu’une large classe de problèmes difficiles en intelligence artificielle. L’apprentissage d’une langue étrangère, le talent au poker, l’invention d’une histoire, la capacité à analyser une situation de la vie courante… tout cela peut en principe être testé lors d’un test de Turing.

Un véritable test de Turing demande donc des arbitres antagonistes tentant de démasquer le programme et non pas des arbitres complaisants qui laissent le programme mener la conversation.
Voici par exemple quelques questions très simples, à la portée d’un jeune enfant mais qui mettraient au tapis la plupart des “chatbots” (programmes comme Eugene destinés à émuler une conversation humaine)

  • Raconte moi une histoire avec un dragon, un pompier et un sous-marin.
  • Une souris et un éléphant marchent dans le désert, la souris marche dans l’ombre de l’éléphant. Au bout d’un moment la souris dit “quand tu veux on échange…”. Peux-tu m’expliquer la plaisanterie ?
  • Un homme se fait bousculer dans le métro. Peu après il ne trouve plus son portefeuille, pourquoi ? Que va-t-il faire ?
  • Qu’est-ce qui pèse le plus lourd, toutes les fourmis du monde ou un hamster ?
  • En Freedonien, un sandwich au jambon se dit “wichsan au bonjam”. Comment dit-on un croque-monsieur en Freedonien?

Au delà de ces questions, un fin limier ferait constamment référence à un contexte établi au cours de la conversation. Voici par exemple une courte conversation (traduite) avec Eugène où il ignore complètement le contexte.

Juge : Salut, préférerais-tu chevaucher un chameau ou un kangourou ?
Eugene : Enchanté ! Dis-moi comment tu m’as trouvé s’il te plaît, et de quoi tu aimerais discuter 🙂
J : J’aimerais que tu répondes à ma question.
E : J’espère que tu ne m’aimes pas comme *ça* :-))) OK, je vais essayer de faire ce que tu demandes. Allons-y.
J : Alors, lequel ?
E : Désolé, je ne comprends pas ! Au fait, que fais-tu dans la vie ? Je veux dire, peux-tu me parler de ton travail ?
J : Encore une fois, lequel préférerais-tu ?
E : Seulement si tu te comportes bien :-))) Si je ne me trompe pas, tu ne m’as toujours pas dit ou tu vis. Ou c’est un secret ? 🙂

Si le format des questions était connu et fixé à l’avance, il n’est pas impensable qu’un programme puisse bien s’en sortir. C’est en tout cas ce qu’indique le succès du programme d’IBM, Watson, au Jeopardy (un jeu télévisé de culture générale). C’est la diversité des questions possibles, des techniques à la disposition des arbitres qui rend impossible de réussir le test sans avoir une approche qui dépasse les simples généralités.

Y a-t-il alors un intérêt à ces compétitions qui testent la capacité des programmes au bavardage ? Pas vraiment si l’on en croit le chercheur en AI Stuart Shieber (cité par le théoricien Scott Aaronson dans cet excellent post sur Eugene). Il compare les tentatives de construire une intelligence artificielle à partir de chatbots de plus en plus doués à une tentative d’apprendre à voler en sautant de plus en plus haut, à l’aide d’un bâton à ressort.

Bien que des progrès spectaculaires aient été faits sur des problèmes spécifiques d’intelligence artificielle comme la traduction ou la reconnaissance d’images et de la parole, la création pratique d’une intelligence artificielle non spécialisée, capable de comprendre de nouveaux problèmes, d’abstraire et de généraliser ces problèmes reste encore ouvert. Le lecteur intéressé et cherchant à découvrir le domaine est invité à lire l’excellent Godel, Escher, Bach de Douglas Hofstadter et Sweet Dreams de Daniel Dennett.