Big data : attention à l’interprétation des données

Avec le big data, plus il y a de données, et plus on est tenté de chercher des corrélations. Le risque ? Être confronté à un déluge de fausses corrélations.

Par Oivier Sibony.

données
Big data By: KamiPhucCC BY 2.0

Les algorithmes de Facebook nous font-ils vivre dans une bulle d’informations « filtrées » ? Et « Ada », l’intelligence artificielle de la campagne d’Hillary Clinton, lui a-t-elle fait perdre l’élection ? Au milieu de ces graves questions, on en oublierait presque que les algorithmes envahissent aussi nos décisions de management : il suffit de dire « big data » ou « intelligence artificielle » pour faire entrevoir un paradis où les choix managériaux les plus divers – du recrutement aux budgets marketing – sont miraculeusement automatisés.

Serions-nous donc, nous aussi, en train d’abdiquer une partie du contrôle de nos décisions en les confiant à des algorithmes, au nom de la toute-puissance du big data ? Comment, quand on n’est pas un « data scientist », comprendre ce que les algorithmes nous promettent de faire pour simplifier nos décisions ?

Corrélation n’est pas causalité

La première chose à se rappeler dans ce débat, c’est ce que nous avons tous appris dans notre premier cours de statistiques (qui a souvent aussi été le dernier) : corrélation n’est pas causalité. L’exemple classique : les ventes de crème glacée et le nombre de noyades apparaissent fortement liées… mais ce n’est évidemment pas parce qu’ils ont avalé des glaces que les nageurs sont tirés vers le fond. Il est bien plus plausible que la consommation de glace et la fréquentation des piscines soient toutes deux liées à l’apparition de fortes chaleurs. Aucune des deux quantités n’est la cause de l’autre : un facteur commun influe sur les deux mesures.

Le facteur commun est parfois moins évident. Exemple : en 1999, des chercheurs découvrent que les bébés qui dorment avec une veilleuse sont cinq fois plus nombreux à devenir myopes que ceux qui dorment dans l’obscurité totale. Publiée dans Nature et largement reprise par la presse, la conclusion s’impose : la lumière perturbe le développement de la vue, et il est urgent de faire dormir ses enfants dans l’obscurité totale. Mais quelques années plus tard, d’autres chercheurs observent que les parents myopes (qui, on le sait, font beaucoup plus souvent des enfants myopes) sont plus nombreux à laisser une veilleuse allumée la nuit pour compenser le fait qu’ils voient mal ! Il semble donc bien que les enfants ne soient pas myopes parce que leur veilleuse est restée allumée, mais parce que leurs parents sont myopes. Éteindre la veilleuse qui rassure vos chers petits est donc totalement inutile…

L’étrange poésie des corrélations imaginaires

Et encore, dans cet exemple, on trouve le facteur commun. La corrélation peut aussi être due à une pure coïncidence. Tyler Vigen, qui en a fait une sorte de genre littéraire absurdiste, démontre ainsi une corrélation de 94% entre la consommation per capita de fromage et le nombre de personnes qui meurent étranglées dans leurs draps de lit. Elle est même de 99% entre le taux de divorce dans le Maine et la consommation de margarine.

Là encore, le monde réel n’est pas en reste : rien de plus tentant, par exemple, que de chercher dans des données historiques quels facteurs sont corrélés avec l’évolution des indices boursiers, afin de « prévoir » ce qui lui arrivera à l’avenir. Pour démontrer l’inanité de ce genre de raisonnement, un statisticien a établi que la production de beurre au Bangladesh permettait de prévoir avec 75% d’exactitude l’évolution de l’indice S&P 500. En ajoutant la production américaine de fromage et la population ovine du Bangladesh, ce taux passait à 99%. L’histoire ne dit pas s’il a découragé les analystes qui font leur beurre avec ce genre de corrélation…

On peut multiplier les exemples. Mais tous ne sont pas aussi innocents. Songez que c’est exactement ce genre de raisonnement qui fait penser à 33% des parents américains que les vaccins sont une cause d’autisme : le web regorge de graphiques (non reproduits ici pour ne pas leur donner un écho supplémentaire) montrant le parfait parallélisme entre le taux de vaccination et les diagnostics d’autisme. Ces pseudo-analyses suffisent à convaincre beaucoup de lecteurs d’un péril imaginaire. Le danger de la non-vaccination, lui, est bien réel, quand le taux de vaccination anti-polio à Seattle est inférieur à celui du Rwanda !

Enfin, il y a un autre type de « fausse corrélation » : la corrélation peut-être réelle, mais où le sens de la causalité n’est pas évident. Si nous constatons, par exemple, que les entreprises qui ont une politique active de responsabilité sociale et environnementale sont plus rentables que les autres, peut-on en conclure que la RSE est rentable ? Ou faut-il au contraire penser que la rentabilité permet à ces entreprises de financer une politique de RSE plus active, que des entreprises moins rentables ne considèrent pas comme une priorité ?

Big Data – Crédit : ALi (tous droits réservés)

Plus de données, plus de risques ?

On le voit, faire parler les données n’est pas toujours aussi simple qu’il y paraît. Et ce problème devient particulièrement aigu à l’ère du big data.

Car plus il y a de données, et plus on est tenté de chercher des corrélations. Dans des masses de données, on peut trouver des corrélations subtiles qu’on ne trouverait pas dans de plus petites bases : c’est précisément la promesse du big data. Et quand les variables sont innombrables, plus besoin de formuler des hypothèses pour savoir ce que l’on cherche ; il suffit de laisser les données parler d’elles-mêmes. Poussé à l’extrême, ce « data mining » promet donc « La mort de la théorie », comme le résumait dès 2008 Wired.

Le problème, bien sûr, c’est que les données, « big » ou pas, ne parlent jamais d’elles-mêmes : il faut une théorie pour leur donner du sens ! Si l’on cherche un modèle prédictif, en particulier, il faut savoir quelles corrélations sont significatives. Et le risque, en multipliant les données, est d’être confrontés à un déluge de fausses corrélations, comme le notent ici deux chercheurs dans un papier scientifique récent.

Détail significatif : comme le rappelle Susan Athey, de Stanford, le terme de « data mining » était, autrefois, péjoratif. Faire du « data mining », c’était chercher dans les données jusqu’à ce qu’on trouve matière à confirmer son hypothèse. Ce n’est évidemment pas une bonne démarche scientifique, car quand on cherche assez longtemps dans assez de données, on finit toujours par trouver. La nouveauté du big data, c’est de penser que parce que l’hypothèse émergerait « naturellement » des données, elle serait « neutre ».

Mais la neutralité ne suffit pas : pour qu’un « insight » qui émerge des données nous apprenne quelque chose; il faut qu’il corresponde à une réalité. La question fondamentale reste donc la même : avons-nous découvert une corrélation « réelle », du type chaleur – consommation de glace ? Ou sommes-nous face à une fausse corrélation causée par un facteur commun, du type consommation de glace – noyade ? Voire à un pur hasard, du type divorce – margarine ?

Heureusement, il y a des spécialistes et des méthodes pour ça… mais est-ce toujours suffisant ? C’est la question que nous explorerons dans un autre article…

Sur le web