Big data : attention à l’interprétation des données

Avec le big data, plus il y a de données, et plus on est tenté de chercher des corrélations. Le risque ? Être confronté à un déluge de fausses corrélations.

Partager sur:
Sauvegarder cet article
Aimer cet article 0

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Big data : attention à l’interprétation des données

Publié le 15 janvier 2017
- A +

Par Oivier Sibony.

données
Big data By: KamiPhucCC BY 2.0

Les algorithmes de Facebook nous font-ils vivre dans une bulle d’informations « filtrées » ? Et « Ada », l’intelligence artificielle de la campagne d’Hillary Clinton, lui a-t-elle fait perdre l’élection ? Au milieu de ces graves questions, on en oublierait presque que les algorithmes envahissent aussi nos décisions de management : il suffit de dire « big data » ou « intelligence artificielle » pour faire entrevoir un paradis où les choix managériaux les plus divers – du recrutement aux budgets marketing – sont miraculeusement automatisés.

Serions-nous donc, nous aussi, en train d’abdiquer une partie du contrôle de nos décisions en les confiant à des algorithmes, au nom de la toute-puissance du big data ? Comment, quand on n’est pas un « data scientist », comprendre ce que les algorithmes nous promettent de faire pour simplifier nos décisions ?

Corrélation n’est pas causalité

La première chose à se rappeler dans ce débat, c’est ce que nous avons tous appris dans notre premier cours de statistiques (qui a souvent aussi été le dernier) : corrélation n’est pas causalité. L’exemple classique : les ventes de crème glacée et le nombre de noyades apparaissent fortement liées… mais ce n’est évidemment pas parce qu’ils ont avalé des glaces que les nageurs sont tirés vers le fond. Il est bien plus plausible que la consommation de glace et la fréquentation des piscines soient toutes deux liées à l’apparition de fortes chaleurs. Aucune des deux quantités n’est la cause de l’autre : un facteur commun influe sur les deux mesures.

Le facteur commun est parfois moins évident. Exemple : en 1999, des chercheurs découvrent que les bébés qui dorment avec une veilleuse sont cinq fois plus nombreux à devenir myopes que ceux qui dorment dans l’obscurité totale. Publiée dans Nature et largement reprise par la presse, la conclusion s’impose : la lumière perturbe le développement de la vue, et il est urgent de faire dormir ses enfants dans l’obscurité totale. Mais quelques années plus tard, d’autres chercheurs observent que les parents myopes (qui, on le sait, font beaucoup plus souvent des enfants myopes) sont plus nombreux à laisser une veilleuse allumée la nuit pour compenser le fait qu’ils voient mal ! Il semble donc bien que les enfants ne soient pas myopes parce que leur veilleuse est restée allumée, mais parce que leurs parents sont myopes. Éteindre la veilleuse qui rassure vos chers petits est donc totalement inutile…

L’étrange poésie des corrélations imaginaires

Et encore, dans cet exemple, on trouve le facteur commun. La corrélation peut aussi être due à une pure coïncidence. Tyler Vigen, qui en a fait une sorte de genre littéraire absurdiste, démontre ainsi une corrélation de 94% entre la consommation per capita de fromage et le nombre de personnes qui meurent étranglées dans leurs draps de lit. Elle est même de 99% entre le taux de divorce dans le Maine et la consommation de margarine.

Là encore, le monde réel n’est pas en reste : rien de plus tentant, par exemple, que de chercher dans des données historiques quels facteurs sont corrélés avec l’évolution des indices boursiers, afin de « prévoir » ce qui lui arrivera à l’avenir. Pour démontrer l’inanité de ce genre de raisonnement, un statisticien a établi que la production de beurre au Bangladesh permettait de prévoir avec 75% d’exactitude l’évolution de l’indice S&P 500. En ajoutant la production américaine de fromage et la population ovine du Bangladesh, ce taux passait à 99%. L’histoire ne dit pas s’il a découragé les analystes qui font leur beurre avec ce genre de corrélation…

On peut multiplier les exemples. Mais tous ne sont pas aussi innocents. Songez que c’est exactement ce genre de raisonnement qui fait penser à 33% des parents américains que les vaccins sont une cause d’autisme : le web regorge de graphiques (non reproduits ici pour ne pas leur donner un écho supplémentaire) montrant le parfait parallélisme entre le taux de vaccination et les diagnostics d’autisme. Ces pseudo-analyses suffisent à convaincre beaucoup de lecteurs d’un péril imaginaire. Le danger de la non-vaccination, lui, est bien réel, quand le taux de vaccination anti-polio à Seattle est inférieur à celui du Rwanda !

Enfin, il y a un autre type de « fausse corrélation » : la corrélation peut-être réelle, mais où le sens de la causalité n’est pas évident. Si nous constatons, par exemple, que les entreprises qui ont une politique active de responsabilité sociale et environnementale sont plus rentables que les autres, peut-on en conclure que la RSE est rentable ? Ou faut-il au contraire penser que la rentabilité permet à ces entreprises de financer une politique de RSE plus active, que des entreprises moins rentables ne considèrent pas comme une priorité ?

Big Data – Crédit : ALi (tous droits réservés)

Plus de données, plus de risques ?

On le voit, faire parler les données n’est pas toujours aussi simple qu’il y paraît. Et ce problème devient particulièrement aigu à l’ère du big data.

Car plus il y a de données, et plus on est tenté de chercher des corrélations. Dans des masses de données, on peut trouver des corrélations subtiles qu’on ne trouverait pas dans de plus petites bases : c’est précisément la promesse du big data. Et quand les variables sont innombrables, plus besoin de formuler des hypothèses pour savoir ce que l’on cherche ; il suffit de laisser les données parler d’elles-mêmes. Poussé à l’extrême, ce « data mining » promet donc « La mort de la théorie », comme le résumait dès 2008 Wired.

Le problème, bien sûr, c’est que les données, « big » ou pas, ne parlent jamais d’elles-mêmes : il faut une théorie pour leur donner du sens ! Si l’on cherche un modèle prédictif, en particulier, il faut savoir quelles corrélations sont significatives. Et le risque, en multipliant les données, est d’être confrontés à un déluge de fausses corrélations, comme le notent ici deux chercheurs dans un papier scientifique récent.

Détail significatif : comme le rappelle Susan Athey, de Stanford, le terme de « data mining » était, autrefois, péjoratif. Faire du « data mining », c’était chercher dans les données jusqu’à ce qu’on trouve matière à confirmer son hypothèse. Ce n’est évidemment pas une bonne démarche scientifique, car quand on cherche assez longtemps dans assez de données, on finit toujours par trouver. La nouveauté du big data, c’est de penser que parce que l’hypothèse émergerait « naturellement » des données, elle serait « neutre ».

Mais la neutralité ne suffit pas : pour qu’un « insight » qui émerge des données nous apprenne quelque chose; il faut qu’il corresponde à une réalité. La question fondamentale reste donc la même : avons-nous découvert une corrélation « réelle », du type chaleur – consommation de glace ? Ou sommes-nous face à une fausse corrélation causée par un facteur commun, du type consommation de glace – noyade ? Voire à un pur hasard, du type divorce – margarine ?

Heureusement, il y a des spécialistes et des méthodes pour ça… mais est-ce toujours suffisant ? C’est la question que nous explorerons dans un autre article…

Sur le web

Voir les commentaires (15)

Laisser un commentaire

Créer un compte Tous les commentaires (15)
  • Dommage que cet article ne reprenne pas la pire et la plus énorme en termes d’influence de courbe :
    Je parle de celle d’Al Gore dans son film « la vérité qui dérange », montré tant de fois dans les télé françaises…
    Sur le même graphique furent représentées les températures de la terre et les variations des teneurs en CO2 de l’air à travers les millénaires.
    La correspondance entre les courbes est saisissante. « Même un enfant de 10 ans la verrait » appuie Al Gore.

    Sauf que si on agrandit l’échelle, on voit que la température monte AVANT toute élévation du CO2, avec une différence temporelle de 8 siècles en moyenne…
    Coïncidence (à faible échelle) n’est pas causalité.
    (La causalité étant bien sûr, la teneur en CO2 dans l’eau de mer qui augmente avec la température, comme dans le champagne froid ou tiède avec le bouchon qui saute ou non …)

    Et c’est, en grande partie « grâce à » cet énorme mensonge d' »approximation » (ou de « fake news ») que l’on est arrivé à cette COP21 imbécile, où l’ONU va obliger les nations à donner 100 milliards de dollars par an pour essayer de faire baisser ce CO2…
    Non, nous ne rêvons pas, c’est en train d’arriver…

    • « La causalité étant bien sûr, la teneur en CO2 dans l’eau de mer qui augmente avec la température »

      C’est le contraire.

      « Et c’est, en grande partie « grâce à » cet énorme mensonge d’ »approximation » (ou de « fake news ») que l’on est arrivé à cette COP21 imbécile »

      La théorie du réchauffement climatique anthropique est basée sur les lois de la physique, pas sur des corrélations.

    • sauf que ce bazar ne repose pas sur ces courbes, elles reposent sur les propriété radiatives du CO2, les hypothèses d’émission, LA RÉACTION SUPPOSÉE DE LA FLOTTE…
      Les données anciennes sont presque inutiles car c’est une experience inédite…

      Certes ça en dit long sur la façon de penser et de convaincre des réchauffistes mais pas plus..

  • un site éloquent et ludique pour illustrer cet article :
    http://tylervigen.com/spurious-correlations

  • En fait il existe des méthodes très efficaces pour savoir si une corrélation est significative. Le problème est que les outils sont souvent manipulés par des personnes qui les comprennent mal ou pas du tout (sans compter ceux qui comprennent mais qui vont utiliser les outils pour leur propagande en sachant que les résultats sont douteux). Il est facile de se procurer un logiciel. L’utiliser sans comprendre mène à des résultats absurdes.

  • Ce ne sont pas des fausses corrélations ce sont des corrélations fortuites. non?
    ET si vous avez un ensemble de données finies , ce n’est pas les corrélations qui peuvent vous prouver une cause ni m^me des statistiques fussent elles avancées…
    Pour prouver le cause, il faut quantifier, et prédire ce qu’on doit observer dans de nouvelles données..autrement dit il y a beaucoup , beaucoup de boulot.. car il ne faut pas connaitre un paramètres mais tous.
    Une corrélation n’est pas la preuve d’une cause… la causalité découverte reste la mise en évidence de mécanismes. Ce qui fout le bazar c’est que les gens ont d’abord l’idée d’un mécanisme et cherchent des corrélations pour le prouver…quand ils en trouvent UNE ou un petit nombre ils sont convaincus, c’est humain, ça se comprend, sauf que ce n’est pas un « preuve ».
    Ceci dit , on n’est pas dans un monde rigoureux, en pratique un nombre fini de vérifications peut suffire..
    Ainsi la majeure partie des lois de la physique ont été établies à partir d’idées de causalité, de corrélations très élevées , mais vérifiées ad nauseam, et bien quantifiées, reste que normalement , on devrait garder à l’esprit cela et dire , d’après les lois de la physique.
    ce que je dis est sans doute empreint d’approximations..

    reste que
    si vous regardez un ensemble de données fini vous ne trouverez pas de causalité…vous trouverez des « corrélations » ni fausses ni vraies…
    l’augmentation de chaleur ne cause pas la consommation de glace dans une population…

    l’augmentation de chaleur ne cause pas une augmentation de glace …mais tout le monde comprend que SI vous avez l’habitude de consommer de la glace à la façon européenne , vous serez plus enclin à en consommer plus quand il fera chaud…sauf que personne n’a besoin de statistique pour vous dire ça…
    les statistiques vous donneront peut être l’illusion de prédire quelle sera la consommation de glace la semaine qui vient compte tenu des prévisions météo et de l’historique des corrélations observées dans le passé ..sauf que non….il suffit d’un scandale sanitaire, pour tout foutre en l’air…

    donc, vous êtes obligé de dire que compte tenu des données historiques de consommation de glace sur la population française, compte tenu des prévisions météorologiques , la consommation de glace pourra augmenter de x% la semaine prochaine (plus ou moins l’incertitude qu’il ne faut jamais oublier)…A LA CONDITION qu’aucun autre facteur qui puisse influer la consommation de glace intervienne!!!!!! un des premiers facteur auquel on puisse penser et que les marchands de glace aient étudié les corrélations et qu »ils augmentent les prix…

    mais zut corrélation n’est pas raison…et corrélation n’est ni vraie ni fausse…

    • Il est toujours plus satisfaisant d’avoir une explication mécanique mais il ne faut pas non plus négliger l’utilité des corrélations et des lois empiriques. Comment croyez vous que sont établies les lois de couche limite (transfert de chaleur, frottements) si utiles pour les applications pratiques (aérodynamique, machines thermiques…) ?

  • Un article très intéressant pour ceux très nombreux (ecolos, économistes, sociologues, psychologues, tenants de la gauche béate. ..) qui ont plus de convictions infondées que de culture scientifique. Le problème avec eux c’est que leurs croyances leur interdit le moindre recul par rapport à la doxa du moment. Ils jugent un tel article blasphématoire et rêvent de pouvoir l’interdire.

  • Cet article m’a également fait penser au fameux réchauffement climatique et à la façon dont il est présenté par certains pseudo-scientifico-écologistes qui manipulent les chiffres pour faire valoir, souvent par intérêt, leur version de ce phénomène, causes, conséquences et prévisions. On peut tout faire dire aux chiffres !…

  • Déjà que les statistiques sont majoritairement utilisé à mauvais escient par les scientistes de ‘science’ sociale. Le bigdata est le nouvel eldorado des arnaqueurs en tout poil.

  • Certes, corrélation n’est pas causalité, mais ce n’est pas pour autant que trouver une corrélation est inutile ou faux !

    Ainsi, si une cause commune C provoque les faits A et B, mais que C reste inconnu, il suffit alors de bien connaître au moins un des faits (A par exemple) pour déterminer l’autre (B), avec un certain risque cependant. A devient la possible cause indirecte de B.

    Exemple: Je veux vérifier une théorie sur l’influence d’une cause C sur la température T d’une région. Malheureusement, je ne dispose pas des informations passées de C. Eh bien, il suffit de trouver un « proxy », soit un remplaçant, mandataire de C, suffisamment représentatif pour calculer et vérifier l’influence de C sur T.

    Malheureusement, certains cherchent ou bidouillent le « proxy » pour valider la théorie et non l’éprouver. Cela peut exister en climatologie, épidémiologie…

    • Quand on sait ce qu’on fait, oui, une correlation peut-etre interessante a connaitre.

      Ce qui est dangereux dans le « big-data », ce sont les fausses correlations: si on donne une base de donnee completement aleatoire suffisamment grande, les algos vont trouver des correlations « statistiquement significatives » alors qu’elle ne sont dues qu’au hasard.
      Un podcast interessant a ce sujet (en anglais): http://www.econtalk.org/archives/2016/10/cathy_oneil_on_1.html

  • Les commentaires sont fermés.

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don
Big Data
1
Sauvegarder cet article

Par Sylvain Fontan.

Le phénomène intitulé Big Data (données massives) fait référence au flux de données sur internet de la part des particuliers, des entreprises et des États du fait de la démocratisation des connexions haut débit. L'ampleur de ce phénomène est telle qu'il peut être considéré comme valeur économique en soi. En effet, la capacité à exploiter ces données peut permettre de valoriser l'activité économique.

Le Big Data comme valeur économique

L'importance accrue du Big Data est telle que le Forum économique mondial ... Poursuivre la lecture

Les ganacheries tombant aussi aisément au sujet des algorithmes qu’à Gravelotte, trouver une nourriture de l’esprit équilibrée et éclairante relève de la tâche pascalienne. Aurélie Jean est de celle-ci. Mêlant pédagogie et nuance, elle fait entendre sa voix et ses messages aux quatre coins du globe, seule échelle à la mesure de cette globetrotteuse hyperactive.

À l’occasion de la sortie de son dernier ouvrage, Les algorithmes font-ils la loi ?, aux éditions de l’Observatoire, Aurélie Jean a répondu aux questions de Corentin Luce.

<... Poursuivre la lecture

Par Yannick Chatelain.

Que cela soit d’un point de vue sécuritaire ou sanitaire, l’État, et c’est là un euphémisme, se donne dans l’urgence quelques libertés concernant le traitement des données personnelles des citoyens, par impréparation ou volonté délibérée.

Il ne m’appartient pas d’en juger, mais juste d’alerter les citoyens sur des faits, aux côtés des organismes comme la CNIL ou La Quadrature du Net qui veillent et surveillent attentivement les projets de loi et les décrets qui se succèdent à une cadence effrénée.

L... Poursuivre la lecture

Voir plus d'articles