Des corrélations fallacieuses, mais désopilantes

L’abus des corrélations est une technique éprouvée qui permet toutes les manipulations.

Partager sur:
Sauvegarder cet article
Aimer cet article 1
Synapsis CC flickr Leo Grübler

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Des corrélations fallacieuses, mais désopilantes

Publié le 22 septembre 2014
- A +

Par Anton Suwalki

Synapsis CC flickr Leo GrüblerAu détour de la lecture d’un article de Yann Kindo sur la navrante Vandana Shiva, je découvre le site « Spurious correlations », ce qu’on peut traduire par « corrélations fallacieuses ».

Yann Kindo se moquait (un peu méchamment, mais c’est justifié) de la « physicienne » indienne qui explique que la hausse des cas d’autisme est due aux OGM. Notons que pour l’altersavante, il ne s’agit pas d’une hypothèse, mais d’une certitude : « that question’s been answered », proclame-t-elle. Même chose pour le diabète, les insuffisances rénales, et Alzeimer !

L’abus des corrélations est une technique éprouvée qui permet toutes les manipulations. La corrélation est une mesure du lien statistique entre deux variables. Si, comme dans la démonstration stupide de Vandana Shiva, vous trouvez deux phénomènes qui évoluent de manière plus ou moins conjointement, tracez-les sous forme de deux courbes sur un même graphique. Pour beaucoup de personnes qui confondent corrélation et causalité, ce procédé enfantin a malheureusement valeur de démonstration. Ils sont victimes d’un raisonnement de type Post hoc, ergo propter hoc (à la suite de cela, donc à cause de cela).

Corrélation fallacieuse : démonstration

Pour illustrer que la corrélation faite par Vandana Shiva n’a strictement aucune valeur, Yann Kindo juxtapose la courbe des cas d’autisme et celle des ventes de produits bio : la corrélation est stupéfiante (r=0.99711), et pourtant personne n’a eu l’idée d’y voir une relation de cause à effet !

Était-ce pédagogique ? Visiblement pas pour les infatigables enfileurs de perles qui sévissent sur les blogs de Médiapart :

  • « À l’heure de la privatisation du vivant, et de la négation du droit à l’indépendance alimentaire, et alors qu’une agriculture biologique en pleine évolution semble si prometteuse, les jérémiades (ethnocentrées) de Yann Kindo sur la licence de physique de Vandena Shiva laissent un goût prononcé de ridicule… »
  • « Il est tellement facile de discréditer une personne, au lieu d’argumenter sur le vrai sujet, les OGM. Nous sommes tellement habitués à ces procédés par l’industrie, que j’espère que les citoyens ne seront plus dupes. »
  • « Comment un enseignant en histoire-géo arrive-t-il à être si compétent en analyse scientifique ? Des stages accélérés chez Monsanto ? »

Face au parti pris de la bêtise, il n’y a donc aucune pédagogie efficace. Il ne faut pourtant pas y renoncer, pour essayer de rendre service à tous ceux qui se laissent sincèrement abuser par ces corrélations abusives.

La valeur pédagogique de la démonstration par l’absurde

En fouillant un peu, j’ai découvert une autre corrélation troublante : on s’aperçoit que la baisse spectaculaire de la criminalité aux USA coïncide avec la commercialisation des premières plantes génétiquement modifiées2, tandis que dans la vieille Europe, de manière générale plus hostile aux OGM, la criminalité stagne voire continue à augmenter. En plagiant les méthodes et le culot de Vandana Shiva, j’en déduis sans sourciller donc que les OGM sont responsables de la (relative) pacification de la société américaine3 et que l’Europe gagnerait à les adopter massivement et d’urgence !

Certes, les trollers qui sévissent sur le blog de Yann Kindo y verront sans doute de la provocation. Pourtant, utiliser les mêmes corrélations foireuses, c’est un plaidoyer pour un peu de cohérence. Si ma « spurious » corrélation est irrecevable, alors celles qui essaient de faire passer les OGM pour la cause de l’augmentation des cas d’autisme, d’Alzheimer, ou de tout autre fléau imaginable le sont tout autant. Si on considère que la corrélation que j’avance n’est pas la preuve que les OGM induisent des comportements plus pacifiques4, alors on doit reconnaître que c’est aussi le cas des corrélations avancées par Vandana Shiva, tout aussi abusives, pour ne pas dire destinées à abuser.

Reconnaissons toutefois que les corrélations loufoques, voire totalement absurdes, du site susmentionné pourraient avoir une vertu pédagogique bien supérieure aux miennes : par exemple, le lien qu’il y a entre le nombre de noyades en piscine et le nombre de films avec Nicolas Cage. Pas mal non plus, la multiplication des comités d’action politique aux USA a des conséquences fâcheuses sur la mortalité en fauteuil roulant. Ou encore, la diminution de la consommation de margarine est associée de manière très étroite à celle de la fréquence des divorces. Les facétieux se demanderont sans doute si c’est la consommation de margarine qui baisse parce qu’on divorce moins, ou si c’est l’inverse…

Une « spurious correlation » dans une prestigieuse revue médicale.

On est souvent navré quand des gens comme vous et moi se laissent abuser pour des corrélations abusives. Mais il arrive parfois que le mal contamine des revues scientifiques, y compris les plus prestigieuses. Un certain Messerli a ainsi réussi à faire passer dans le New England Journal of Medicine un papier dans lequel il discute de l’effet de la consommation de chocolat sur l’amélioration des fonctions cognitives. Pourquoi pas, après tout ? Le hic, c’est que la seule chose que Messerli ait trouvé à se mettre sous la dent, si on ose dire, c’est la corrélation entre le nombre de prix Nobel par pays (depuis sa création en 1901) et la consommation annuelle (actuelle) de chocolat par habitant !

Il n’est pas impossible qu’il s’agisse d’un canular à la Sokal : l’auteur aurait pu vouloir tester si on peut faire passer n’importe quoi dans une des plus prestigieuses revues scientifiques à comité de lecture. À ma connaissance, Messerli n’a jamais fait une mise au point là-dessus. En attendant, une bonne partie de la presse a pris l’info pour argent comptant, certains se demandant avec gravité combien de chocolat il faudrait consommer pour accroitre ses chances de devenir Prix Nobel… Ah, si j’avais su, je me serais probablement gavé de chocolat…

Reconnaissons dans ce cas précis, que si c’est un canular, il n’aura pas été très pédagogique.

De manière ironique, des chercheurs de l’Université de Louvain ont rapporté un résultat encore plus surprenant que celui de Messerli : le coefficient de corrélation entre le nombre de magasins IKEA pour 10 millions d’habitants et le nombre de prix Nobel atteint le niveau improbable de 0,82 ! « Nous doutons que quelqu’un prétendrait sérieusement qu’IKEA limite son marché au pays qui ont beaucoup de titulaires du prix Nobel, ou qu’ [inversement] l’exercice de comprendre et d’appliquer les instructions d’assemblage des meubles améliore le niveau cognitif global des populations », commentent-ils malicieusement !

Reste à savoir si les adeptes du meuble en kit mangent beaucoup de chocolat…


Sur le web.

  1. Le coefficient de corrélation, dit de Pearson, peut varier de -1 à 1, et plus il s’approche de 1 en valeur absolue, plus il exprime une forte corrélation.
  2. 1994 : commercialisation de la première tomate génétiquement modifié « Flav Savr ».
  3. Et indienne d’ailleurs, le taux d’homicides ayant diminué de plus de 20% depuis l’introduction des cultures de plantes génétiquement modifiées.
  4. Je pourrais, avec une grande mauvaise foi, affirmer qu’en amenant davantage de prospérité, les OGM apaisent les rapports humains, et donc indirectement réduisent les comportements violents, mais je ne le ferai pas…
Voir les commentaires (47)

Laisser un commentaire

Créer un compte Tous les commentaires (47)
  • Dans le Grand Nord canadien, un homme blanc coupe son bois de chauffage pour l’hiver.
    Après deux journées de coupe, il se demande si sa provision de bûches sera suffisante.
    Les hivers sont souvent très froids, dans la région.
    A un vieil indien qui passe par là il demande si l’hiver sera rigoureux.
    Le vieil indien lui répond indécis en balançant une main hésitante:
    öUgh ! couci couça.

    Dubitatif l’homme blanc retourne couper du bois, encore.
    Au bout de quelques jours alors que le vieil indien repasse par là il lui demande :
    Alors dis-moi vieux sage cet hiver sera-t-il rude ?
    Et le vieil indien de répondre :
    ôUgh ! ôUgh ! Hiver sera rude !

    Fort de cette indication notre bonhomme retourne bûcheronner de plus belle.
    Quinze jours s’écoulent lorsque le vieux sage indien repasse par là à qui il demande de nouveau : Alors l’hiver vieux sage, l’hiver il sera rude ?
    ôUgh ! ôUgh ! ôUgh ! Hiver sera rude, sera très très très rude !

    Notre homme blanc demande alors au vieil indien sage.
    Mais, Grand Sage Indien, comment peux-tu savoir cela ?
    A quoi le sage indien répond:
    Quand homme blanc couper beaucoup bois, hiver sera très rude !

    • très bon exemple.
      c’est pas une corélation mais un processu mimétique.
      très intéressant

      un autre phénomène qui est le coeur de quelques tragédies scientifiques, politiques, et éconpmiques est la penée de groupe.

      http://www.princeton.edu/~rbenabou/papers/Groupthink%20IOM%202012_07_02%20BW.pdf

      ici la croyance en une réalité, un mécanisme (monétarisme, keynesianisme, dirigisme/colbertisme, anti-LENR, réchaufisme) commence par un bel exemple que ca marche et une conclusion plus ou moins rapide que c’est solidement étayé par l’expérience.

      Il faut tout d’abord reconnairtre que au moment ou la théorie se lance, elle marche bien, ell est rationelle… comme toute analyse pragmatique, (véritablement) scientifique donc, elle est basée sur les preuves réfutables et temporaire.

      mais là c’est le drame…
      la théorie se révèle fausse… soit parce que on s’est trompé et que de nouvelles preuves le montrent (climate, anti-LENR), soit parce que le monde changé (keynesianisme, colbertisme)…
      et des gens ont investis de leurs actifs matériels ou immétériels, et vont perdre des montants matériels ou immatériels énormes…
      leur ego, leur reconnaissance, leur argent, leur rentes, leur élection, leur job, leur budget, leur indice de publication…

      et à ils ont le choix entre payer cash, admettre les faits, et réorienter leur stratégie…
      soit continuer droit dans le mur en ne voyant pas l’iceberg.

      et là tout dépend du groupe et de sa capacité a nuire au réaliste.

      dans une communauté où l’opinion des autres est importante il se peut que les autres ruinent votre carrière, plantent vos investissements, vos budgets, vos chance au Nobel, a l’élection municipale, vous assasinent médiatiquement, adadémiquement, ou physiquement…
      les plus toxique sont les leaders, le chef, l’éditeur de nature ou Science, du NyT, les journalistes de TF1, les ONG ou religions… si ils décident que vous allez les ruiner, alors ils vont chercher à vous exterminer, et continuer a aveuglément croire en leur mythe… ils vont rejeter les preuves, casser le rasoir d’Occam, appeler des conspirations pour expliquer les preuves qui résistent à la rérécriture.

      a l’opposé si un fuyard est libre de gagner de l’argent, de la gloire, de l’ego en acceptant la réalité, de monter sa startup, son labo d’alien, de se faire financer, alors il regarde les preuves et prend des risques rationels…

      c’est pour ca que les monopoles de vérité , les agence de consensus, la science d’état, les projets Manhattan, les revues à for impact, sont structurelement et inévitablement des sources de groupthink.

      • Alain, en plaçant monétarisme, keynésianisme ou colbertisme sur un même plan, je pense que vous confondez le monétarisme originel d’un Friedman avec le « monétarisme de marché » qui n’est qu’un néo-keynésianisme, un monétarisme de pacotille à la mode chez les dirigeants des grandes banques centrales et les politiciens avides de politiques de court terme pour se faire réélire.

  • La plus grave des corrélations actuelles est celle que manipule de GIEC pour nous faire croire que le climat se réchauffe, par la faute de l’homme.

    Il existe aussi une corrélation amusante, la consommation de crèmes glacées est fortement corrélée au nombre de noyades, il serait donc judicieux de taxer les crèmes glacées !

  • On peut aussi voir une corrélation entre la dette nationale et la bêtise alarmante mais finalement très facile à expliquer :

    – la bêtise pousse à l’endettement inutile,
    – l’endettement favorise le maintient en place et la multiplication des crétins

  • Merci, excellent article, fun et clair, sur ce problème grandissant de la science 🙂

    Avec lavènement de l’informatique, notre capacité à traiter une vaste masse d’informations rapidement nous a noyé dans un flot de telles corrélations. Un simple biais de confirmation suffit pour se monter des théories, qui peuvent ensuite virer à la conspirationnite la plus regrettable.

  • Tout le monde s’égosille sur la différence corrélation / causalité.

    Alors pour faire simple :
    Si c’est une mesure statistique, c’est une corrélation.
    Si on sait expliquer cette corrélation par l’expertise métier, c’est une causalité.

    Repérer une corrélation est simple.
    Expliquer une corrélation est effroyablement complexe.

    •  » Si on sait expliquer cette corrélation par l’expertise métier, c’est une causalité.  »

      § Ou par l’expérience vérificative reproductible.

    • et pour compliquer la chose, « Repérer une corrélation est N’est PAS TOUJOURS simple. »
      En fait, en général c’est même très compliqué, car il faut le plus souvent réunir plusieurs condition pour qu’un phénomène se produise. Par exemple, bien que le coït soit une des causes de la grossesse, la corrélation entre coït et grossesse est très basse.
      De sorte que quand vous repérez une corrélation simple dans un phénomène compliqué, c’est soit que vous avez découvert l’eau chaude, soit que vous vous êtes complétement planté…

  • Vous oubliez une corrélation importante dans le même registre : la mauvaise foi d’un journaliste à Médiapart doit être inversement proportionnelle à son ouverture d’esprit (inutile d’être offensant…), critère essentiel pour y travailler.

  • L’article parle comme si tout ce que les statisticiens connaissent, ce sont les analyses de corrélation. C’est dommage, car les analyses de causalité existent belle et bien; Granger, Error correction model, Structural Equation Model (Path analysis). Pourquoi faire faint d’ignorer ?

    Ce qui m’ennuient, c’est que la plupart des gens que je trouvent sur le web parlant du fait que « corrélation n’implique pas causalité » ne semblent pas savoir de quoi ils parlent. Je suis persuadé que le nombre de gens qui prononcent « corrélation n’est pas causalité » est largement plus grand que je le crains.

    • Heum.
      Granger lui même appelle sa mesure « G-Causality » et explique très clairement que ce n’est pas une mesure de causalité au sens propre mais de quelque chose qui est sans doute lié à la causalité.
      D’ailleurs si on regarde et qu’on applique la « causalité de Granger » aux exemples de spurious correlation données dans le site cité, je suis certain qu’on aura plein de causalité détectée….

      La seule véritable causalité qui tienne c’est d’avoir une théorie, testable et falsifiable, qui dise que si ça, alors ci. Et qui permette donc d’expliquer que l’investissement US en technologie pousse les gens à se suicider par strangulation ou pendaison parce que … Après, si vous voulez valider votre modèle explication avec telle ou telle technique, type SEM, c’est autre chose. Mais il n’y a pas d’outil statistique qui « prouve la causalité » en soi. Ca serait trop beau, sinon.

      Et oui, à peu près 99.999% des gens ayant un doctorat en statistiques (ou autres fariboles associées) vous le diront, « corrélation n’est pas causalité ». Et pour une fois, ce n’est pas spurious, ce lien… Il y a bien une relation de causalité.

    • Le nombre de fautes d’orthographes dans votre commentaire est-il causé par votre correcteur orthographique ou corrélé à la faiblesse de votre raisonnement ?

    • Franz

      Non, les limites de la causalité de Granger consistent principalement en ce que des variables importantes ont été omises. Si elles existent, il faudra les nommer. En générale, les chercheurs utilisent les variables dont ils pensent avoir un certain pouvoir explicatif. Si une variable « confondante » a été omise, il faudra, comme je le dis, les détecter et expliquer pourquoi elles sont susceptibles d’avoir un effet indépendant susceptible d’améliorer l’ajustement du modèle. C’est comme ça qu’on choisit les variables qu’on insère dans le modèle, i.e., par voie théorique. Cela ne se fait pas sur un coup de tête.

      Votre commentaire me laisse fortement croire que vous ne savez pas en quoi consiste les méthodes de corrélations/causalités, et que par conséquent vous n’avez aucune idée de ce dont vous parlez. L’hypothèse dite « nulle » comme quoi il n’y a pas de différence (ou que la variable ajoutée n’ajoute rien au modèle de régression) ne peut jamais être confirmée. Pourtant, contrairement à ce que vous prétendez, ce n’est pas l’objectif de ces techniques. L’objectif, c’est de savoir si l’hypothèse « alternative » est plus probable que la « nulle ». On teste ainsi différent modèles « alternatifs » entre eux, et/ou contre le modèle « nul ». Et plus l’on échoue à rejeter tel ou tel model, plus ce modèle là est probable. Autrement dit, ces techniques tentent de montrer, non pas qu’il existe une « preuve » de causalité, mais que l’hypothèse de causalité (contre l’hypothèse qu’il n’y en a pas) est plus probable.

      Elmar

      C’est une réaction d’adulte immature. Vous n’avez aucun argument intelligent à apporter au débat. Trollez avec qui vous voulez, mais pas avec moi.

      • Vous êtes un joyeux drôle vous savez, MH.
        La dépendance est justement un de mes domaines de recherche 😉 Comme c’est amusant, j’y comprend rien… Remarquez c’est pas faux, mais à un niveau qui vous échappe semble-t-il totalement.
        Il n’y a aucun rapport entre l’existence ou non de variables confondantes, la causalité au sens de Granger et la causalité en soi. Le brave Clive le répétait à tout le monde, l’écrivait dans ses papiers, livres, toussa. Mais le pauvre, il ne savait pas ce qu’il faisait, lui non plus c’est ça? Faut dire que tous ces gens avec des doctorats en statistiques (enfin plus formellement « mathématiques appliquées et applications des mathématiques, mention statistiques » en France) n’y comprennent rien, n’est-ce pas.

        A vous lire vous avez du suivre d’une oreille distraite un cours de recherche appliquée en marketing. Ne parlez pas de statistiques vous n’en connaissez que vaguement l’application dans un champ restreint. On ne parle pas de « méthodes », il n’y a pas d’objectif, il y a ou pas une structure de dépendance qu’il faut quantifier. Il y a ou non une relation de causalité dans le modèle, la théorie ou les faits, et on cherche à voir si la structure statistique des données observées va dans ce sens avec ce qu’on peut trouver comme outils (pour vous faire plaisir, même si hors d’un contexte rigoureux ce n’est que de la cuistrerie « ne permet pas de rejeter, à un niveau X, l’hypothèse que telle variable G-cause telle autre »).

        Comme j’essaye de vous l’expliquer la causalité se trouve dans la théorie du champs étudié, dans le modèle, et n’est pas une notion pertinente en statistiques. Il n’y a donc pas de « mesure de causalité ».

        • c’est de la recherche, c’est a dire pas définitif ?

          une source de fausse causalité apparente est quand les données sont trop simples… toutes les loi de moore se ressemblent et semblent être reliées.
          une montée ressemble a une autre montée.

          après il y a la cause commune… déjà plus utile.

          un bon indice de causalité c’est quand un facteur change beaucoup et semble induire des changement simulaire…

          la richesse en information de la corrélation varie selon la complexité du signal… mais certains signaux ne sont que faussement complex… des oscillations sont complexe mai ca peut être des oscilateurs indépendent, ou juste très légèrement couplés ce qui les synchronise (ya une théorie sur ces oscilateur couplés… et en climato aussi).

          mais dans tout les cas c’est de l’art.
          et comme même la théorie c’est de l’art il faut vivre dans un monde ou on peut se tromper.

          pas une raison pour ne pas agir, mais pour agir en respectant le principe de ne rien regreter… d’intéger l’erreur non mesurable dans le calcul…

          c’est la vision de Judith curry sur les décisions en environnement incertain, face aux tenant de la prévision à la communiste…

          il faut face a un risque possible, voir probable, chercher a agir sur ce qui est de toute façon bon…

          contre le RCA, vrai ou faux, il faut lutter contre la pollution, augmenter le niveau de vie des population fragiles, augmenter la puissance de notre science et de nottre technologie, tester tout, gagner en connaissance et modélisation du climat…
          et ce avant de génocider ou d’apauvrir des populations entières.

          ca me fait penser au dilemme du tramway. un tram casse ses freins et va se crassher en bas tuant se spassagers… si on jette unh pauvre gars sous les roues on sauve le tram, que faire ?

          eh bien la morale nous dit d’essayer tout le reste, d’attendre l’innatendu parce que tuer un gars c’est pas une option…

          ca semble idiot sauf que les choses ne se passent jamais comme prévue.
          le tram va quelques secondes plus tard casser une roue et déraper dans un parc et se planter sur uhne pelouse… vosu aviez pas prévu ca… moi non plus.

          sauter du tram n’était pas idiot si vous aviez une chance, alléger le tram, jeter des trucs, klaxoner, lire les notices de sécurité, appeler la police
          il y a mille choses a faire avant d’assasiner un frère d’infortune.

          no-regret, stratégie no-regret!

          • « c’est de la recherche, c’est a dire pas définitif ? »

            Heum. Les mathématiques ce n’est pas de la « science » au sens épistémologique. Pas de « méthode scientifique », pas d’hypothèses… Une chose est vraie ou non, conditionnellement à certains éléments de départ (les axiomes, enfin, si on admet déjà celui du tiers exclu… ). Finalement comme j’aime à dire à mes étudiants, la discipline la plus proche des maths, même les plus « sales » comme les stats et les probas, c’est la théologie, pas la physique comme ils tendent à croire.

            Évidemment, comme nous ne sommes pas Dieu ou quelque chose comme ça, le fait que quelque chose soit vrai permet de publier (parfois) mais ne dit pas qu’on ne trouvera pas quelque chose de vrai aussi mais plus utile, plus efficace, plus… donc les résultats sont définitifs, mais leur usage non.

            • « Finalement comme j’aime à dire à mes étudiants, la discipline la plus proche des maths, même les plus « sales » comme les stats et les probas, c’est  »
              l’économie ? 😉

      • Franz…

        Je note que vous ignorez délibérément la 2ème partie de mon commentaire. Je prends ça pour une défaite de votre part. Concernant votre « réponse » de la 1ère part de mon commentaire, ce n’est rien de plus qu’un argument d’autorité, dont se servent les personnes lâches et méprisables comme vous. Je connais beaucoup de types qui aiment étaler leur cv pour intimider les autres. Ça ne m’impressionne pas. J’ai demandé des arguments. Mais en générale, vous ne faites rien pour me rassurer, et n’avez meme pas essayé de me contredire. Je répète, vous méconnaissez les critiques de Granger.

        Lisez bien ce papier.
        http://www.usc.es/economet/reviews/ijaeqs526.pdf

        C’est exactement l’idée que j’exprimais dans mon post. Le « problème » de Granger (qui n’en est pas nécessairement) tient du fait que le modèle testé n’est pas et ne peut pas être le « vrai » modèle. Car celui-ci peut inclure une troisième variable. Même si la technique de Granger est utilisée de façon bivariée, on peut inclure plus de deux variables (via des méthodes dites « vector autoregressive ») mais l’idée est toujours la même et s’applique pour toute méthode de causalité, à savoir, la présence (possible) d’un facteur confondant qui a été omise. C’est pourquoi je disais que ces modèles ne sont que des approximations (par rapport au « vrai » modèle). Néanmoins, ils sont quand même très utile. Un modèle qui montre un plus faible « ajustement » via des indices de model fit nous apprend qu’il doit être rejeté. Celui qui reste comme étant supérieur, n’est pas la preuve qu’il est la modèle correct, mais juste qu’il est plus probable que l’autre (ou les autres). On ne cherche pas à « confirmer » un modèle par rapport à un autre, mais plutôt à le « rejeter » sur une approche en « model fitting ».

        Maintenant, quand vous dites qu’il n’existe pas de mesure de causalité, c’est encore une grave méprise de votre part. Je n’ai jamais prétendu cela, alors n’essayez pas. Mon post a été très clair. Ce sont des hypothèses que l’on teste. Par tester, je le répète, on parle de probabilité. Ces techniques ne sont pas « confirmatoires » puisque ça marche dans l’autre sens. Ce n’est pas vous qui allez me l’apprendre, mais bien essayé quand meme.

        Oh, et puis…
        Entre nous, le r² n’est pas un effect size, monsieur le « spécialiste ». Lisez ceci, ça peut vous instruire :

        http://blog.philbirnbaum.com/2006/08/on-correlation-r-and-r-squared.html

        Hunter, J. E., & Schmidt, F. L. (Eds.). (2004). Methods of meta-analysis: Correcting error and bias in research findings. Sage. (pages 289-291)

        Sackett, P. R., Borneman, M. J., & Connelly, B. S. (2008). High stakes testing in higher education and employment: appraising the evidence for validity and fairness. American Psychologist, 63(4), 215.

        Evidemment, beaucoup de scientifiques ne savent pas cela à propos du r². Mais bien sûr, selon vous, puisqu’ils sont une « majorité » à y croire, c’est parce qu’ils ont forcément raison, n’est-ce pas …

        • « Je note que vous ignorez délibérément la 2ème partie de mon commentaire. Je prends ça pour une défaite de votre part. »

          En plus de ne pas comprendre ce dont vous parlez, vous ne comprenez pas ce que vous lisez. J’ai très clairement répondu à votre deuxième partie. Je vous le refait une dernière fois :
          CA N’A PAS DE RAPPORT AVEC LA CHOUCROUTE !!

          Quel est le mot que vous ne comprenez pas ? Vous parlez de modèle, de truc de bidule, avec moult cuistreries magnifiques (qui montre que contrairement à ce que vous voudriez faire croire vous ne maîtrisez pas la sujet). Vous balancez des références à des papiers qui 1° n’ont pas de rapport avec le sujet et 2° ne sont pas non plus écrit par de gens qui maîtrisent le sujet.

          Vous essayez de vous convaincre, mais vous êtes un pauvre idiot. J’espère que vous n’êtes pas chercheur, mais hélas entre climato, médecine, marketing etc. il y a un nombre immense de chercheurs qui comme vous usent des stats, pérorent sur des grands principes qui leur donnent l’air sérieux (croient-ils) alors qu’ils ne comprennent pas du tout de quoi il en retourne. Au lieu de ressortir ce que vous avez entendu d’une oreille distraite dans vos cours de « méthodo de la recherche quantitative » réfléchissez. C’est dur uniquement au début.

          Bref, dernière réponse de ma part. Comme je le disais déjà hier à un gentil défenseur aveugle des défenseurs du GIEC, je ne parle pas avec des robots qui ne passent pas le test du Turing. Vous avez échoué, au revoir et merci pour cette bonne tranche de rigolade.

          • J’oubliais, avant de finir définitivement avec cette discussion qui ne va nulle part et pour revenir sur le vrai sujet que vous vous acharnez à dévier.

            IL N’EXISTE PAS (ET IL NE PEUT PAS EXISTER) DE TESTS STATISTIQUE DE CAUSALITÉ !

        • Inutile de crier. Ça ne rendra pas votre commentaire plus pertinent (pour ce qu’il en est…). Il est intéressant de voir que c’est la 2ème fois que vous prétendez que j’ai affirmé mieux connaitre la G-causalité que Granger lui-même. Mais aussi la 2ème fois que vous affirmez devant moi qu’il n’existe pas de technique de causalité à proprement dite (i.e., au sens « conventionnel » du terme), chose que je savais déjà et que j’ai répété. Il est amusant aussi que jusqu’à présent, vous avez été incapable de me citer la moindre référence que ce soit. Le comble, pour un spécialiste auto-déclaré ?

          Voyez l’article suivant. Celui là aussi va dans le sens de ce que je dis.
          http://www.sterndavidi.com/Publications/AIJOS.pdf

          Granger causality is not identical to causation in the classical philosophical sense, but it does demonstrate the likelihood of such causation or the lack of such causation more forcefully than does simple contemporaneous correlation (Geweke, 1984). However, where a third variable, z, drives both x and y, x might still appear to drive y though there is no actual causal mechanism directly linking the variables.

          La plupart du temps, quand ils évoquent la G-causality, la première limitation qu’ils invoquent c’est le fait que des variables importantes ont pu être omises. C’est exactement ce que je dis. Il n’y a pas de vrais modèles, uniquement des approximations, qu’on teste les uns contre les autres, pour juger de leur « relative likelihood ». Des articles comme ça, je peux en citer beaucoup, mais ça, c’est parce que j’ai beaucoup lu aussi.

          Of course, des inférences causales sans base théorique n’a aucun sens, et nombreux (voir presque tous) sont les articles qui présentent la théorie pour illustrer l’analyse statistique. Ce n’est pas comme s’ils découvrent une nouvelle théorie sur la base de leurs statistiques. C’est l’inverse. Ils utilisent la statistique pour tenter peser la probabilité de ladite théorie. Donc quand cet article de Contrepoints nous rapporte une étude sur « l’effet de la consommation de chocolat sur l’amélioration des fonctions cognitives » mais que l’étude est simplement un scatterplot, ça n’avance pas à grand chose. Bien sûr, l’analyse est faible, surtout que j’ai toujours beaucoup de scepticisme sur les cross-national analyses compte tenu des larges différences entre pays, et que donc les points de comparaisons ne sont pas assez homogènes. Quand bien même, je n’ai pas la mémoire que les études de ce genre arrivent avec leurs stats sans base théorique derrière à l’appui, donc l’article ici ne nous apprend rien (pas à moi en tout cas). En outre, j’ai le sentiment que l’article est un peu de mauvaise foi, et nous cite en exemple, les pires études empiriques existantes qu’il soit (surtout celles sur le chocolat dont la théorie elle-même est plus que douteuse compte tenu des études qui ont déjà montré la corrélation positive entre sucrerie et criminalité). J’en ai lu beaucoup personnellement, tant dans le domaine de l’économie, de la psychologie (e.g., évolutionniste) ou de la psychométrie (QI et autres tests cognitifs ou scolastiques). Et ils étaient d’un niveau (pour la plupart) largement supérieur aux quelques études citées en exemple ici. Je ne suis pas sûr que l’échantillon présenté ici soit franchement très représentatif de ce qu’il se fait dans le milieu, à moins que je ne suis un outlier.

          • Allez, vous devez ne pas être un robot (ou alors pas mauvais, vous semblez à la limite de passer le test de Turing sur ce coup).

            L’article parle comme si tout ce que les statisticiens connaissent, ce sont les analyses de corrélation. C’est dommage, car les analyses de causalité existent belle et bien; Granger, Error correction model, Structural Equation Model (Path analysis). Pourquoi faire faint d’ignorer ?

            Bref, c’est cool, vous admettez enfin (avec beaucoup de difficulté et en continuant à vous cacher derrière une litérature mal maîtrisée) que vous aviez dit une grosse bêtise au début.
            Donc vous n’êtes peut-être pas un marketeux, plus probablement un psychologue/psychométricien. Je parie sur un master2. Une grosse rasade d’humilité, une prise de recul sur ce que vous faites avec les outils statistiques et peut être que vous arriverez à quelque chose de potable.

            Par contre comme personne humaine, vous êtes mal barré, mais c’est pas forcément important.
            Et si vous voulez des références en stats ou sur Granger, ne me les demandez pas, je ne suis pas votre thésard, et scholar google c’est pas pour les chiens.

            Donc cette fois pour de bon, fin de communication.

          • Franz : « que vous aviez dit une grosse bêtise au début »

            Non, et vous le savez. J’ai expliqué dans le commentaire juste après que la causalité ne doit pas être entendu au sens commun du terme. J’avais bien dit que dans la mesure où tout modèle est une approximation, le vrai modèle ne peut pas être trouvé, et dans ce cas, on évalue simplement la probabilité de chacune des approximations proposée. Dans le framework des Granger causality tests, on cherche à savoir si l’hypothèse de « non-causalité » peut être rejetée. Comme je le dis, ça marche à l’envers. Je le répète pour la 3ème fois. En citant mon 1er post non-explicite, en ignorant tous les suivants (qui avaient pour but d’argumenter mon point de vue), vous faites preuve d’une mauvaise foi débordante, Mr. le spécialiste. Ce n’est pas une démarche scientifique.

            Pour illustrer, encore une fois, voici ce que Arthur Jensen disait, dans The g Factor (page 464) :

            For example, if we hypothesize that no tiger is living in the Sherwood Forest and a hundred people searching the forest fail to find a tiger, we have not proved the null hypothesis, because the searchers might have failed to look in the right places. If someone actually found a tiger in the forest, however, the hypothesis is absolutely disproved. The alternative hypothesis is that a tiger does live in the forest; finding a tiger clearly proves the hypothesis. The failure of searchers to find the tiger decreases the probability of its existence, and the more searching, the lower is the probability, but it can never prove the tiger’s nonexistence.

            • C’est dommage, vous aviez commencé à reconnaitre votre erreur, mais hop, vous vous ré-enferrez, et recommencez à balancer des références de gens qui ne sont pas statisticiens (même pas économètres) et à vous cacher derrière.

              Bref. On sait tous très bien, vu la nature d’un échantillon qu’un test ne permet jamais d’établir directement pour un ensemble de données donné une propriété particulière. Et que donc on peut juste « ne pas rejeter l’hypothèse à un certain niveau ». Une fois dit ça (qui semble vous travailler fortement, quand même) on n’a rien dit, c’est l’intro du début du premier cours de stats appliquées. Le fait est qu’on cherche quand même à établir une propriété même si le test est par nature formalisé dans l’autre sens.

              Et le fait fondamental que vous ne voulez pas reconnaitre (enfin vous aviez commencé…) est que la causalité n’est pas une propriété statistique. Qu’il ne peut y avoir de test permettant d’établir (ou de rejeter, pour vous faire plaisir) la causalité entre phénomènes. Vous vous étonnez que les chercheurs ignorent ces tests… Et bien on vous répond, et vous commencez à balancer des références dans tous les sens et qui n’ont aucun rapport avec la choucroute. Et on vous dit et répète que Granger qui lui était un statisticien, le disait lui même. Mais non, un psychométricien et vous savez mieux.

            • Vous êtes incroyable de malhonnêteté. N’êtes vous pas celui qui m’avez reproché d’avoir des opinions que les statisticiens ne partagent pas ? Ce qui est d’ailleurs faux. Maintenant, je vous cite des références concernant les interprétations des analyses causales, et vous me dites j’use d’autorité. Vous êtes gonflé. D’autant que vous êtes toujours aussi piteusement incapable de me citer des sources contredisant complètement mon interprétation. Je peux en citer bcp partageant mon point de vue.

              Puis votre commentaire n’ajoute rien au mien. C’est ce que je me tue à vous dire depuis l’autre fois. Je pourrais aussi bien vous reprocher d’avoir copié tout ce que j’ai dit plus haut (en plus de dénaturer sciemment tout ce que je dis en affirmant des choses que je n’ai jamais dites, ce qui fait bel et bien de vous quelqu’un de très méprisable). Là où on est pas d’accord, néanmoins, c’est que moi j’estime que l’inférence causale est possible, et je ne suis pas le seul à le dire (voir les références ci-dessus).

              La raison pour laquelle je pense que vous êtes un ignorant est que vous ne faites pas l’effort de me contredire. Par inférence causale possible, je disais que l’on peut rejeter (mais non confirmer) des modèles (qui sont je répète des approximations). La principale objection sont les variables omises, mais ça, les chercheurs savent comment avancer leur théorie sur l’importance (ou non) des facteurs possiblement omis, ce qui conforte la proposition d’inférence causale avancée par les chercheurs, surtout si la théorie également est solide. Et c’est là la grande différence entre l’analyse causale et corrélationnelle. Dans la 1ere, vous êtes dans une approche « confirmatoire » tandis que dans la 2nd, vous êtes dans une approche « exploratoire ». Cette seconde approche ne permet pas de comparer la probabilité des hypothèses.

              Voici ce que disait John B. Carroll (1997) dans Theoretical and Technical Issues in Identifying a Factor of General Intelligence :

              There are fundamental differences between exploratory and confirmatory factor analysis; the methods are actually complementary. The former is concerned with analyzing correlational data to suggest a satisfactory model for describing those data. The latter is concerned with appraising the probability that any given proposed model, even one that might seem quite unlikely, could generate the observed data. Exploratory factor analysis is essentially descriptive, while confirmatory factor analysis appeals to statistical significance testing. Confirmatory factor analysis cannot proceed until one proposes a model that can be tested. One source of such a model is a model produced by exploratory analysis, but this is not the only source; a model could be suggested by a psychological theory.

              Pour une illustration de la façon dont on rejette les modèles, vous pouvez jeter un oeil à l’article Intelligence and the brain: A model-based approach basé sur une analyse « confirmatoire » en variables latentes.

              Là, vous me dites qu’on ne peut pas non plus rejeter des modèles de causalité. Mais c’est une affirmation, pas un commentaire argumenté. Que j’attends toujours. Vous disiez être un spécialiste en ce domaine, mais vous êtes incapable d’argumenter même ne serait-ce qu’un peu ?

              Et puis, entre nous, je connais très bien le domaine de la psychométrie, et la raison pour laquelle je suis confiant quant à mon interprétation c’est que de nombreux scientifiques usent de techniques comme CFA, SEM et autre path analysis, et dont certains co-auteurs de ces papiers sont eux-mêmes des statisticiens. Je dis ça pour deux raisons: de 1) si vous pensez que mon opinion est un espèce d’outlier, vous faites une grave erreur, et de 2) si vous êtes en désaccord avec eux, il faudra commencer par argumenter et expliquer en quoi on ne peut pas comparer la probabilité des modèles.

              • OK, je reviens sur mon analyse précédente, bien que n’ayant pas lu un quart de votre verbiage hors sujet.
                Vous êtes bien un idiot fini, totalement malhonnête et en plus inconscient de tout ça.

                Vous ne comprenez pas ce que vous lisez, ni de moi, ni d’autres, vous répondez à côté, vous affirmez des trucs faux et vous vous appuyez sur ces références (de gens qui ne sont pas plus statisticiens que vous… vous savez user de stats ne fait pas de vous un statisticiens, de même qu’utiliser un ordinateur ne fait pas de vous un informaticien) qui ne disent pas la même chose que vous.

                Je vous parle de statistiques. Vous me répondez avec de la psychologie. Évidement, ça ne colle pas. On peut user de statistiques pour essayer d’établir (donc de ne pas pouvoir réfuter solidement) une causalité, qu’on définit d’une certaine façon dans le cadre psycho-, ou éco-, artisto- ou autre. Après on définit un modèle qui intègre cette supposée chaine causale et on teste le modèle. C’est ce que vous me répétez à longueur de posts (très longs). Ce qu’on fait c’est tester le modèle. Pas la causalité. Parce que ça ne se peut pas, ce n’est pas une grandeur mathématique/statistique. Donc avec vos tests, vos bidule et vos trucs (que visiblement vous ne comprenez pas bien, en plus…) vos gus établissent (souvent de travers) qu’ils n’arrivent pas (en s’y prenant moyennement bien) à rejeter l’hypothèse que leur modèle (intégrant des relations causales entre variables, du fait de la théorie propre à leurs disciplines) décrivent la réalité.

                Est-ce que ça a testé la causalité (votre affirmation du début, hein, qui a lancé le débat) ? Et ben non. Désolé. Et la G-Causalité est de ce même ordre. Elle évalue finement dans un cadre auto-régressif bivarié (ou multivarié pour ses extensions) le « post hoc » dont, sur des bases propres à la discipline (économie au départ), on se sert pour sortir un « ergo propter hoc ». Mais ça n’est en rien un test de causalité.

                En gros pour vous donner un dernier truc à réfléchir. Si un test de causalité réel existait, alors je vous donne deux séries de données sans vous informer du tout de quoi il s’agit, et vous devriez pouvoir dire, en vous trompant moins d’un pourcentage défini de fois si l’une cause l’autre et vice versa. Pas possible. Donc il n’y a pas de tests de causalité (au sens propre et complet du terme) et il n’y en aura jamais. On doit pouvoir le démontrer formellement mais 1° c’est pas intéressant, et 2° c’est inutile. Donc ça n’a probablement jamais été fait (je n’en suis même pas sûr, en fait, peut-être que si quand même, il y a des gens qui démontrent des trucs idiots parfois).

                Ne vous donnez pas la peine de me répondre à coup de citations de psychiatres et de peintres gothiques, je déconnecte les notifications. Par contre, rendez-vous un service, relisez ce que je vous ait dit à tête reposée, prenez un livre de statistiques, jetez un œil aux papiers originaux de Granger et réfléchissez un peu.

          • À ce propos, je n’ai aucun diplôme dans les domaines pré-cités. Je ne suis pas dans le marketing, ni dans l’économie, la psychologie, la génétique, la psychométrie, ni même les stats. Je n’ai pas envie de dire ce que je fais exactement, mais mon domaine (les arts) est trop éloigné de ce dont on parle.

            Je vous dis ça, comme ça vous pourrez insister encore davantage sur les arguments d’autorité. Aussi, si ça vous intéresse, essayez d’entrer « Other empirical studies on the ABCT » sur google. Vous trouverez sans doute mon article intéressant sur le topic des méthodes causales.

            • Oui, bref, donc dans votre domaine vous commettez donc encore plus d’horreurs statistiques que les médecins, les psychométriciens et les marketeux, donc.
              On s’en moque de vos pseudo arguments d’autorité… En l’occurrence vous en abusez à coup de références (c’est ça, le vrai argument d’autorité, by the way). Vous n’y comprenez rien, racontez des bêtises et citez des gens qui ne parlent pas du même sujet que vous et parfois racontent aussi des bêtises. Vous croyez que ça fait avancer le schmilblick?

              Moi pas !

            • « En l’occurrence vous en abusez à coup de références (c’est ça, le vrai argument d’autorité, by the way). »

              Ah, justement, pour en r’venir à ça. En fait, je pense que vous vous trompez. Ce genre de stratégie a pour but de faire stopper court à la conversation (comme vous aviez apparemment essayé de faire). Vous m’aviez sorti que les doctorants en stats ne peuvent pas se tromper contre ceux qui ne sont pas issue du milieu. Moi, je cite, à titre illustratif de mes propos, mais en aucun cas pour dire que si tel ou tel « grand » auteur a écrit ça, alors ce doit être vrai.

    • Non je ne suis pas d’accord.

      Ce qui est pompeusement appelé « test de causalité » n’est qu’un test de corrélation temporelle entre un phénomène A à l’instant T et un phénomène B à l’instant T+1.
      On ne peut pas parler de causalité en statistique.
      Jamais.
      Interdit.
      Verboten.

      Signé : un statisticien.

      • @Mathieu le « statisticien »

        Comme je l’ai dit à Franz,

        « Je connais beaucoup de types qui aiment étaler leur cv pour intimider les autres. Ça ne m’impressionne pas. »

        J’aime beaucoup l’internet. Il y a des gens comme ça qui essaient de faire passer des mensonges gros comme une maison. Après tout, qui peut aller vérifier la véracité de ces propos ? Si ce n’est, peut-être, par induction, en fonction de la pertinence des commentaires des uns et des autres.

        • Et à part ça vous alignez des citations d’articles de gens qui ne sont pas statisticiens et qui ne disent pas ce que vous voulez croire qu’ils disent.

          Qui part dans des « arguments d’autorité » ridicules alors qu’il ne sait pas de quoi il parle?

          La G-causalité c’est l’énonciation mathématique du principe « post hoc ergo propter hoc », qui est dénoncé comme une des premières erreurs possibles en analyse de données. Mais ça a du vous échapper parce que visiblement si vous en connaissez le nom (et peut-être la commande dans un logiciel pour l’obtenir) vous ne savez pas trop ce qu’il est.

          Amusant en tout cas que vous prétendiez savoir mieux que C. Granger ce que la « causalité de Granger » est ou n’est pas.

  • Hé mais, il est aussi plaisant à lire que h16 ce Yann Kindo!

  • C’est d’ailleurs l’absence d’OGM au Liberia et au Sierra Leone qui est à l’origine de la recrudescence de cas d’Ebola !

  • Dans un article paru dans mon blog je citais la corrélation entre les tests PISA et l’occurrence d’un acide gras omega-3, l’acide docosahexanenoïque qui est fondamental pour le développement cérébral. L’auteur de l’article précise bien qu’il n’y a pas de corrélation puisque le coefficient de régression linéaire est de 0,47 mais l’article met l’accent sur le développement cérébral et le régime alimentaire (voir la figure).
    http://jacqueshenry.wordpress.com/2014/09/17/dites-moi-ce-que-vous-mangez-et-je-vous-dirai-qui-vous-etes/

  • Rajoutons également que la corrélation (vesion cross product moment de Pearson) n’est une mesure complète de l’association de deux variables que dans le cas d’une distribution Gaussienne multivariée de la variable expliquée et de la (les) variable(s) explicative(s). Sinon si deux choses corrélées ne sont jamais indépendantes, il y a des choses non-corrélées qui sont dépendantes… Les formes d’association non linéaires sont souvent représentées par les fonctions copules (ou copula) (ce qui permet un petit hat tip à l’exemple de P sur coït et grosses… )

  • J’ai une corrélation de r=0.55 entre l’indice de liberté économique et le PIB (PPA) par habitant, de tous les pays du monde, ça vaut le coup ou pas ?

    http://hpics.li/4292009

    • En économie, gestion, sociologie (bref tout ce qui relève d’interaction d’humains par nature libres et susceptible d’apprendre, de changer de comportement et d’objectifs) on considère que des R² de plus 20% sont remarquables et donc a étudier plus à fond. Là vous avez un R² de 30% grosso modo, donc oui c’est intéressant (en plus vous avez toute un corpus théorique ancien et important qui justifie d’une relation de causalité). Attention cependant si vous entrez dans l’analyse en série temporelle, vos différents indicateurs ne sont pas stationnaires et donc vous avez de bonnes chances d’avoir des relations « spurious » mais ça se corrige sans trop de mal, il y a un certain nombre d’outils économétriques pour ça.

    • Et au vu du graphique j’essayerai une régression non linéaire. Exponentielle/puissance, sans doute. Ce qui a un avantage niveau modèle, ça vous garantira de ne pas avoir de PIB théorique négatif même dans les pays les pires… ce qui n’est pas mal parce que la façon dont le PIB est mesuré l’empêche d’être négatif.

    • au vu du graphique je N’essayerai PAS une régression non linéaire avant d’avoir tester si je n’aurais pas une meilleure corrélation avec
      * d’une part, des composantes de l’index (sous ensemble réduit)
      * d’autre part, en ajoutant des facteurs que l’index ignore complétement, tel que, par exemple, la quantité d’énergie produite (primaire ou électrique), la durée depuis le dernier conflit sur le sol ou avec un voisin, le taux d’alphabétisation (homme et femme), la quantité d’eau reçue (via cours d’eau ou pluies), la surface agricole, etc.

  • C’est ainsi qu’il faut vivre sur la Côte d’Azur et à Nice en particulier parce que l’espérance de vie y est plus grande (en raison du climat).

  • Les commentaires sont fermés.

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don
4
Sauvegarder cet article
1983-2014. Les biotechnologies végétales en Europe, de l’enthousiasme au suicide technologique

Pour comprendre le vote récent du Parlement européen sur ce que l’Union européenne nomme les nouvelles techniques génomiques (NGT), il faut remonter à l’invention de la transgénèse végétale en 1983. C’est-à-dire la possibilité de transférer directement un gène (un fragment d’ADN) d’un organisme quelconque, d’où ce gène a été isolé, vers une plante (c'est aujourd’hui possible pour presque toutes les espèces végétales cultivées). Cette dernière porter... Poursuivre la lecture

OGM
3
Sauvegarder cet article

Les aliments génétiquement modifiés, également connus sous le nom d'organismes génétiquement modifiés (OGM), existent depuis l'aube de l'agriculture. Depuis près de 30 000 ans, l'Homme a modifié génétiquement les plantes et les animaux, d'abord par inadvertance, puis par le biais d'une méthode de sélection primitive.

Presque tous les produits alimentaires et animaux que nous considérons comme naturels et historiquement inchangés seraient méconnaissables dans leurs formes préhistoriques originelles.

Soyons clairs : la consommatio... Poursuivre la lecture

Par Frank Shostak.

La statistique du PIB reflète l'idée que le facteur clé de la croissance économique n'est pas la production de richesses mais plutôt leur consommation. Il s'agit plutôt d'un calcul de la valeur des biens et services finaux produits pendant un intervalle de temps donné, généralement un trimestre ou une année. Comme les dépenses de consommation représentent la plus grande partie de la demande globale, de nombreux commentateurs estiment que les dépenses de consommation sont le principal moteur de la croissance économiqu... Poursuivre la lecture

Voir plus d'articles