Carton rouge et statistiques

Wheaty FC vs Prescot Sun Reserves FC credits via Flickr ( (CC BY-NC-ND 2.0)

Une mise en garde contre le jeu dur en sciences.

Par Wackes Seppi.

Wheaty FC vs Prescot Sun Reserves FC credits via Flickr ( (CC BY-NC-ND 2.0)
Wheaty FC vs Prescot Sun Reserves FC credits via Flickr ( (CC BY-NC-ND 2.0)

Nous lisons dans Nature un article intitulé « Crowdsourced research : Many hands make tight work » (recherches aboutissant à la rédaction de contenus sur un modèle participatif : beaucoup de mains produisent des résultats rigoureux – traduction sans garantie aucune) de Raphael Silberzahn et Éric L. Uhlmann nous enjoignant de ne pas croire sur parole toutes les études qu’on nous livre.

Il s’agit certes de sociologie et d’études dans lesquelles le contrôle des données brutes est restreint par des contraintes sociales et matérielles. L’homme de laboratoire, en revanche, peut éliminer de nombreux biais et facteurs de confusion et concevoir son essai de manière à optimiser ses chances d’obtenir un résultat ayant un sens. Il peut aussi…

Les auteurs rapportent donc dans Nature qu’ils avaient publié un article en 2013 suggérant que les patronymes allemands à consonance « noble », comme König (roi) et Fürst (prince) étaient un bon passeport pour la carrière. Un psychologue de l’Université de Pennsylvanie, Uri Simonsohn, a repris la base de données et, lui appliquant sa propre méthode analytique, a conclu à l’absence d’avantage. Les auteurs initiaux ont dû admettre que l’analyse de Simonsohn était meilleure. Se montrant bons… princes (ce n’est pas donné à tous les chercheurs…), ils rédigèrent un commentaire à trois.

Et ils conçurent une expérience de crowdsourcing.

La couleur de la peau a-t-elle une influence sur le risque pour le joueur de se voir infliger un carton rouge dans un match de football ? Telle était la question.

On a donc constitué une base de données avec 2053 joueurs de la saison 2012/13 des championnats de première division allemand, anglais, espagnol et français. Et prié 29 équipes de chercheurs de l’exploiter à leur guise pour répondre à la question.

Résultats en bref : 20 équipes ont trouvé un lien – en grande majorité statistiquement significatif – entre couleur de peau et carton rouge. La plupart ont trouvé que les joueurs à peau sombre avaient une probabilité de se faire exclure 1,2 à 1,5 fois plus grande que les joueurs à peau claire (les joueurs avaient été rangés dans cinq classes de teint). Quatre n’ont pas trouvé de différence. Pour deux autres, la différence était largement supérieure à 2, mais avec un très grand intervalle de confiance.

Les adeptes des sciences et, plus particulièrement des statistiques, se délecteront à la lecture de la documentation disponible. Nous soulignerons quatre points.

1.  Est-ce étonnant ?

Non. Chaque équipe a abordé le problème avec sa propre vision, sa propre analyse des différents facteurs inclus dans la base de données, et ses propres outils statistiques.

2.  Quelle a été la réaction des chercheurs ?

Les équipes ont été priées de débattre des choix des uns et des autres, présentés sous forme anonymisée. Certains de ces choix ont été considérés comme moins défendables que les autres, mais il n’y a pas eu de consensus sur une méthode qui serait la plus appropriée.

Les auteurs de l’étude ont conclu qu’au final, le consensus du groupe a été beaucoup moins ferme que la conclusion qui serait attendue de l’analyse par une seule équipe.

Ils disent aussi que l’expérience les a convaincus que la réunion de beaucoup d’équipes de chercheurs expérimentés peut équilibrer les discussions, valider les résultats scientifiques (étonnant si l’on considère cette seule expérience… aucun choix particulier n’ayant été validé comme le meilleur) et mieux informer les décideurs politiques.

3.  Crowdsourcing (la rédaction de contenus sur un modèle participatif), une solution ?

C’est une démarche parmi d’autres. Mais si le contenu représente le consensus sans montrer la variabilité des approches et des résultats individuels, on aura perdu en informations.

L’exercice qui a été mené a tout de même produit un groupe de résultats qu’on peut qualifier de très homogène et en a mis d’autres en évidence, qui peuvent être considérés comme des valeurs aberrantes par rapport au groupe précité.

Les auteurs proposent une analyse nuancée :

« Dans le système actuel, les gros titres l’emportent sur les résultats peu clairs. Pire encore, une fois qu’un résultat a été publié dans un journal, il devient difficile de le contester. Les idées se figent trop rapidement, et les déraciner crée plus de perturbations qu’il n’est nécessaire. L’approche de crowdsourcing donne de l’espace aux opinions dissidentes. »

4.  Et alors ?

Il y a beaucoup de vœux pieux là-dedans. C’est à notre sens une illusion de croire qu’un mode de construction de savoirs impliquant plusieurs équipes ou plusieurs experts dans une démarche collective – démarche qui est aussi, d’une manière ou d’une autre, celle des méta-analyses, des expertises collectives, des examens par des organismes de régulation tels que l’ANSES et le HCB en France ou l’EFSA en Europe – mettra un frein à la science ou, pire, la pseudo-science militante.

Les producteurs de résultats tonitruants ne se laissent en effet pas perturber dans leurs démarches par la science orthodoxe, celle qui représente le courant dominant. Être dans la marginalité, avoir prétendument raison seul contre tous, être le défenseur incorruptible de la vérité, est en fait leur meilleur argument de vente. Et ils s’entendent, à la fois au sens de savoir y faire et de disposer des relais nécessaires dans les médias, pour faire les gros titres…

Pour le public et les décideurs politiques, la conclusion principale à tirer de cette très intéressante et très utile étude est qu’il faut faire preuve de discernement et ne pas se fier à une seule étude.

Nous ne pouvons qu’ajouter : surtout si elle provient d’une équipe sulfureuse. Et encore plus s’il s’agit d’un sujet qui reçoit un large écho dans l’opinion publique.

 

On – enfin, les gens rationnels – le savait déjà. Mais cette étude l’illustre magistralement. Que nous apprend le graphique ci-dessus (repris de Nature) ?

Les quatre premières études n’auraient jamais fait leur chemin dans les médias grand public : pas de discrimination raciale… aucun intérêt médiatique ! On peut même penser qu’elles auraient eu quelque mal à trouver une revue scientifique prête à les accueillir.

Imaginez en revanche les grands titres que permettent les deux dernières, artistiquement customisées pour les besoins de la médiatisation, pour cacher l’énorme incertitude, avec un odds ratio autour de trois… surtout au lendemain d’un match dans lequel l’arbitre aurait exclu du terrain, par une décision peut-être discutable, un joueur de couleur apprécié.

Et transposez cela dans d’autres domaines tels que les pesticides, les OGM, les perturbateurs endocriniens, les vertus du bio, les horreurs de la restauration rapide…

Sur le web