Les sondages présidentiels sont-ils caviardés ?

Publié le 23 avril 2017

- A +

Par Leopold Mebazaa.¹

La critique des sondages est en vogue en ce moment, mais elle ressemble généralement moins à une analyse constructive qu’à un cri primal. Cela ne veut pas dire que les sondeurs sont exempts de tout soupçon. Au contraire, il est assez facile de démontrer, chiffres à l’appui, qu’ils ne font pas leur boulot correctement. Sur ce cycle présidentiel, en particulier, les sondeurs sont visiblement coupables de caviarder leurs chiffres.

Quand je dis “caviarder”, je ne verse pas dans la théorie du complot. Une pratique courante chez les sondeurs est ce que les anglophones appelleraient le herding. En gros, cela consiste pour des instituts à ne pas publier des sondages ou à “réajuster” leurs chiffres pour éviter d’avoir des résultats trop exotiques. C’est l’équivalent statistique de rentrer dans le rang par peur de passer pour un demeuré.

C’est assez facile à détecter : si les sondeurs donnent peu ou prou les mêmes chiffres, c’est qu’il y a un problème. Et on peut prouver ça mathématiquement !

Explication technique

Vous avez le droit de sauter cette explication si vous êtes mathophobes, mais, normalement, n’importe quel détenteur du Bac peut la comprendre. Il est aussi utile de préciser que je me suis inspiré d’un article du statisticien américain Nate Silver étudiant les sondages d’une élection sénatoriale dans l’Iowa.

Les sondages sont généralement associés à un intervalle de confiance. Cet intervalle correspond au fait qu’on ne mesure pas l’entièreté de la population, et que donc les résultats seront forcément d’une manière ou d’une autre à côté de la plaque. Par exemple, un sondage mesurant des scores autour de 20–25% et utilisant un échantillon de 1000 personnes a un intervalle de confiance de 2,7%.

Ce qui veut dire qu’on est certain à 95% que le vrai score mesuré est compris entre 17,3% et 22,7% (+/- 2,7%). Une extension de cette règle fait qu’on est aussi certain à 68% que le vrai score mesuré est compris entre 18,65 et 21,35 (+/- la moitié de 2,7%, c’est-à-dire 1,35%).

Ce qui veut dire qu’à long terme, 68% de tous les sondages réalisés vont être compris dans un intervalle de +/- 1,35%. C’est mathématiquement inévitable. Si les sondages sont trop en dehors, ou trop à l’intérieur de cet intervalle, ça veut dire qu’il y a un problème avec les méthodes de ces sondages. Encore une fois, si l’on prend 1000 personnes au hasard, et qu’on répète cette méthode de sondages encore et encore, la dispersion des scores trouvés devrait être assez claire et régulière.

Par exemple, pour Marine Le Pen, dans un environnement de sondage normal et parfait, si son score réel est de 20%, un échantillon de sondages qui se comporte normalement serait 21, 16.5, 19, 19.5, 19, 21.5, 19, 19.5, 18.5, 18. (J’ai généré cette série sur mon ordinateur.)

La preuve

Intentions de vote pour Marine Le Pen

Voilà la courbe d’intentions de vote pour Marine Le Pen entre le 2 décembre et le 14 avril. La ligne au milieu représente la moyenne des intentions de vote, calculée selon la méthode de la régression locale. L’intervalle en rouge représente l’intervalle de confiance dont je parlais dans l’annexe technique.

Encore une fois, retenez l’idée que, pour que les sondages soient normaux, il faut qu’il y ait à peu près deux tiers des sondages dans l’intervalle, et un tiers en dehors. C’est assez évident que ça n’est pas le cas, et la réalité est encore pire que ce qui transparait sur le graphique (des sondages avec des scores similaires ont été publiés le même jour, mais ne font qu’un point sur le graphique).

Les sondages présidentiels sont beaucoup trop proches les uns des autres, et c’est une aberration statistique.

Intentions de vote pour François Fillon

Intentions de vote pour Emmanuel Macron

Intentions de vote pour Jean-Luc Mélenchon

Mais il y a pire. Vous remarquez que, sur les graphiques, j’ai séparé les sondages en deux périodes : avant et après le 25 février. J’ai choisi la date essentiellement parce qu’elle correspond à des gros changements de scores pour les quatre principaux candidats (juste après les ralliements de Bayrou et Jadot, et avant la mise en examen de Fillon). Ces changements ont été spectaculaires sur les six semaines suivants le 25 février, créant une volatilité jamais vue dans une présidentielle.

On serait donc en état d’attendre, après cette date, une déviation des sondages plus importante que d’habitude. En réalité, le contraire s’est produit : les sondages ont été incroyablement, et anormalement, réguliers pendant les six dernières semaines.

Statistiquement, le moyen le plus simple de prouver que c’est anormal est de calculer la probabilité que cela arrive selon le test du χ². Sur les sondages du 25 février au 17 avril :

La probabilité que les scores d’Emmanuel Macron aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.001%.
La probabilité que les scores de François Fillon aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.0003%.
La probabilité que les scores de Jean-Luc Mélenchon aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.0006%.
La probabilité que les chiffres de Marine Le Pen aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.00000000002%.

Et ce alors que les sondages pré-25 février étaient relativement plus dispersés (même si ils avaient tendance à rester quand même assez proches de la moyenne : les sondages présidentiels sont en moyenne à moins d’un point d’écart des autres).

L’explication de ce changement brusque et anormal est assez simple : les sondeurs répètent ce que disent les autres, et refusent de publier des résultats trop osés. C’est le herding dont je parlais tout à l’heure. Et dans la période d’incertitude sans précédent qu’a été la fin de cette campagne, les sondeurs ont apparemment paniqué, et cette pratique s’est amplifiée.

On peut comprendre ce comportement. Après tout, c’est assez humain de vouloir corriger un peu la copie avant de publier des résultats. Mais pour être tout à fait honnête, ces pratiques sont assez dangereuses pour la démocratie française

Des sondages aussi moutonniers, des résultats bruts qui ne sont pas publiés, des publications qui sont, en essence, trafiquées : tout cela est le signe d’une industrie sondagière de mauvaise qualité. Peut-être que la moyenne des sondages est pertinente, mais, vu qu’apparemment tout le monde copie un peu sur tout le monde, rien n’est moins sûr.

Et ce qui en résulte est historiquement assez évident : des énormes surprises le soir du scrutin. Ce qui, pour cette présidentielle, veut dire une chose : attachez vos ceintures dimanche soir, parce que les sondages ne seront probablement pas là pour vous sauver.
—
Sur le web-Article publié sous licence (CC BY 4.0).

Assistant de recherche au MIT Media Lab. ↩

Laisser un commentaire

Créer un compte Tous les commentaires (6)

23 avril 2017 at 11 h 33 min

Un peu technique (un tout petit peu…) mais très éloquent. Merci

0

Répondre
23 avril 2017 at 13 h 41 min

Bonjour

Le problème des intervalles de confiance est que l’on considère que c’est un tirage au sort purement aléatoire (dé bien régulier etc..), en gros une urne de dimension infinie et un tirage de mille boules.

Dans les sondages d’opinions, ce n’est pas un tirage au sort, mais l’opinion d’une population bien particulière, celle qui accepte de
répondre.
Un biais de sélection qui est particulièrement important puisque 80% des gens contactés refuse de répondre.
Les sondeurs redresse au pif (alias doigt mouillé) leur résultat, donc l’intervalle de confiance de l’échantillon par rapport à la réalité est bcp plus dégradé.

PS en plus l’erreur des sondeurs est tjs à l’avantage de leur champion (Juppé, Macron ect..)

0

Répondre
23 avril 2017 at 14 h 04 min

Les analyses du big data apportent généralement plus et son bien plus précises. Ces analyses avaient prédit le Brexit, Trump, Fillon et sur cette présidentielle, elles prédisent aussi Fillon. Enfin, pour le premier tour, le second n’etant pas encore d’actualité. A voir donc. Big Data vs Sondages.

0

Répondre
23 avril 2017 at 20 h 32 min

ben non les sondages “caviardés” ont vu juste…

0

Répondre
- 24 avril 2017 at 16 h 33 min
  
  Ils (les instituts de sondage) font cela à chaque fois.
  
  6 mois avant les élections ils mettent leur favoris devant et 15 jours avant la réalité (le scrutin vrai) ils convergent.
  
  C’est gagnant à tout les coups.
  Soit les favoris restent favoris et ils avaient raison.
  Soit les outsiders gagnent et ils disent qu’ils avaient vu la dynamique de leur victoire.
  
  Fastoche les sondages ;).
  
  0
  
  Répondre
24 avril 2017 at 0 h 36 min

Article fort intéressant et pertinent,or il semblerait que les instituts aient copiés les bons sondages lors de ce premier tour,étant donné leurs exactitudes montrées ce dimanche!

0

Répondre