Tirer profit du Big Data sans compromettre nos libertés

Publié le 29 mai 2020

- A +

Les données sont l’or noir du XXIe siècle. Elles sont une nouvelle source de savoirs. Les prochaines connaissances seront inférées à partir de données collectées en masse. Leurs pouvoirs de prédiction seront à la base de toutes les décisions à venir.

Les questions concernant la collecte, l’utilisation et la commercialisation des données personnelles se posent avec un intérêt qui va croissant. Comme souvent, l’évolution technologique impose son rythme. Internet, les smartphones et, demain, des objets connectés, la 5G, les réseaux satellitaires sont en avance sur une réflexion indispensable, et donc urgente. D’autant plus indispensable, que la menace d’un rejet par la population commence à se faire sentir.

L’épreuve du Covid-19 montre l’intérêt des systèmes de traçabilité. La technologie est là, mais son succès est menacé par la peur légitime que ce traçage ne serve d’autres objectifs inavoués.

Pour ces raisons, il est urgent d’aborder ce thème pour nous permettre de tirer tous les bénéfices de la collecte de données – personnelles ou pas – et en même temps protéger les libertés de chacun.

Car c’est bien ainsi que se pose l’équation à résoudre : d’un côté les bénéfices très attendus que recèlent les données, de l’autre la protection de la vie privée et de nos libertés.

Ce premier article aborde les bénéfices attendu. Un second article abordera le rapport à la liberté. Un troisième article expliquera comment la réglementation RGPD, entrée en application le 25 mai 2018, limite de manière importante les bénéfices que nous pourrions tirer des données, impose des coûts exorbitants aux entreprises, n’est que partiellement appliquée, et au final ne protège que très peu les citoyens. Un quatrième article présentera la position du think tank Génération Libre proposant la propriété et la monétisation des données personnelles. Le dernier article donnera des pistes pour éviter ces écueils et posera ainsi des jalons pour l’avenir.

Le pouvoir prédictif des données

Rien de nouveau lorsqu’on affirme que l’information apporte un avantage, mais d’où vient ce pouvoir ? Il s’agit avant tout d’un pouvoir prédictif. L’information, ou plus généralement les données, permettent de faire des prédictions et celles-ci permettent de prendre des décisions plus pertinentes. Pour s’en convaincre, voici quelques exemples.

Être informé d’un événement économique, social, politique, permet de prédire les tendances de la bourse. En vendant de l’information financière, Michael Bloomberg est devenu la onzième fortune mondiale.

Collecter les conditions de température, pression, humidité sur un vaste maillage d’un territoir permet, à l’aide d’un modèle mathématique et beaucoup de calcul, de prédire le temps à venir et donc de prendre des décisions en conséquence.

Connaître précisément la position des bus dans la ville permet de prédire s’il vaut mieux prendre le bus parce que les correspondances seront bien respectées ou, au contraire, prendre le métro, quitte à marcher davantage, mais éviter de perdre du temps en correspondances manquées.

Connaître les habitudes d’achat des clients permet de mieux cibler la publicité.

Collecter des données sur notre consommation d’électricité ou d’eau permet d’informer de manière précise le consommateur et de lui proposer des actions pour limiter un éventuel gaspillage. On reconnaît ici le compteur Linky avec sa part de lumière – que je viens d’évoquer – et sa part d’ombre qui est la collecte de données personnelles – qui sera traité au prochain article.

Être renseigné de la vitesse de déplacement des véhicules dans une ville permet de déterminer le chemin le plus rapide entre deux points en évitant les ralentissements.

À partir d’un vaste ensemble de transactions bancaires et de données complémentaires sur les clients, il est possible d’identifier des données atypiques et donc des fraudes potentielles.

Connaître les personnes croisées durant les 15 derniers jours conjugué à la connaissance des individus testés positif au Covid-19 permet de mieux évaluer le risque d’avoir été contaminé.

Les sondages d’opinion permettent d’orienter des décisions en anticipant les réactions des personnes concernées.

Le recensement d’une population peut avoir comme but une répartition plus fiable des finances publiques et de la représentation électorale, comme c’est le cas aux États-Unis. C’est aussi l’occasion de collecter des informations sur la santé, la situation économiques, le niveau d’éducation afin d’affiner des choix économiques et politiques.

On pourrait citer encore beaucoup d’exemples. Dans chaque cas cité, on voit que les données permettent de faire des prédictions et chaque prédiction fournit un avantage pouvant se monnayer.

Comment exploiter les données ?

La première exploitation est simplement la vente de ces données, soit de manière brute ou après les avoir standardisées et validées. Les applications de navigation collectent des données d’infrastructure (routes, bâtiments, etc.) auprès des administrations, ainsi que des données de circulation des utilisateurs connectés, pour pouvoir offrir un service de calcul du chemin optimal entre deux points.

Les agences de presses collectent des données d’actualités et les formatent pour les revendre. Les fournisseurs de données financières font pareil. Pour ces acteurs, les données sont leurs matières premières. La validation, la standardisation et la diffusion sont leur valeur ajoutée.

Il est également possible de produire des connaissances à partir des données, ouvrant ainsi de nouveaux modèles d’affaires. Il existe deux principales approches pour produire des connaissances : la première est la modélisation qui requiert peu ou voire pas de données, la seconde est l’inférence qui requiert essentiellement des données.

La modélisation : la connaissance est dans le modèle

La modélisation est l’essence des sciences dures comme la physique. À partir de peu d’observations sur un faible nombre de grandeurs mesurables, on a su définir des modèles mettant en relations ces grandeurs. La conception de ces modèles – souvent des systèmes d’équations – sont un pur produit de l’intelligence humaine. Cette démarche vaut pour les principales théories de la physique : la gravité de Newton, l’électromagnétisme de Maxwell, la relativité d’Einstein, la physique quantique.

Le cas de la relativité générale, publiée en 1915, est particulièrement frappant. Cette théorie a été imaginée en partant d’une expérience de pensée – donc sans aucune donnée observée. Einstein a imaginé qu’un homme en chute libre, à l’intérieur d’un ascenseur en chute libre lui aussi, vit exactement la même expérience que s’il flottait dans ce même ascenseur flottant lui aussi, mais dans l’espace loin de tout champ gravitationnel.

En faisant l’hypothèse d’équivalence de ces deux situations, Einstein en a déduit une nouvelle théorie de la gravitation, qui a ensuite permis d’expliquer l’anomalie observée dans la trajectoire de Mercure, de prévoir que la lumière est courbée par la présence d’une masse, d’affirmer que l’espace est en expansion et donc qu’il a une origine, que l’on a nommé Big Bang, de prédire l’existence des trous noirs, de permettre la création du système GPS, et finalement de prévoir l’existence des ondes gravitationnelles découvertes en 2016, plus de cent ans après la publication originale d’Einstein.

Tout ceci sans aucune donnée. Avec seulement une intuition et 10 ans de travail mathématique, l’Homme s’est enrichi d’une connaissance fondamentale. L’histoire de la physique quantique, elle aussi, est jalonnée d’exemples de ce type. Le boson de Higgs en est le dernier exemple.

Bien que ces découvertes fassent appel à des intelligences hors du commun, nécessitent des calculs très complexes, elles traitent de systèmes relativement simples en comparaison des systèmes basés sur des comportements humains : l’économie, la culture, la politique, les transports, la consommation, l’impact environnemental, la contamination virale. La modélisation, qui a si bien fonctionné dans les sciences dures, n’a jamais réussi à s’appliquer à l’Homme, ou de façon très imparfaite.

On peut prendre l’exemple de la loi de l’offre et la demande qui propose un modèle beaucoup trop simpliste pour réellement permettre de faire des prédictions utiles. La raison en est que les décisions sont prises par des acteurs humains, dont nous sommes encore très loin de savoir modéliser les comportements.

L’inférence : la connaissance est dans les données

La modélisation est donc impuissante à prédire les systèmes humains. Existe-t-il d’autres voies ? C’est là qu’interviennent les fameuses données et plus particulièrement les données personnelles. Ces données vont être à la base d’une technique appelée inférence.

Pour résumer, l’inférence est l’action de générer des assertions à partir de données observées. L’heure du lever de soleil est un exemple célèbre. Si l’on constate que le soleil se lève tous les jours avec deux minutes d’avance sur le jour précédent, on peut, par inférence, prédire l’heure du lever de soleil de demain sans trop se tromper. On constate que ça marche sans faire appel à un modèle. Alors que le physicien aurait construit un modèle à partir des données, puis utilisé ce modèle pour prédire l’heure du lever du soleil.

Plus on collecte de données historiques et plus on sera en mesure de réduire la marge d’erreur.

Autre exemple : si on constate avec régularité un ralentissement de dix minutes tous les lundi à 8 heures 30 à un certain carrefour, on pourra faire l’assertion que lundi prochain à 8 heures 30, il y aura un ralentissement de dix minutes à ce même carrefour. On comprend bien que plus on aura de données sur le trafic mais aussi sur d’autres phénomènes influents, comme par exemple la météo, ou les jours fériés, plus on sera précis dans les prédictions.

Là aussi, il n’est pas nécessaire de modéliser le comportement de tous les conducteurs passant par ce carrefour. Il suffit de puiser dans les données passées pour prévoir l’avenir. C’est précisément là, la puissance incroyable des données. L’inférence s’applique à tous les domaines, y compris les comportements humains à condition d’avoir de grand volume de données. D’où l’expression : Big Data.

Ce mécanisme suppose que la connaissance est dans les données et que leur exploitation suffit à produire des prédictions, sans utilisation d’un modèle, et par conséquent sans l’apport de l’intelligence humaine.

L’expression Intelligence Artificielle prend tout son sens. Ce nouveau paradigme a même poussé Chris Anderson (rédacteur en chef du magazine Wired et entrepreneur) à imaginer que la science devra compter sur l’inférence pour les prochaines avancées et non plus sur la modélisation. Cette position a suscité de nombreuses réactions dans le monde scientifique, pas toujours en phase avec cette vision qui exclut l’intelligence humaine.

Les connaissances issues des données ne permettent pas de déduire une généralité dépassant le cadre de la collecte des données. Contrairement aux théories issues de la modélisation qui elles permettent des prédictions très au-delà de ce qui a été observé. Les trous noirs ont été prédits par la théorie de la relativité générale alors qu’aucun n’avait été observé. C’est ce genre d’argument qui est opposé à la science par inférence de données. Mais pour ce qui est de l’analyse des systèmes humains, les données sont unanimement la clé des progrès à venir.

Des exemples concrets

Les moteurs de recherche sur Internet vous proposent des sites en sur-pondérant les réponses qui ont été choisies par d’autres internautes. Les marchands en ligne mettent en avant des articles qui correspondent à des achats d’autres consommateurs aux habitudes similaires. Les agences de publicité en ligne ciblent leurs publicités selon votre profil, et les distributeurs de séries, de film et de vidéos font de même.

Aux États-Unis, certaines polices municipales interviennent selon des prévisions de crimes basées sur des données historiques. La campagne électorale de Donald Trump a été entachée par l’affaire Cambridge Analytica qui a permis de cibler des messages politiques en fonction des comportements en ligne de certaines personnes. La fidélisation du client passe par une bonne compréhension de ses besoins, qui seront identifiés grâce à la qualité des données collectées.

Aujourd’hui déjà, l’étude de l’activité sur les réseaux sociaux permet d’observer en temps réel le développement d’une épidémie. Les services de traduction sont aussi passés à l’inférence : ils sont capables de traduire des textes uniquement sur la base d’un grand nombre d’exemples, souvent collectés auprès d’organisations internationales avec pour contrainte de traduire tous les textes dans toutes les langues de ses pays membres ; pareil pour la reconnaissance vocale. Les industriels pratiquent à présent la maintenance préventive basée sur l’inférence de données collectées.

La lutte contre le financement du crime et du terrorisme passe par la détection d’opérations bancaires atypiques. Et la liste s’allonge de jour en jour.

Dans chacun des cas cités, ce sont les données qui sont la source de connaissances. Demain, les objets connectés collecteront des quantités inimaginables de données. Les réseaux 5G seront nécessaires pour les transporter. Des centres de calcul toujours plus puissants seront déployés.

Ce mouvement ne peut pas être arrêté car il produit de la valeur à nulle autre pareille. IBM prévoit une augmentation de 28 % des recrutements dans le domaine du Big Data.

Données personnelles : le risque du refus

Il existe pourtant un frein potentiel : le consentement de la personne à partager des données personnelles. Une asymétrie risque de se former entre les pays qui exploiteront ces données sans contrainte, comme la Chine ou d’autres pays asiatiques, et ceux plus préoccupés par la protection de la sphère privée.

Le risque est important et les conséquences pourraient être fâcheuses, laissant ainsi la possibilité à des pays comme la Chine de prendre plusieurs longueurs d’avance et finir par avoir une influence majeure sur nos vies. Pour éviter ceci, il faudra trouver les moyens d’exploiter des données personnelles sans compromettre les libertés individuelles.

Mais avant cela, il faut définir en quoi la connaissance de données personnelles par un tiers peut attenter à nos libertés. Ce sera l’objet du prochain article.

Laisser un commentaire

Créer un compte Tous les commentaires (4)

29 mai 2020 at 7 h 53 min

Les données doivent avant tout être fiables concernant le problème que l’on veut traiter, à savoir le Covjd 19.
Or les tests ne le sont pas, ils peuvent simplement être utiles pour compléter un examen clinique.
Qui ne voit le danger de tests à l’aveugle qui vont révéler de nombreux faux positifs? (Le test ne détecte pas le virus)
Qui ne voit le danger que la présomption de Covid 19 remplace une certitude? (Comme cela s’est produit tout au long de l’épidémie)

0

Répondre
- 29 mai 2020 at 8 h 57 min
  
  Il est élémentaire d’associer à chaque donnée un indice de fiabilité. Où ça coince, c’est quand les utilisateurs de la donnée ne savent pas interpréter correctement les risques et la fiabilité, mais là aussi la solution est simple : qu’ils apprennent ! Et par utilisateurs, je veux dire les citoyens, pas ceux dont ces citoyens admettent sans broncher voire préfèrent qu’ils leur prémâchent les données à la mode sensationnaliste.
  
  0
  
  Répondre
29 mai 2020 at 10 h 52 min

Belle masturbation intellectuelle que cet article sur la gestion du big data. On a vu le résultat avec le Sieur Ferguson chez les British, et ses petits calculs du nombre de morts durant Covid-19. Quand quelqu’un me dit que la gestion de mes données dans le big data, serais pour mon bien , je me méfie. En général, c’est toujours à mes dépends.

0

Répondre
29 mai 2020 at 11 h 16 min

L’auteur écrit “À partir d’un vaste ensemble de transactions bancaires et de données complémentaires sur les clients, il est possible d’identifier des données atypiques et donc des fraudes potentielles.” : tiens tiens, surveillance généralisée sur base d’un risque très faible ? Ma banque a une fois bloqué une fraude sur ma carte, et une autre fois s’est enquit d’un achat tout à fait légitime… C’est à choisir…
L’auteur oppose la Chine et le reste du monde : c’est une erreur. Ya la Chine, l’Europe et les USA, 3 conceptions différentes des données personnelles.
Chine = utilisation étatique. USA = c’est un bien disposable comme un autre, à vendre et à acheter. Europe = c’est un bien personnel à protéger.
Suis curieux des articles suivants…

0

Répondre