Projections algorithmiques et illusion d’anonymat

Dans nos conversations téléphoniques comme sur internet, notre anonymat ne tient qu’à quatre traces !

Partager sur:
Sauvegarder cet article
Aimer cet article 0

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Projections algorithmiques et illusion d’anonymat

Publié le 9 février 2015
- A +

Par Thierry Berthier

Internet - Public Domain (pas d'attribution requise)

« Ils sont plus de deux mille et je ne vois qu’eux deux … » — J. Brel

Unique dans la foule par nos conversations téléphoniques…

Une étude publiée le 25 mars 2013 dans la revue Nature réalisée par une équipe de chercheurs du MIT (Massachussetts Institute of Technology) et de l’Institut Catholique de Louvain (Yves Alexandre de Montjoye, César A Hidalgo, Michel Verleysen) a confirmé un sentiment déjà partagé par de nombreux chercheurs en théorie de l’information : nous surestimons fortement notre anonymat numérique et sous-estimons notre unicité au sein d’une foule.

L’équipe du MIT a démontré qu’il suffit de quatre repères spatio-temporels de type métadonnées pour déterminer, dans 95% des cas, l’identité d’un individu utilisant un réseau de communication téléphonique. Les repères utilisés sont par exemple le lieu ou l’heure de l’appel téléphonique. L’identité de la cible est inconnue, seules ses traces de mobilité sont analysées.

Ce résultat spectaculaire prouve que le concept d’anonymat d’un individu utilisateur d’un réseau de téléphonie mobile est à la fois hautement abstrait, fragile, surestimé et que quatre traces informationnelles suffisent dans la majorité des cas à le faire voler en éclat.

L’étude a été menée à partir des données de mobilité d’un ensemble de 1,5 million d’utilisateurs d’un réseau de téléphonie mobile. La collecte des données a eu lieu entre avril 2006 et juin 2007 dans un pays occidental. Lorsque l’utilisateur interagit avec le réseau de téléphonie par le lancement ou la réception d’un appel ou d’un SMS, l’emplacement de l’antenne de connexion relais est enregistré ainsi que l’heure de l’appel. La résolution spatiale de l’ensemble de données est égale à la moitié de la distance maximale séparant les antennes. La résolution temporelle de l’ensemble est exprimée en heures. Une mesure du caractère d’unicité des traces de mobilité E (ou unicité de mobilité humaine) est construite à partir des données collectées, et s’exprime selon la formule :

E = a – (v . h)B

h est la résolution temporelle, v la résolution spatiale liée au nombre d’antennes.
B est un exposant linéairement lié aux nombres de traces de mobilité, par exemple B = – p / 100 avec p traces utilisées (en pratique p = 4 suffit à l’identification).
La quantité « a » est une constante d’ajustement liée au système.

En moyenne, l’étude rapporte 114 interactions par utilisateur, par mois, sur un réseau de 6500 antennes référencées. Ces antennes sont distribuées sur le territoire en servant environ 2000 habitants par antenne et couvrant des zones géographiques de 0,15 km² en secteur urbain et 15 km² en zone rurale. Le nombre d’antennes est bien entendu corrélé à la densité de population. Les traces de mobilité n’ont pas toutes la même valeur informationnelle. Ainsi, une communication téléphonique passée à midi en plein centre de Paris est moins spécifique, moins parlante qu’un appel passé à quatre heures du matin depuis une clairière de la forêt de Fontainebleau. L’étude démontre que quatre traces ou points choisis au hasard sont suffisants pour caractériser de façon unique 95% des utilisateurs du réseau ; c’est-à-dire que E > 0,95.

De la même façon, deux points choisis au hasard caractérisent de façon unique plus de 50% des utilisateurs : E >0,5. Ces deux résultats prouvent que nos traces de mobilité sont globalement uniques et qu’il ne faut pas espérer passer inaperçu en tant qu’utilisateur d’un réseau de téléphonie.

Très peu d’information extérieure (de type métadonnée) est nécessaire pour identifier de façon presque certaine la trace d’un individu ciblé et l’effort de calcul que doit fournir un système de surveillance globalisé, lors d’une identification et du suivi d’une cible, s’avère extrêmement réduit (quatre traces suffisent)…

Unique sur internet par nos projections algorithmiques…

Le résultat précédent s’étend d’une certaine façon aux traces que nous produisons lors de nos interactions numériques. La notion de projection algorithmique12, inédite dans le formalisme qui la sous-tend, permet de décrire certaines interactions du cyberespace. Sa définition la rend compatible avec une collecte et une analyse automatisées. Même anonymé, un utilisateur régulier d’un réseau social ou d’un site de vente en ligne transfère vers le système, volontairement ou non, une quantité d’informations qui, croisées entre elles à la manière des quatre traces précédentes, finissent par abolir complètement l’anonymat initial. Cette perte d’anonymat résultant du croisement de données est souvent sous-estimée par un opérateur qui ne mesure pas toujours l’importance de l’information déduite. Il est possible de définir de façon formelle l’information résultant de chaque interaction en fixant le concept de projection algorithmique d’un individu H décidant l’exécution d’un algorithme A sur un système de calcul et de stockage noté S.

Nous appelons projection algorithmique de H sur S selon A, et notons PS(H/A) l’ensemble de mots binaires finis (des mots formés d’une suite finie de 0 et de 1) archivés sur S et résultant de l’exécution de A sur S décidée par H.

Cette projection est scindée en deux sous-ensembles disjoints. On y retrouve d’une part la projection ouverte notée POS(H/A) qui contient l’information archivée sur S accessible à tout utilisateur ou tout système extérieur. Elle constitue la composante ouverte et publique de la projection. On la complète par la projection fermée notée PFS(H/A) réunissant les mots binaires archivés sur les unités de stockage de S, maintenus privés, et réservés au seul groupe supervisant le système S (ses administrateurs par exemple, dans le cas d’une supervision de nature humaine). La projection s’exprime donc comme une réunion disjointe :

PS(H/A) = POS(H/A) U PFS(H/A)

On considère ensuite la réunion des ensembles PS(H/A) prise sur tous les algorithmes exécutables sur S.

PS(H) = UA PS(H/A)

Cette projection informationnelle de l’opérateur H relativement au système S se scinde naturellement en deux sous-ensembles, l’un ouvert noté POS(H) et l’autre PFS(H) fermé et accessible aux seuls administrateurs-superviseurs du système de calcul S :

PS(H) = POS(H) U PFS(H)

On notera que le superviseur de S peut lui-même être un système de calcul œuvrant dans le cadre d’un système spécifiant un système.
Enfin, la projection globale notée P(H) est obtenue en considérant la réunion sur tous les systèmes S des ensembles PS(H) . Ainsi, P(H) = US PS(H) doit être vue comme notre reflet numérique global.
La projection PS(H) s’enrichit lors de chaque nouvelle interaction algorithmique décidée par l’opérateur humain H. L’apport peut être redondant ou complémentaire.

algorithmes rené le honzec

Globalement, l’information brute augmente au sein de cette projection et constitue une cible de choix pour tout programme de collecte d’information (data mining). Ces programmes ou agents logiciels agissent au bénéfice de bases de données (big data) à finalité de marketing, d’études de tendances, ou lors de collecte d’information ouverte. La pratique ROSO du renseignement obtenu à partir de sources ouvertes entre dans le cadre de ce formalisme. Il suffit de croiser les informations puisées dans les projections relatives à un algorithme A pour déduire, de façon automatique ou par calcul humain, un nouvel ensemble structuré et plus riche que l’ensemble des projections initiales.

L’analyste, qu’il soit de nature humaine ou de nature algorithmique, peut également provoquer l’apport de projections complémentaires et l’enrichissement de la projection globale en activant des boucles de rétroactions opérant entre l’opérateur humain ciblé et sa projection algorithmique.

On y trouve par exemple des boucles d’intérêt, des boucles narcissiques de valorisation, et des boucles addictives. Les notions d’identité numérique et de réputation numérique s’intègrent naturellement dans la définition plus large de projection algorithmique de l’opérateur H relativement au système S. L’intérêt d’un tel formalisme est de décomposer l’information selon le type d’algorithme envisagé et de créer des partitions sémantiquement exploitables par un système d’analyse automatisé. Un phénomène concret comme l’auto-radicalisation d’un individu fréquentant régulièrement un site militant extrémiste peut être décrit en associant le concept de concurrences algorithmiques à celui de projections. Dans tous les cas, une boucle de transfert d’information s’installe entre l’opérateur et le site concerné avec une « volonté algorithmique » de contrôler et de cadenasser la cible humaine. L’étude détaillée et exhaustive des boucles de rétroactions liant l’opérateur et sa projection algorithmique s’impose dès lors que l’on souhaite installer puis exploiter un système automatisé de collecte de données. La recherche de corrélations ou de similarités entre données passe par l’analyse de l’information issue des dynamiques propres à chaque boucle.

Les systèmes de surveillance automatisés et de détection de menaces, à l’image du programme européen INDECT (développé jusqu’en 2014) ou de son grand frère PRISM, exploitent actuellement les projections algorithmiques de façon très élémentaire (via des groupes de mots-clés, des relations et des similarités). L’analyse du contenu informationnel des projections et de leurs relations va s’enrichir au niveau sémantique et permettre à terme une compréhension proche de ce qu’un cerveau humain peut déduire d’un ensemble réduit de données.

En attendant cette montée en puissance, soyons tous conscients que notre anonymat ne tient qu’à quatre traces !

  1. Berthier T., « Projections algorithmiques et cyberespace » R2IE – revue internationale d’intelligence économique, Vol 5-2, 2013, pp. 179-195.
  2. Berthier T., Sur la valeur d’une donnée, Publications Chaire de cyberdéfense Saint-Cyr-Sogeti-Thales, mai 2014.
Voir les commentaires (8)

Laisser un commentaire

Créer un compte Tous les commentaires (8)
  • Les preuves que l’Etat viole la Constitution sont multiples et il suffira pour se défendre de le démontrer à la face du monde.

    • Les solutions d’écoute et de collecte sont disponibles gratuitement sur l’espace numérique. Ce sont les citoyens qui sous estiment le volume de leurs projections algorithmiques volontaires et systémiques et qui mettent à disposition de l’information ouverte. ce n’est pas l’Etat qui vous pousse à commenter sur Contrepoints ? vous le faites de votre plein gré.

      • Mais nous aussi, nous écoutons l’Etat avec toutes ses promesses non tenues, les référendum bafoués, les présomptions d’innocence bafouées, les droits de l’homme piétinés à longueur de journée. « La raison du plus fort est toujours la meilleure » C’est pourquoi quand il ne sera plus le plus fort, chaud devant

  • Très intéressant mais si on introduit l’hypothèse du chiffrement ?

    • Pour les 4 traces, on utilise les métadonnées (non chiffrées). Elles suffisent à la localisation. Pas besoin du contenu du message. Pour la projection algorithmique, le message crypté ou non rentre dans la projection, volontaire ou systémique, ouverte ou fermée. Ensuite, c’est la cryptanalyse qui entre en jeu.

  • Intéressant…
    Mais cette fois c’est une grosse sous-estimation de l’anonymat qui est produite… parce que l’étude part de l’idée qu’on veut suivre monsieur X en particulier.

    Le petit hic c’est que hormis si on est déjà sur le radar pour raisons multiples et variées, il y a en gros 5 milliards de monsieur (ou madame, ou mademoiselle ou « autre » -tu vois Adèle je fais des efforts) X et la vraie force de l’anonymat est là.

    Après, les ceux qui sont sur le radar… ben en général ils sont un peu moins couillons que la moyenne, chiffrent, usent de passerelles, de relais… et sont donc eux aussi plus anonymes que ce qu’on peut penser.

    Bref, faut avoir un peu plus peur qu’on pourrait le penser. Mais beaucoup moins qu’on voudrait qu’on le pense (hé oui, la peur de la surveillance est l’instrument numéro 1 de la soumission à Léviathan).

    • « ou madame, ou mademoiselle ou autre »
      Ah non ! On a plus de droit de dire mademoiselle, c’est offensif et dégradant.

  • Les commentaires sont fermés.

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Article disponible en podcast ici.

Jadis, seuls les criminels se retrouvaient sur écoute. La traque du citoyen par les bureaucrates était une exception. Les surveillances de masse étaient réservées aux régimes totalitaires, impensables dans nos démocraties.

Or depuis le 11 septembre, nos gouvernements nous considèrent tous comme des potentiels criminels qu’il faut espionner constamment. Et toute comparaison aux régimes totalitaires fera glousser nos fonctionnaires devant une telle allusion.

J’ai déjà longuement commenté... Poursuivre la lecture

L'auteur : Yoann Nabat est enseignant-chercheur en droit privé et sciences criminelles à l'Université de Bordeaux

Dans quelle mesure les différentes générations sont-elles plus ou moins sensibles à la notion de surveillance ? Un regard sur les personnes nées au tournant des années 1980 et 1990 montre que ces dernières abandonnent probablement plus facilement une part de contrôle sur les données personnelles, et n’ont sans doute pas eu totalement conscience de leur grande valeur.

Peut-être qu’à l’approche des Jeux olympiques de ... Poursuivre la lecture

L’Internet est mort, tout du moins est-il en voie de disparition, pour le meilleur et pour le pire.

Il est établi que des États ont opté pour le Splinternet. Ils ont en effet décidé de formater des intranets nationaux qui « n’altèrent » pas la saine pensée de leurs compatriotes, à l’instar de l’Iran, de la Russie, de la Chine… Si vous ne concevez pas la chose, imaginez dès lors - pour les utilisateurs de ces pays - un Internet partitionné comme le serait un disque dur ; un « Internet » entre les mains de dirigeants qui donnent accès au... Poursuivre la lecture

Voir plus d'articles