Projections algorithmiques et illusion d'anonymat

Publié le 9 février 2015

- A +

Par Thierry Berthier

« Ils sont plus de deux mille et je ne vois qu’eux deux … » — J. Brel

Unique dans la foule par nos conversations téléphoniques…

Une étude publiée le 25 mars 2013 dans la revue Nature réalisée par une équipe de chercheurs du MIT (Massachussetts Institute of Technology) et de l’Institut Catholique de Louvain (Yves Alexandre de Montjoye, César A Hidalgo, Michel Verleysen) a confirmé un sentiment déjà partagé par de nombreux chercheurs en théorie de l’information : nous surestimons fortement notre anonymat numérique et sous-estimons notre unicité au sein d’une foule.

L’équipe du MIT a démontré qu’il suffit de quatre repères spatio-temporels de type métadonnées pour déterminer, dans 95% des cas, l’identité d’un individu utilisant un réseau de communication téléphonique. Les repères utilisés sont par exemple le lieu ou l’heure de l’appel téléphonique. L’identité de la cible est inconnue, seules ses traces de mobilité sont analysées.

Ce résultat spectaculaire prouve que le concept d’anonymat d’un individu utilisateur d’un réseau de téléphonie mobile est à la fois hautement abstrait, fragile, surestimé et que quatre traces informationnelles suffisent dans la majorité des cas à le faire voler en éclat.

L’étude a été menée à partir des données de mobilité d’un ensemble de 1,5 million d’utilisateurs d’un réseau de téléphonie mobile. La collecte des données a eu lieu entre avril 2006 et juin 2007 dans un pays occidental. Lorsque l’utilisateur interagit avec le réseau de téléphonie par le lancement ou la réception d’un appel ou d’un SMS, l’emplacement de l’antenne de connexion relais est enregistré ainsi que l’heure de l’appel. La résolution spatiale de l’ensemble de données est égale à la moitié de la distance maximale séparant les antennes. La résolution temporelle de l’ensemble est exprimée en heures. Une mesure du caractère d’unicité des traces de mobilité E (ou unicité de mobilité humaine) est construite à partir des données collectées, et s’exprime selon la formule :

E = a – (v . h)^B

h est la résolution temporelle, v la résolution spatiale liée au nombre d’antennes.
B est un exposant linéairement lié aux nombres de traces de mobilité, par exemple B = – p / 100 avec p traces utilisées (en pratique p = 4 suffit à l’identification).
La quantité « a » est une constante d’ajustement liée au système.

En moyenne, l’étude rapporte 114 interactions par utilisateur, par mois, sur un réseau de 6500 antennes référencées. Ces antennes sont distribuées sur le territoire en servant environ 2000 habitants par antenne et couvrant des zones géographiques de 0,15 km² en secteur urbain et 15 km² en zone rurale. Le nombre d’antennes est bien entendu corrélé à la densité de population. Les traces de mobilité n’ont pas toutes la même valeur informationnelle. Ainsi, une communication téléphonique passée à midi en plein centre de Paris est moins spécifique, moins parlante qu’un appel passé à quatre heures du matin depuis une clairière de la forêt de Fontainebleau. L’étude démontre que quatre traces ou points choisis au hasard sont suffisants pour caractériser de façon unique 95% des utilisateurs du réseau ; c’est-à-dire que E > 0,95.

De la même façon, deux points choisis au hasard caractérisent de façon unique plus de 50% des utilisateurs : E >0,5. Ces deux résultats prouvent que nos traces de mobilité sont globalement uniques et qu’il ne faut pas espérer passer inaperçu en tant qu’utilisateur d’un réseau de téléphonie.

Très peu d’information extérieure (de type métadonnée) est nécessaire pour identifier de façon presque certaine la trace d’un individu ciblé et l’effort de calcul que doit fournir un système de surveillance globalisé, lors d’une identification et du suivi d’une cible, s’avère extrêmement réduit (quatre traces suffisent)…

Unique sur internet par nos projections algorithmiques…

Le résultat précédent s’étend d’une certaine façon aux traces que nous produisons lors de nos interactions numériques. La notion de projection algorithmique¹², inédite dans le formalisme qui la sous-tend, permet de décrire certaines interactions du cyberespace. Sa définition la rend compatible avec une collecte et une analyse automatisées. Même anonymé, un utilisateur régulier d’un réseau social ou d’un site de vente en ligne transfère vers le système, volontairement ou non, une quantité d’informations qui, croisées entre elles à la manière des quatre traces précédentes, finissent par abolir complètement l’anonymat initial. Cette perte d’anonymat résultant du croisement de données est souvent sous-estimée par un opérateur qui ne mesure pas toujours l’importance de l’information déduite. Il est possible de définir de façon formelle l’information résultant de chaque interaction en fixant le concept de projection algorithmique d’un individu H décidant l’exécution d’un algorithme A sur un système de calcul et de stockage noté S.

Nous appelons projection algorithmique de H sur S selon A, et notons P_S(H/A) l’ensemble de mots binaires finis (des mots formés d’une suite finie de 0 et de 1) archivés sur S et résultant de l’exécution de A sur S décidée par H.

Cette projection est scindée en deux sous-ensembles disjoints. On y retrouve d’une part la projection ouverte notée PO_S(H/A) qui contient l’information archivée sur S accessible à tout utilisateur ou tout système extérieur. Elle constitue la composante ouverte et publique de la projection. On la complète par la projection fermée notée PF_S(H/A) réunissant les mots binaires archivés sur les unités de stockage de S, maintenus privés, et réservés au seul groupe supervisant le système S (ses administrateurs par exemple, dans le cas d’une supervision de nature humaine). La projection s’exprime donc comme une réunion disjointe :

P_S(H/A) = PO_S(H/A) U PF_S(H/A)

On considère ensuite la réunion des ensembles P_S(H/A) prise sur tous les algorithmes exécutables sur S.

P_S(H) = U_AP_S(H/A)

Cette projection informationnelle de l’opérateur H relativement au système S se scinde naturellement en deux sous-ensembles, l’un ouvert noté PO_S(H) et l’autre PF_S(H) fermé et accessible aux seuls administrateurs-superviseurs du système de calcul S :

P_S(H) = PO_S(H) U PF_S(H)

On notera que le superviseur de S peut lui-même être un système de calcul œuvrant dans le cadre d’un système spécifiant un système.
Enfin, la projection globale notée P(H) est obtenue en considérant la réunion sur tous les systèmes S des ensembles P_S(H) . Ainsi, P(H) = U_SP_S(H) doit être vue comme notre reflet numérique global.
La projection P_S(H) s’enrichit lors de chaque nouvelle interaction algorithmique décidée par l’opérateur humain H. L’apport peut être redondant ou complémentaire.

Globalement, l’information brute augmente au sein de cette projection et constitue une cible de choix pour tout programme de collecte d’information (data mining). Ces programmes ou agents logiciels agissent au bénéfice de bases de données (big data) à finalité de marketing, d’études de tendances, ou lors de collecte d’information ouverte. La pratique ROSO du renseignement obtenu à partir de sources ouvertes entre dans le cadre de ce formalisme. Il suffit de croiser les informations puisées dans les projections relatives à un algorithme A pour déduire, de façon automatique ou par calcul humain, un nouvel ensemble structuré et plus riche que l’ensemble des projections initiales.

L’analyste, qu’il soit de nature humaine ou de nature algorithmique, peut également provoquer l’apport de projections complémentaires et l’enrichissement de la projection globale en activant des boucles de rétroactions opérant entre l’opérateur humain ciblé et sa projection algorithmique.

On y trouve par exemple des boucles d’intérêt, des boucles narcissiques de valorisation, et des boucles addictives. Les notions d’identité numérique et de réputation numérique s’intègrent naturellement dans la définition plus large de projection algorithmique de l’opérateur H relativement au système S. L’intérêt d’un tel formalisme est de décomposer l’information selon le type d’algorithme envisagé et de créer des partitions sémantiquement exploitables par un système d’analyse automatisé. Un phénomène concret comme l’auto-radicalisation d’un individu fréquentant régulièrement un site militant extrémiste peut être décrit en associant le concept de concurrences algorithmiques à celui de projections. Dans tous les cas, une boucle de transfert d’information s’installe entre l’opérateur et le site concerné avec une « volonté algorithmique » de contrôler et de cadenasser la cible humaine. L’étude détaillée et exhaustive des boucles de rétroactions liant l’opérateur et sa projection algorithmique s’impose dès lors que l’on souhaite installer puis exploiter un système automatisé de collecte de données. La recherche de corrélations ou de similarités entre données passe par l’analyse de l’information issue des dynamiques propres à chaque boucle.

Les systèmes de surveillance automatisés et de détection de menaces, à l’image du programme européen INDECT (développé jusqu’en 2014) ou de son grand frère PRISM, exploitent actuellement les projections algorithmiques de façon très élémentaire (via des groupes de mots-clés, des relations et des similarités). L’analyse du contenu informationnel des projections et de leurs relations va s’enrichir au niveau sémantique et permettre à terme une compréhension proche de ce qu’un cerveau humain peut déduire d’un ensemble réduit de données.

En attendant cette montée en puissance, soyons tous conscients que notre anonymat ne tient qu’à quatre traces !

Berthier T., « Projections algorithmiques et cyberespace » R2IE – revue internationale d’intelligence économique, Vol 5-2, 2013, pp. 179-195. ↩
Berthier T., Sur la valeur d’une donnée, Publications Chaire de cyberdéfense Saint-Cyr-Sogeti-Thales, mai 2014. ↩

Laisser un commentaire

Créer un compte Tous les commentaires (8)

9 février 2015 at 8 h 35 min

Les preuves que l’Etat viole la Constitution sont multiples et il suffira pour se défendre de le démontrer à la face du monde.

0

Répondre
- 9 février 2015 at 23 h 07 min
  
  Les solutions d’écoute et de collecte sont disponibles gratuitement sur l’espace numérique. Ce sont les citoyens qui sous estiment le volume de leurs projections algorithmiques volontaires et systémiques et qui mettent à disposition de l’information ouverte. ce n’est pas l’Etat qui vous pousse à commenter sur Contrepoints ? vous le faites de votre plein gré.
  
  0
  
  Répondre
  - 10 février 2015 at 11 h 28 min
    
    Mais nous aussi, nous écoutons l’Etat avec toutes ses promesses non tenues, les référendum bafoués, les présomptions d’innocence bafouées, les droits de l’homme piétinés à longueur de journée. “La raison du plus fort est toujours la meilleure” C’est pourquoi quand il ne sera plus le plus fort, chaud devant
    
    0
    
    Répondre
9 février 2015 at 13 h 09 min

fascinant

0

Répondre
9 février 2015 at 19 h 32 min

Très intéressant mais si on introduit l’hypothèse du chiffrement ?

0

Répondre
- 9 février 2015 at 22 h 59 min
  
  Pour les 4 traces, on utilise les métadonnées (non chiffrées). Elles suffisent à la localisation. Pas besoin du contenu du message. Pour la projection algorithmique, le message crypté ou non rentre dans la projection, volontaire ou systémique, ouverte ou fermée. Ensuite, c’est la cryptanalyse qui entre en jeu.
  
  0
  
  Répondre
9 février 2015 at 21 h 34 min

Intéressant…
Mais cette fois c’est une grosse sous-estimation de l’anonymat qui est produite… parce que l’étude part de l’idée qu’on veut suivre monsieur X en particulier.

Le petit hic c’est que hormis si on est déjà sur le radar pour raisons multiples et variées, il y a en gros 5 milliards de monsieur (ou madame, ou mademoiselle ou “autre” -tu vois Adèle je fais des efforts) X et la vraie force de l’anonymat est là.

Après, les ceux qui sont sur le radar… ben en général ils sont un peu moins couillons que la moyenne, chiffrent, usent de passerelles, de relais… et sont donc eux aussi plus anonymes que ce qu’on peut penser.

Bref, faut avoir un peu plus peur qu’on pourrait le penser. Mais beaucoup moins qu’on voudrait qu’on le pense (hé oui, la peur de la surveillance est l’instrument numéro 1 de la soumission à Léviathan).

0

Répondre
- 9 février 2015 at 21 h 40 min
  
  “ou madame, ou mademoiselle ou autre”
  Ah non ! On a plus de droit de dire mademoiselle, c’est offensif et dégradant.
  
  0
  
  Répondre

Projections algorithmiques et illusion d’anonymat

La liberté d’expression n’est pas gratuite!

N’oubliez pas de faire un don !

Projections algorithmiques et illusion d’anonymat

Laisser un commentaire

La fiscalité, un levier de puissance

France : des comptes publics à la dérive et un gouvernement irresponsable

Une île en eaux troubles : plongée dans la crise de l’eau à La Réunion

La liberté d’expression n’est pas gratuite!

N’oubliez pas de faire un don !

La surveillance devient le prix à payer pour vivre en France

Données personnelles : comment nous avons peu à peu accepté d’en perdre le contrôle

La mort de l’internet ouvert : comment l’IA redéfinit notre monde numérique

Inscrivez-vous à la newsletter

Nos ressources proviennent uniquement des dons privés !

Qui sommes-nous ?

Auteurs

Partenaires

Archives

Contact

Créer un compte

Vous avez
déjà un compte?

Vous n'avez
pas de compte?

Connexion

Personnalisez votre Feed

La liberté d’expression n’est pas gratuite!

N’oubliez pas de faire un don !

Recevez le meilleur de l’actu libérale dans votre boite de réception

Projections algorithmiques et illusion d’anonymat

La liberté d’expression n’est pas gratuite!

N’oubliez pas de faire un don !

Laisser un commentaire

La liberté d’expression n’est pas gratuite!

N’oubliez pas de faire un don !

La surveillance devient le prix à payer pour vivre en France

Données personnelles : comment nous avons peu à peu accepté d’en perdre le contrôle

La mort de l’internet ouvert : comment l’IA redéfinit notre monde numérique

Qui sommes-nous ?

Auteurs

Partenaires

Archives

Contact

Créer un compte

Vous avezdéjà un compte?

Vous n'avezpas de compte?

Connexion

Personnalisez votre Feed

La liberté d’expression n’est pas gratuite!

N’oubliez pas de faire un don !

Recevez le meilleur de l’actu libérale dans votre boite de réception

Vous avez
déjà un compte?

Vous n'avez
pas de compte?