Par Farid Gueham.
Un article de Trop Libre
Dans son article pour le magazine américain Wired « Algorithms can be a tool for justice – if used the right way », Noham Cohen s’intéresse à un événement — ou plutôt une anecdote —, relayée par la bloggeuse afro-américaine Stacia L. Brown. Un samedi soir, elle parcourait ses recommandations de Netflix, avant de s’arrêter sur l’affiche du film Like Father, avec les acteurs Kelsey Grammer et Kristen Bell, sauf que l’affiche disponible sur l’écran de Stacia L. Brown mettait à l’honneur deux autres acteurs moins connus, Blaire Brooks et Leonard Ouzts. Stacia L. Brown décide d’interpeller les autres utilisateurs de Netflix via twitter : « Utilisateurs blacks de @netflix: votre menu fait-il cela ? Générer des affiches avec les acteurs afro-américains au casting, afin de vous inciter à regarder ? ».
Face à la controverse, Netflix s’empresse de répondre, les déclarations de S. Brown ne seraient pas fondées : la société ne pourrait pas réaliser un tel ciblage, pour la bonne et simple raison que « Netflix ne demande pas à ses membres leur race, leur sexe ou leur appartenance ethnique ».
Mais cela est-il bien nécessaire dans la mesure où Netflix peut cibler, à l’aide de son algorithme, les préférences de ses abonnés grâce à l’historique de lecture et de recherche ?
Cet exemple, a priori anecdotique, illustre bien la façon dont des algorithmes dits « intelligents » appliqués au Big Data, le plus souvent regroupés sous la bannière « intelligence artificielle », portent sur nous des jugements inductifs voire intrusifs, au nom d’une efficacité implacable. Des études récentes se sont intéressées aux conséquences de l’application de l’intelligence artificielle dans des domaines un peu plus sérieux que notre programme télé du samedi soir, du recrutement, à la surveillance d’opposants politiques.
L’intelligence artificielle offre des solutions innovantes, mais pas toujours neutres
Aux États-Unis, l’algorithme de recrutement d’Amazon classe les candidats, mais les logiciels de reconnaissance faciale du GAFAM ne sont pas encore tout à fait au point et confondent souvent des photos d’hommes noirs avec celles de criminels recherchés, une erreur plus fréquente que lorsqu’il s’agit de profils caucasiens. Les algorithmes ne seraient en fait que le prolongement de ceux qui les ont élaborés, et dans certains cas, ils peuvent être de véritables outils d’oppression, une arme de destruction mathématique, outils d’un système qui répercutent et amplifient les inégalités sociales.
Comment dès lors concilier algorithmes et respect de la vie privée ?
L’inquiétude ne porte pas tant sur l’outil que sur l’usage qui en est fait et la façon dont les résultats traités par l’algorithme sont exploités – dans une mise en contexte pertinente, soumis aux bonnes questions, les algorithmes sont des outils précieux, pouvant même stimuler le progrès social. Nos usages actuels des algorithmes visent pour l’essentiel l’optimisation et l’efficacité. Netflix veut des téléspectateurs satisfaits, Uber, des courses rapides à un prix compétitif, Facebook des articles et des posts que nous allons partager et qui vont générer du trafic, du visionnage de publicité et de liens sponsorisés etc.
Toujours aux États-Unis, dans le secteur public, les algorithmes permettent à la police de Los Angeles, qui tient un registre de « délinquants potentiels », de mobiliser ses agents dans le cadre d’enquêtes ciblées. Plus loin dans le circuit légal, des juges évaluent sur la base de statistiques, la pertinence des remises en liberté conditionnelle. Mais ici encore, les algorithmes ne sont ni infaillibles, ni exempts de biais politiques à l’encontre de certains groupes sociaux ou ethniques. Mais voilà , pour les gourous de la Silicon Valley, ce qui ne peut pas se mesurer ne peut être amélioré.
Les algorithmes sont-ils racistes ?
Le New York Times a analysé des milliers d’arrestations pour possession de marijuana, dévoilant l’envers des méthodes de contrôle dites « efficaces ».
Les Afro-américains à New York sont en moyenne arrêtés huit fois plus que les blancs non-hispaniques, sur une période de trois ans. La police de New York se défend, en expliquant que cette moyenne supérieure reflète uniquement les foyers démographiques des quartiers de la ville d’où émanent le plus de plaintes. Dans les semaines qui ont suivi l’article du New York Times, les procureurs de Brooklyn et de Manhattan annonçaient que les arrestations pour possession de marijuana ne donneraient plus systématiquement lieu a des poursuites, invoquant de trop importantes disparités raciales dans les arrestations.
L’utilisation de ces données a ainsi fait l’unanimité contre elle. La très conservatrice Heritage Foundation publiait un article dans lequel elle témoignait son soutien au « Census Bureau »,  le bureau du recensement aux États-Unis, auquel une décision de justice imposait de mettre fin à la collecte de données raciales, une décision rendue par du juge John Roberts qui affirmait que « la prise en compte des données raciales créait des inégalités et qu’il était temps de cesser de discriminer sur la base de la race ».
Dans les années 1990, le Congrès a adopté l’amendement Dickey, un texte soutenu par la « NRA », paralysant l’action du « Centers for Disease Control and Prevention ». L’amendement ciblait les fonds dédiés à la recherche consacrée aux blessures par armes à feu. En 2012, les dépenses dédiées à ces recherches chutaient de 96 %. Autre exemple du procès d’intention par analyse algorithmique : la décision de la Cour suprême, dans l’affaire McCleskey v. Kemp de 1987 : les avocats de Warren McCleskey, condamné à mort pour le meurtre d’un officier de police, lors d’un vol à main armée, appuyaient leur plaidoirie sur une étude statistique détaillée, argumentant que le système de la peine de mort américain était clairement affecté par un biais raciste. Cette étude était dirigée par le scientifique David Baldus, pionnier de l’analyse des données. Contrairement aux chercheurs contemporains qui bénéficient des ressources quasi-infinies du Big Data, David Baldus a dû minutieusement collecter ses informations, analysant plus de 2 000 affaires de peine de mort, croisées et traitées de plus 400 façons différentes, par des étudiants en droit. Parmi tous les cas envisagés, la principale variable dans le jugement était la race du criminel, ou de la victime. À l’issue d’une analyse statistique détaillée, le scientifique a détecté un parti pris à l’encontre des accusés noirs, mais il découvrait que l’écart de peine le plus important concernait la victime de race noire.
« Black lives didn’t matter »
La condamnation d’un homme noir pour le meurtre d’une personne de race blanche était quatre fois plus susceptible d’entraîner la peine de mort qu’une condamnation similaire impliquant une victime noire. Si un croisement était opéré, en intervertissant la race de victimes noire et blanche, comme ce fut le cas lors de l’affaire McCleskey, plus de la moitié des condamnations à mort n’auraient jamais été prononcées, toujours selon ces données. Et ce biais raciste n’était pourtant pas le point de départ ni la finalité de la démonstration scientifique de David Baldus. Les données ont révélé ce que personne n’osait affirmer ou prouver. À cinq voix contre quatre, la Cour suprême a rejeté la demande de McCleskey, même si elle était validée par les résultats de la recherche. David Baldus avait mis en lumière un préjugé racial systémique, mais ne pouvait pas prouver qu’il s’appliquait au cas précis de McCleskey, comme l’expliquait le juge Lewis Powell : « ces statistiques ne prouvent au mieux que la probabilité qu’un facteur particulier puisse affecter plusieurs décisions, mais que chacun doit avoir le droit à une « justice personnalisée », sur la base d’une enquête individualisée ». En 1991, McCleskey sera exécuté.
De nombreux juristes considèrent aujourd’hui que l’affaire McCleskey est l’une des affaires les plus mal jugées de l’histoire de la Cour suprême, la mettant en parallèle avec la tristement célèbre décision« Dred Scott », entérinant l’esclavage, ou « Korematsu », qui autorisait des camps d’internement pour des Américains d’origine japonaise pendant la Seconde Guerre mondiale. Le juge Powell a déclaré plus tard que McCleskey était « la décision qu’il regrettait le plus depuis ses 16 ans d’expérience à la Cour suprême ».
Pour Paul Butler, professeur à la faculté de droit de Georgetown, le traitement de l’affaire McCleskey était particulièrement pernicieux, dans la volonté de reconnaître, sans toutefois les prendre en compte, les apports statistiques, « il a été explicitement déclaré que nous ne tolérerions pas une justice égale », affirme-t-il, alors même que les outils développés par David Baldus sont maintenant accessibles et largement diffusés, auprès des professionnels du journalisme, d’associations de défense des droits de l’homme, ou d’opposants à un gouvernement, mais aussi par  les entreprises privées – « un jour viendra ou la justice ne pourra plus détourner le regard » ajoute Paul Butler. Les algorithmes de justice permettront sans doute un jour de rendre les institutions non seulement plus efficaces, mais aussi plus équitables.
–       « Les algorithmes : juges de demain », lesechos.fr
–       « Mettre de l’éthique dans l’algorithme », blog.lemonde.fr
–       « Quand le logiciel de recrutement d’Amazon discrimine les femmes », lesechos.fr
–       « À Los Angeles : quand la police va utiliser un algorithme pour prédire les violences », liberation.fr
–       « Aux États-Unis, l’échec des algorithmes qui cherchent à prédire le risque de récidive », lemonde.fr
–       « Using Data to make sens of a racial disparity in NYC Marijuana arrests», nytimes.com
—
Entièrement d’accord avec l’affirmation de l’article : « L’intelligence artificielle offre des solutions innovantes, mais pas toujours neutres », et j’affirmerai même « jamais neutres en-dehors des sciences dures et des observations empiriques ».
Les algorithmes sont, à la base, des formules mathématiques. Ces formules sont utilisées, en parallèle de jeux de données, pour résoudre de nombreux problèmes, et notamment des problèmes classificatoires (Ma tumeur est-elle ou non cancéreuse? Quel est ce code postal griffonné sur l’enveloppe? Le véhicule sur cette photo est-il une voiture, une moto ou un camion?)
Par sa nature même, la machine ne peut obtenir 100% de précision, que ce soit en terme de faux-positifs ou en terme de faux-négatifs. Les problèmes éthiques que ce constat entraîne sont explicites. Où se situe la charge de la preuve et le doute raisonnable dans cette situation? Je trouve également qu’il y a une sorte d’erreur du parieur se rajoutant par-dessus : chaque cas est alors considéré comme faisant partie d’un tout probabiliste, plutôt que comme une série de situations au contexte isolé.
Par ailleurs, pour reprendre mes exemples, s’il est facile de s’apercevoir qu’une tumeur considérée comme bénigne est en réalité cancéreuse, ou qu’un 7 est en fait un 2 mal écrit, il est beaucoup moins facile de réviser un jugement.
Trop-Libre / Fondapol : 74% de subventions publiques …