La chaire « Data Scientist » de l’X est née !

Etudiants de Polytechnique au défilé du 14 juillet 2014 (Crédits : Vince11111, licence CC-BY 2.0), via Flickr.

Comme de nombreuses initiatives de l’École, le lancement de la chaire Data Scientist démontre une parfaite perception des priorités stratégiques utiles au pays.

Par Thierry Berthier.

Etudiants de Polytechnique au défilé du 14 juillet 2014 (Crédits : Vince11111, <a href="https://creativecommons.org/licenses/by/2.0/" target="_blank">licence CC-BY 2.0</a>), via <a href="https://www.flickr.com/photos/102670102@N04/14661199094/in/" target="_blank">Flickr</a>.
Etudiants de Polytechnique au défilé du 14 juillet 2014 (Crédits : Vince11111, licence CC-BY 2.0), via Flickr.

Le 15 octobre 2014, Geneviève Fioraso, Secrétaire d’État à l’Enseignement Supérieur et à la Recherche, parrainait la création de la chaire d’enseignement et de recherche « Data Scientist » de l’École Polytechnique, portée par la fondation de l’X et soutenue par les groupes Thales, Orange et Keyrus. Cette création pertinente s’inscrit pleinement dans le cadre du plan Big Data adopté en juillet 2014. De son côté, l’Union Européenne va investir 500 millions d’euros dans le Big Data entre 2016 et 2020. Les études récentes prévoient (de façon unanime) que le marché du Big Data connaîtra une croissance annuelle de 40%, passant de 8,9 milliards de dollars en 2014 à 24,6 milliards en 2016.

En France, le chiffre d’affaire du Big Data devrait atteindre les 9 milliards d’euros en 2020 et provoquer la création de 130 000 emplois dans le secteur. Eric Cohen, le PDG du groupe Keyrus, mécène de la chaire, spécialiste de la Data Intelligence, souligne que « Depuis trente ans, les décisions entrepreneuriales restaient de l’ordre de l’intuition. On se fondait sur des sondages dont les résultats pouvaient être incertains ou mal interprétés. Aujourd’hui, l’émergence de cette data science permet aux entreprises de prendre des décisions rationnelles fondées sur l’interprétation de données objectives et fiables ».

Les objectifs et les enjeux de la chaire Data Scientist

Dans une interview donnée à Silicon.fr, Bruno Teboul, Directeur scientifique, R&D et innovation du groupe Keyrus précise les trois objectifs de cette chaire et décrit les évolutions de la demande dans le domaine des données massives :

« Les objectifs de la chaire Data Scientist en tant que chaire d’enseignement et de recherche sont multiples et sa genèse est née du constat suivant : le Big Data nous impose de concevoir de nouvelles méthodes et technologies en matière d’exploitation de ces mégadonnées associant les mathématiques appliquées, l’algorithmique, l’informatique avancée et le management. Et ce afin d’extraire le sens et la valeur des informations pertinentes au service de la performance des acteurs économiques. Notre premier objectif est de soutenir l’École Polytechnique et le plan Big Data du gouvernement, en œuvrant à la reconstruction de la souveraineté numérique de la France qui doit faire de notre pays un leader mondial dans le domaine du traitement des mégadonnées.

Les entreprises doivent désormais faire face à ces nouveaux défis et donc recruter des profils rares et très pointus, dont l’École Polytechnique par son excellence pluridisciplinaire rend légitime et possible. Notre deuxième objectif est de former les bataillons de « Data Scientists» capables de maîtriser ces nouveaux enjeux scientifiques, techniques et économiques. C’est ainsi que nous allons créer toute une filière de formation et d’emploi, une filière d’avenir pour la France, qui permettra de faire rayonner l’enseignement supérieur français dans le monde entier. L’une des activités phares de cette chaire étant son programme de formation des élèves polytechniciens au métier de Data Scientist, complété par le lancement d’un Master 2 en Data Science. Notre troisième objectif est d’intégrer ces profils une fois diplômés au sein de nos équipes chez Keyrus, Thales et Orange en leur proposant, pour commencer, des stages au cours de leur scolarité. Enfin, notre quatrième objectif se focalise sur la recherche fondamentale en « Data Science ». Nous encouragerons et soutiendrons les recherches originales et leurs publications dans des revues scientifiques prestigieuses, tout en innovant par le déploiement de projets disruptifs en traitement des mégadonnées (algorithmique, génie logiciel).

Notre souhait est de répondre aux besoins précis du marché – pénurique – en matière de formation de Data scientists par des parcours et des programmes d’excellence dispensés par l’École Polytechnique. Depuis la nouvelle spécialisation du cycle d’ingénieur polytechnicien par la création d’un Master 1 en Data Science, en passant par l’ouverture d’un Master 2 délivré conjointement par l’X et Telecom Paristech, jusqu’aux formations doctorales. Celles-ci correspondent à un besoin chez nombre d’industriels, dont nos propres partenaires Thales et Orange. Ils accueillent déjà ce type de profils, des doctorants sous contrat alliant à la fois intelligence théorique et pratique, ouverture d’esprit et sens de l’innovation. Néanmoins, le spectre de connaissances et de compétences étant extrêmement large, pour former de véritables Data Scientists il conviendra d’envisager également des enseignements autour du marketing, du management et du consulting. Il s’agit d’acquérir les « soft skills » qui permettront aux virtuoses du traitement des données massives de présenter leurs résultats de manière intelligible et visuelle :l’art de la datavisualisation étant crucial, en tant que « last mile » de la data science. Pour ce faire, nous envisageons d’étendre à d’autres départements de l’X leurs participations pédagogiques. Nous pensons à l’économie, l’économétrie, la finance, les sciences de gestion, les sciences humaines et les « humanités numériques ».

Nous constatons une augmentation significative des projets autour de l’analyse prédictive– mais nous sommes dans la continuité de notre cœur de métier autour du décisionnel et sur des processus statistiques dit supervisés, fondés sur l’historique –, ainsi que sur l’analyse des données non-structurées (essentiellement web et réseaux sociaux) à des fins de connaissance client et de segmentation marketing plus fine et augmentée. En parallèle, nous recevons beaucoup de consultations et d’appels d’offres autour d’études de cadrage et d’opportunité Big Data ou bien sur des problématiques plus techniques liées aux architectures Big Data et notamment à la clusterisation Hadoop, en environnement Cloud.

Peu d’acteurs comprennent réellement ce quel‘exploitation des données massives en temps réelpeut leur apporter comme effet de levier et/ou comme catalyseur en matière de prise de décisions. Même les acteurs du web et du e-commerce français sont en retard sur le sujet et n’ont toujours pas saisis l’intérêt du machine learning par exemple, de l’algorithmique au service de la prédiction et de la recommandation. Nous sommes dans la deuxième étape de l’acculturation, de l’évangélisation, après la période « buzz word », il y a eu une phase courte de rejet. Désormais, nous mettons en place un grand nombre de projets via une démarche de « maïeutique » qui fait éclore « in vivo », en mode « lab » les projets Big Data portés par les métiers. Le principal frein a souvent été les désaccords, les controverses incessantes entre DSI et Direction Marketing sur les projets Big Data. Le manque d’expertise étant le critère qui désormais revient le plus souvent chez nos clients et qui constitue maintenant une énorme opportunité justifiant notre démarche de création de chaire Data Scientist. »

Big Data et cybersécurité, la force des 6V

Côté mécènes et partenaires, la chaire s’appuie sur un socle particulièrement solide. Orange, Thales et Keyrus sont des groupes qui possèdent tous un savoir-faire et une pratique très affûtée des grands volumes de données. Ces partenaires vont apporter leurs expertises complémentaires dans les interactions de recherche, de développement et de mise en production d’outils de collecte, de traitement et d’analyse des données. L’analyse prédictive qui impacte aujourd’hui de nombreux secteurs, devrait figurer en bonne place dans les priorités de formation et de recherche de la chaire.

Lorsque l’on cherche à résumer le profil des données massives, on retrouve les classiques « six V » que sont Volume, Variété, Vélocité, Visibilité, Véracité et Valeur d’une donnée. Si le volume, la variété, la vélocité et la visibilité d’une donnée sont des qualités qui se mesurent assez simplement, la véracité et la valeur restent quant à elles beaucoup moins simples à évaluer. Massive ou non, une donnée peut être l’objet de cybermanipulations ou de transformations réalisées dans un contexte de concurrence ou de duel projeté sur l’espace numérique. La création d’un corpus de données fictives destiné à corrompre ou à tromper un système de collecte et d’analyse est techniquement réalisable. La cybersécurité rencontre à ce titre le Big Data et plus particulièrement les technologies prédictives. Par définition, un système d’analyse prédictive exploite des données pour construire une prévision à partir d’un historique et de données statistiques. Compromettre ou orienter le volume des données d’appui revient à modifier les hypothèses structurant la prévision et à fausser les conclusions. En bout de chaîne, le donneur d’ordre qui souhaite appuyer sa décision sur le système prédictif est à son tour trompé. Noyé dans un océan de données collectées, le corpus des données fictives peut facilement passer inaperçu si des fonctionnalités de contrôle de véracité et d’intégrité ne viennent pas renforcer et sécuriser le système prédictif.

La chaire Data Scientist développera certainement une recherche orientée vers la sécurité des données massives. Elle pourra d’ailleurs facilement s’appuyer sur l’expertise du groupe Thales en la matière. Il faut souligner que Thales est partenaire depuis le 2 juillet 2012 de la chaire de cyberdéfense & et cybersécurité Saint-Cyr-Sogeti – Thales. Depuis deux ans, la chaire Saint-Cyr produit une recherche de qualité dans les domaines de la cybersécurité et en particulier dans celui de la mesure des cybermenaces. Plusieurs publications de la Chaire Saint-Cyr traitent de la véracité et de la valeur d’une donnée. Les résultats obtenus s’appliquent aux données massives.
Les deux chaires de recherche « Data Scientist » et «Saint-Cyr Cyberdéfense-Cybersécurité » soutenues par le groupe Thales pourraient d’ailleurs facilement mutualiser leurs efforts et coopérer sur des sujets de recherche communs…

La meilleure réponse de l’X face à ses détracteurs…

Depuis quelques temps, l’École Polytechnique fait l’objet de critiques particulièrement injustes et infondées. Ainsi, un accord scientifique signé entre Polytechnique et le Technion a été dénoncé dans une pétition relevant de l’ingérence, lancée par une association de défense des intérêts palestiniens et relayée par Médiapart.

Un rapport parlementaire est revenu sur le problème de la pantoufle alors que celui-ci a été réglé depuis plus d’un an… Une mauvaise position au classement de Shanghai a suscité des réactions et des commentaires dans la presse totalement déconnectés de la réalité.

J’attribue ces attaques récurrentes à un mouvement plus général de rejet des élites qui gangrène le débat politique français. Ce rejet impacte l’ensemble des très grandes écoles, l’ENA, HEC, SciencesPo et Polytechnique. Alors que ces écoles rassemblent les élèves les plus brillants de la nation, certains n’hésitent pas à remettre en question, par un populisme mortifère, l’excellence des formations et des élèves. Les attaques récurrentes subies par l’X vont à l’encontre du bon sens stratégique. Nous entrons de plain pied dans l’ère des mutations technologiques exponentielles et de la convergence NBIC. Le quotient intellectuel et le « neurone » constituent le carburant de l’ascension technologique. L’X est un formidable réservoir de QI qu’il convient d’orienter vers l’innovation et la création de progrès. Comme de nombreuses initiatives de l’École, le lancement de la chaire Data Scientist démontre une parfaite perception des priorités stratégiques utiles au pays.


Sur le web