Big Data 5 ans après : arnaque ou réalité ?

Big data by Merrill College of Journalism(CC BY-NC 2.0)

Les opportunités d’Hadoop et du Big Data sont bel et bien réelles malgré le tapage médiatique.

Par Juvénal Chokogoué.

« Juvénal, pensez-vous qu’Hadoop sera-t-il totalement délaissé dans le futur ? », « Monsieur Chokogoué, ne pensez-vous pas que Spark remplacera Hadoop à terme ? », « Juvénal, Hadoop sera-t-il un jour dépassé ? »  Telles sont là les questions qui me sont de plus en plus posées par les professionnels, qui craignent de s’être spécialisés sur la mauvaise technologie, par les journalistes, qui craignent qu’Hadoop ne soit finalement qu’une mode et que par conséquent les projets Big Data resterons toujours à l’état de PoC ; et par les étudiants, qui se demandent si c’est vraiment intéressant de suivre un cursus académique sur le Big Data.

En réalité, ces questions cachent quelque chose de plus profond encore, celle de savoir si après plus de 5 ans, le phénomène de Big Data n’était finalement qu’une mode. Nous avons décidé de répondre à cette question une fois pour toutes dans cette article. Nous affirmons de prime abord que les opportunités du Big Data sont réelles et que Hadoop deviendra la plateforme standard de traitement de données dans le Big Data. Vous comprendrez pourquoi en lisant cet article.

Qu’est-ce que le Big Data ?

Tout d’abord, vous devez comprendre ce qu’est véritablement le Big Data. Aujourd’hui, il est perçu aux yeux de tous comme étant l’explosion de données, la taille phénoménale du volume de données produite par les activités du numérique. La définition bien connue qui lui est donnée c’est celle des 3V, Volume, Vitesse et Vélocité des données.

D’ailleurs, cette perception volumique du Big Data est tellement ancrée dans les mœurs que la commission générale de terminologie et de néologie française a décidé que l’on désignera désormais Big Data officiellement par mégadonnées et y a associé la définition suivante : « données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés ».

Malheureusement, concevoir le Big Data sous un aspect purement volumique c’est minimiser le potentiel économique de la donnée pour une entreprise et limiter sa perception vis-à-vis de la transition numérique qui est en cours.

Vous devez comprendre que le Big Data n’est pas avant tout un phénomène de volumétrie de données, c’est un phénomène social. C’est la partie visible de la transition du monde de l’ère industrielle à l’ère numérique. S’il vous plaît, relisez cette phrase : le Big Data est la partie visible de la transition de l’économie industrielle vers l’économie numérique. Selon certains historiens, cette transition a démarré en 1989 avec la chute du mur de Berlin. Elle provient principalement de la combinaison de 2 facteurs :

  • la mise à disposition d’Internet entre les mains du grand public
  • l’augmentation du nombre de personnes connectées à Internet.

En effet, la vulgarisation d’Internet a entraîné la digitalisation des activités des entreprises, celle-ci survenant au même moment que l’augmentation du nombre de personnes connectées à Internet par le biais des smartphones et autres gadgets. Aujourd’hui, les utilisateurs sont connectés à Internet par leurs smartphones mais aussi par le biais des véhicules que l’on dit connectés, de leur maison également connectée, etc. Toutes ces activités digitales génèrent des données. Combinez à ces dernières le nombre d’internautes, ou d’objets, connectés à Internet et vous vous retrouvez très vite avec un volume de données sans précédent.

La future plateforme standard

Traditionnellement, l’approche technologique de gestion des données consiste à centraliser le stockage et le traitement des données dans un serveur central de base de données placé dans une architecture client/serveur. Malheureusement, aujourd’hui, l’échelle de croissance des données du Big Data surpasse largement la capacité raisonnable des technologies traditionnelles, ou même la configuration matérielle typique supportant les accès à ces données. La nouvelle approche technologique consiste à distribuer le stockage des données et à paralléliser leur traitement sur les nœuds ou machines d’un cluster. Hadoop est aujourd’hui l’implémentation logicielle la plus mature de cette approche.

Hadoop va devenir la plateforme standard de traitement de données un peu comme Excel l’est devenu depuis les années 90 jusqu’à aujourd’hui.

Sur quoi nous basons-nous pour faire une telle affirmation ? Simple ! Dans l’économie industrielle, l’opportunité était liée à la taille du marché. La demande était relativement stable. Tout ce qu’il suffisait de faire pour identifier une opportunité était de trouver un besoin encore insatisfait et estimer si la taille du marché était suffisante pour couvrir les coûts à engager. Dans l’économie numérique, ce n’est plus nécessairement le cas.

La technologie y joue un rôle très important. Elle modifie de façon très profonde le comportement des consommateurs et redéfinit continuellement la demande. Par exemple, lorsque l’automobile a été introduite pour la première fois sur le marché, elle était considérée comme un luxe, mais avec le temps, lorsqu’Henri Ford a réussi à la produire à grande échelle grâce à des techniques de production de masse, elle est rapidement devenue un bien commode qui a profondément modifié notre perception de la mobilité ; elle est aujourd’hui perçue comme une nécessité ; comme les téléphones, aujourd’hui devenus indispensables à la vie moderne.

En introduisant sur le marché de nouveaux produits qui deviennent la base d’un nouveau style de vie, la technologie crée des besoins qui n’existaient pas auparavant, ou du moins qui n’étaient pas perçus ainsi. C’est dans la technologie que se situe l’opportunité dans l’ère numérique, plus dans la demande comme dans l’ère industrielle.

Révolutions technologiques

La technologie redéfinit continuellement ce qui constitue un besoin, principal déterminant de la demande. Ainsi, si vous voulez saisir les opportunités dans le numérique, vous devez anticiper les technologies qui sont susceptibles d’influencer le niveau de la demande. D’ailleurs, l’histoire de l’humanité n’a-t-elle pas toujours été découpée en fonction de son niveau technologique ? (Âge de bronze, de fer, agraire, industriel…).

Traditionnellement, il est admis par de prestigieux auteurs tels que Nicolas Carr que ce qui fait d’une technologie un avantage compétitif n’est pas son ubiquité, ni même son niveau de performance, mais sa rareté et le niveau de complexité associé à sa duplication. Cependant, l’évolution technologique réduit les coûts d’acquisition de la technologie (cf. loi de Gordon Moore), ce qui a pour conséquence de la banaliser ou de la « commoditiser », détruisant ainsi l’avantage concurrentiel qui pouvait y émerger. Même les technologies les plus récentes finissent par rapidement devenir accessibles.

C’est par cette force de l’évolution technologique que les véhicules, les téléphones, les photocopieurs, les ordinateurs et même les produits aéronautiques finissent par rapidement devenir des produits de nécessité et de grande consommation. Problème : avec la multiplicité des technologies développées chaque année, comment identifier LA technologie qui constitue une opportunité et qui est susceptible de bouleverser le comportement du consommateur ?

Dans l’ère numérique, une opportunité se détecte en observant le secteur de l’économie dans lequel la technologie ou les pratiques utilisées ont une efficacité inférieure aux évolutions technologiques du secteur. En d’autres termes, ce qui constitue une opportunité ce sont les avancées technologiques qui sont prêtes à devenir un standard dans la société. Relisez bien ces deux phrases et méditez un instant sur leurs implications !

Ready to be Implemented Technology

Certains économistes qualifient ce type de technologies de RIT (Ready to be Implemented Technology). Les RIT c’est le meilleur procédé qui existe dans un domaine mais qui pour une raison ou une autre n’est pas encore adopté. C’est une technologie/pratique plus efficace que la technologie/pratique en vigueur sur le marché, mais qui pour une raison ou une autre n’est pas encore adoptée. Par exemple, les voitures électriques sont meilleures au niveau de l’impact environnemental que les voitures à moteur d’injection de dérivé du pétrole, cependant elles ne sont pas adoptées à large échelle à cause de l’indisponibilité des stations d’électricité par exemple.

Dans ce cas, comment reconnaît-on qu’une technologie ou une pratique est prête à devenir un standard ? Une technologie est prête à devenir un standard si elle est transparente à l’utilisateur. En d’autres termes, une technologie devient un standard à partir du moment où elle ne demande pas plus de compétences à l’utilisateur que la technologie qu’elle va remplacer.

C’est ce principe de transparence à l’utilisateur qui explique la fameuse loi de Metcalfe selon laquelle « la valeur d’une technologie est proportionnelle au carré du nombre de personnes qui l’utilise ». C’est également ce qui justifie que le succès d’une technologie ne dépende pas des développeurs ou des utilisateurs spécialisés, mais des utilisateurs métiers. En matière de gestion de données, le SQL est aujourd’hui un langage très commode et une compétence possédée par tout analyste métier digne de ce nom.

De plus, la majorité des systèmes opérationnels des entreprises (par exemple Business Objects, Oracle, SAS, Tableau, SAP, Genesys Info Mart, etc.) tourne sur le SQL. Ainsi, une technologie de gestion de données, aussi performante soit-elle, ne deviendra jamais un standard si elle n’est pas complètement intégrée au SQL. En plus d’être mature et stable, Hadoop est l’une des rares plateformes technologiques du Big Data complètement intégrée au SQL ;  dans quelques années elle ne requerra pas plus de compétences que le SQL pour être exploitée.

C’est pour cela que nous pouvons dire avec assurance qu’Hadoop ne sera pas abandonné dans le futur, au contraire, sa standardisation ne fait que commencer. Spark a compris ce concept de transparence à l’utilisateur, mais n’est pas encore suffisamment mature pour remplacer Hadoop. Donc soyez sans crainte et ne vous laissez pas déstabiliser, les opportunités d’Hadoop et du Big Data sont bel et bien réelles malgré le tapage médiatique.

Voilà, nous espérons que ce point de réflexion vous éclaire sur le futur du Big Data et d’Hadoop. Nous avons écrit l’ouvrage Hadoop – Devenez opérationnel dans le monde du Big Data  pour vous aider à développer les compétences de base nécessaires pour réussir dans le Big Data. Si vous débutez dans ce domaine, nous vous recommandons vivement de commencer par là.

Alors selon vous, le Big Data avec Hadoop va-t-il passer le test de la durée ? À vous de me le dire.

Vous souhaitez nous signaler une erreur ? Contactez la rédaction.