Big Data 5 ans après : arnaque ou réalité ?

Les opportunités d’Hadoop et du Big Data sont bel et bien réelles malgré le tapage médiatique.

Partager sur:
Sauvegarder cet article
Aimer cet article 0
Big data by Merrill College of Journalism(CC BY-NC 2.0)

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Big Data 5 ans après : arnaque ou réalité ?

Publié le 2 avril 2019
- A +

Par Juvénal Chokogoué.

« Juvénal, pensez-vous qu’Hadoop sera-t-il totalement délaissé dans le futur ? », « Monsieur Chokogoué, ne pensez-vous pas que Spark remplacera Hadoop à terme ? », « Juvénal, Hadoop sera-t-il un jour dépassé ? »  Telles sont là les questions qui me sont de plus en plus posées par les professionnels, qui craignent de s’être spécialisés sur la mauvaise technologie, par les journalistes, qui craignent qu’Hadoop ne soit finalement qu’une mode et que par conséquent les projets Big Data resterons toujours à l’état de PoC ; et par les étudiants, qui se demandent si c’est vraiment intéressant de suivre un cursus académique sur le Big Data.

En réalité, ces questions cachent quelque chose de plus profond encore, celle de savoir si après plus de 5 ans, le phénomène de Big Data n’était finalement qu’une mode. Nous avons décidé de répondre à cette question une fois pour toutes dans cette article. Nous affirmons de prime abord que les opportunités du Big Data sont réelles et que Hadoop deviendra la plateforme standard de traitement de données dans le Big Data. Vous comprendrez pourquoi en lisant cet article.

Qu’est-ce que le Big Data ?

Tout d’abord, vous devez comprendre ce qu’est véritablement le Big Data. Aujourd’hui, il est perçu aux yeux de tous comme étant l’explosion de données, la taille phénoménale du volume de données produite par les activités du numérique. La définition bien connue qui lui est donnée c’est celle des 3V, Volume, Vitesse et Vélocité des données.

D’ailleurs, cette perception volumique du Big Data est tellement ancrée dans les mœurs que la commission générale de terminologie et de néologie française a décidé que l’on désignera désormais Big Data officiellement par mégadonnées et y a associé la définition suivante : « données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés ».

Malheureusement, concevoir le Big Data sous un aspect purement volumique c’est minimiser le potentiel économique de la donnée pour une entreprise et limiter sa perception vis-à-vis de la transition numérique qui est en cours.

Vous devez comprendre que le Big Data n’est pas avant tout un phénomène de volumétrie de données, c’est un phénomène social. C’est la partie visible de la transition du monde de l’ère industrielle à l’ère numérique. S’il vous plaît, relisez cette phrase : le Big Data est la partie visible de la transition de l’économie industrielle vers l’économie numérique. Selon certains historiens, cette transition a démarré en 1989 avec la chute du mur de Berlin. Elle provient principalement de la combinaison de 2 facteurs :

  • la mise à disposition d’Internet entre les mains du grand public
  • l’augmentation du nombre de personnes connectées à Internet.

En effet, la vulgarisation d’Internet a entraîné la digitalisation des activités des entreprises, celle-ci survenant au même moment que l’augmentation du nombre de personnes connectées à Internet par le biais des smartphones et autres gadgets. Aujourd’hui, les utilisateurs sont connectés à Internet par leurs smartphones mais aussi par le biais des véhicules que l’on dit connectés, de leur maison également connectée, etc. Toutes ces activités digitales génèrent des données. Combinez à ces dernières le nombre d’internautes, ou d’objets, connectés à Internet et vous vous retrouvez très vite avec un volume de données sans précédent.

La future plateforme standard

Traditionnellement, l’approche technologique de gestion des données consiste à centraliser le stockage et le traitement des données dans un serveur central de base de données placé dans une architecture client/serveur. Malheureusement, aujourd’hui, l’échelle de croissance des données du Big Data surpasse largement la capacité raisonnable des technologies traditionnelles, ou même la configuration matérielle typique supportant les accès à ces données. La nouvelle approche technologique consiste à distribuer le stockage des données et à paralléliser leur traitement sur les nœuds ou machines d’un cluster. Hadoop est aujourd’hui l’implémentation logicielle la plus mature de cette approche.

Hadoop va devenir la plateforme standard de traitement de données un peu comme Excel l’est devenu depuis les années 90 jusqu’à aujourd’hui.

Sur quoi nous basons-nous pour faire une telle affirmation ? Simple ! Dans l’économie industrielle, l’opportunité était liée à la taille du marché. La demande était relativement stable. Tout ce qu’il suffisait de faire pour identifier une opportunité était de trouver un besoin encore insatisfait et estimer si la taille du marché était suffisante pour couvrir les coûts à engager. Dans l’économie numérique, ce n’est plus nécessairement le cas.

La technologie y joue un rôle très important. Elle modifie de façon très profonde le comportement des consommateurs et redéfinit continuellement la demande. Par exemple, lorsque l’automobile a été introduite pour la première fois sur le marché, elle était considérée comme un luxe, mais avec le temps, lorsqu’Henri Ford a réussi à la produire à grande échelle grâce à des techniques de production de masse, elle est rapidement devenue un bien commode qui a profondément modifié notre perception de la mobilité ; elle est aujourd’hui perçue comme une nécessité ; comme les téléphones, aujourd’hui devenus indispensables à la vie moderne.

En introduisant sur le marché de nouveaux produits qui deviennent la base d’un nouveau style de vie, la technologie crée des besoins qui n’existaient pas auparavant, ou du moins qui n’étaient pas perçus ainsi. C’est dans la technologie que se situe l’opportunité dans l’ère numérique, plus dans la demande comme dans l’ère industrielle.

Révolutions technologiques

La technologie redéfinit continuellement ce qui constitue un besoin, principal déterminant de la demande. Ainsi, si vous voulez saisir les opportunités dans le numérique, vous devez anticiper les technologies qui sont susceptibles d’influencer le niveau de la demande. D’ailleurs, l’histoire de l’humanité n’a-t-elle pas toujours été découpée en fonction de son niveau technologique ? (Âge de bronze, de fer, agraire, industriel…).

Traditionnellement, il est admis par de prestigieux auteurs tels que Nicolas Carr que ce qui fait d’une technologie un avantage compétitif n’est pas son ubiquité, ni même son niveau de performance, mais sa rareté et le niveau de complexité associé à sa duplication. Cependant, l’évolution technologique réduit les coûts d’acquisition de la technologie (cf. loi de Gordon Moore), ce qui a pour conséquence de la banaliser ou de la « commoditiser », détruisant ainsi l’avantage concurrentiel qui pouvait y émerger. Même les technologies les plus récentes finissent par rapidement devenir accessibles.

C’est par cette force de l’évolution technologique que les véhicules, les téléphones, les photocopieurs, les ordinateurs et même les produits aéronautiques finissent par rapidement devenir des produits de nécessité et de grande consommation. Problème : avec la multiplicité des technologies développées chaque année, comment identifier LA technologie qui constitue une opportunité et qui est susceptible de bouleverser le comportement du consommateur ?

Dans l’ère numérique, une opportunité se détecte en observant le secteur de l’économie dans lequel la technologie ou les pratiques utilisées ont une efficacité inférieure aux évolutions technologiques du secteur. En d’autres termes, ce qui constitue une opportunité ce sont les avancées technologiques qui sont prêtes à devenir un standard dans la société. Relisez bien ces deux phrases et méditez un instant sur leurs implications !

Ready to be Implemented Technology

Certains économistes qualifient ce type de technologies de RIT (Ready to be Implemented Technology). Les RIT c’est le meilleur procédé qui existe dans un domaine mais qui pour une raison ou une autre n’est pas encore adopté. C’est une technologie/pratique plus efficace que la technologie/pratique en vigueur sur le marché, mais qui pour une raison ou une autre n’est pas encore adoptée. Par exemple, les voitures électriques sont meilleures au niveau de l’impact environnemental que les voitures à moteur d’injection de dérivé du pétrole, cependant elles ne sont pas adoptées à large échelle à cause de l’indisponibilité des stations d’électricité par exemple.

Dans ce cas, comment reconnaît-on qu’une technologie ou une pratique est prête à devenir un standard ? Une technologie est prête à devenir un standard si elle est transparente à l’utilisateur. En d’autres termes, une technologie devient un standard à partir du moment où elle ne demande pas plus de compétences à l’utilisateur que la technologie qu’elle va remplacer.

C’est ce principe de transparence à l’utilisateur qui explique la fameuse loi de Metcalfe selon laquelle « la valeur d’une technologie est proportionnelle au carré du nombre de personnes qui l’utilise ». C’est également ce qui justifie que le succès d’une technologie ne dépende pas des développeurs ou des utilisateurs spécialisés, mais des utilisateurs métiers. En matière de gestion de données, le SQL est aujourd’hui un langage très commode et une compétence possédée par tout analyste métier digne de ce nom.

De plus, la majorité des systèmes opérationnels des entreprises (par exemple Business Objects, Oracle, SAS, Tableau, SAP, Genesys Info Mart, etc.) tourne sur le SQL. Ainsi, une technologie de gestion de données, aussi performante soit-elle, ne deviendra jamais un standard si elle n’est pas complètement intégrée au SQL. En plus d’être mature et stable, Hadoop est l’une des rares plateformes technologiques du Big Data complètement intégrée au SQL ;  dans quelques années elle ne requerra pas plus de compétences que le SQL pour être exploitée.

C’est pour cela que nous pouvons dire avec assurance qu’Hadoop ne sera pas abandonné dans le futur, au contraire, sa standardisation ne fait que commencer. Spark a compris ce concept de transparence à l’utilisateur, mais n’est pas encore suffisamment mature pour remplacer Hadoop. Donc soyez sans crainte et ne vous laissez pas déstabiliser, les opportunités d’Hadoop et du Big Data sont bel et bien réelles malgré le tapage médiatique.

Voilà, nous espérons que ce point de réflexion vous éclaire sur le futur du Big Data et d’Hadoop. Nous avons écrit l’ouvrage Hadoop – Devenez opérationnel dans le monde du Big Data  pour vous aider à développer les compétences de base nécessaires pour réussir dans le Big Data. Si vous débutez dans ce domaine, nous vous recommandons vivement de commencer par là.

Alors selon vous, le Big Data avec Hadoop va-t-il passer le test de la durée ? À vous de me le dire.

Voir les commentaires (4)

Laisser un commentaire

Créer un compte Tous les commentaires (4)
  • « Aujourd’hui, les utilisateurs sont connectés à Internet par leurs smartphones mais aussi par le biais des véhicules que l’on dit connectés, de leur maison également connectée, etc. »

    Cette affirmation – reprise un peu partout – sous-entend que les données des utilisateurs doivent être partagées (lisez qu’elles ne sont plus votre propriété, sans qu’on sache à qui elles appartiennent). Pourtant on peut concevoir Internet (du moins en partie) comme un service et non comme une « nounou ». Ma voiture, mon mobile, ma maison peuvent bénéficier de services sans nécessiter que leurs paramètres, leurs programmes et leurs données soient hébergées ailleurs et encore moins exploitées ailleurs.

    Il est bien sur tentant pour les sociétés ou pour Big Brother de convaincre les utilisateurs que le fait que ma machine à laver est en marche doit absolument être enregistré dans le « cloud » (pour m’offrir une meilleure expérience utilisateur bien sur …) Comme on le voit dans cet article, le fait que mes données ne m’appartienne plus est dorénavant acté – ou du moins c’est ce que prétendent les acteurs du numérique.

    Pourtant techniquement, rien n’oblige à localiser des données, cela n’apporte pas grand chose et si elles sont cryptées (à la source et de façon transparente), elles ne font plus partie du big data. Il faudrait donc dans un soucis démocratique clairement expliquer aux utilisateurs que le Big Data est avant tout une lutte de pouvoir hors de tout contrôle.

  • Je lisais dans Science & Vie, que à l’horizon 2025, le big data, le streaming, internet, les objets connectés, etc engloutiraient 20% de la production énergétique mondiale.
    Ils disaient aussi que consommer 10 minutes de streaming équivaut à la consommation énergétique (dans les serveurs et tout) d’un four de cuisine à pleine puissance pendant 5 minutes.
    Le minage du bitcoin est une catastrophe à ce point de vue là. Sa consommation est telle qu’un dollar de bitcoin miné consomme plus d’énergie qu’un dollar d’or physique.

    • S&V n’en est pas à une connerie près …

      Les datacenter sont des gouffres, mais faire des projections débiles est une spécialité des écolos. Comme commentait hier h16, ils s’équipent par exemple de plus en plus en SSD malgré les coûts. Je suis prêt à parier qu’il feront tout pour monter en puissance en gardant la même consommation, les mêmes clims, les mêmes batiments …

      Je ne vois pas comment le streaming consommerait la puissance d’un four : un serveur de 100W doit pouvoir délivrer des centaines de flux simultanés et les routeurs commutent des milliers de flux simultanément.

      En revanche, j’en ai marre d’avoir besoin de processeurs surpuissants (et gourmands en énergie) pour faire tourner des mega-scripts js mal foutus qui analysent et retournent la couleur de mon slip 10000 fois par jour à google.

    • 20% de l’energie mondiale ?
      Et alors !
      combien d’energie cela fait il economiser dans les transports par exemple ?
      Combien d’energie necessaire pour deplacer 500 kg de dollars papier y compris le service de securite ?

  • Les commentaires sont fermés.

La liberté d’expression n’est pas gratuite!

Mais déductible à 66% des impôts

N’oubliez pas de faire un don !

Faire un don

Il y a 120 ans, par une froide matinée d’hiver, les frères Wright font décoller l’avion sur lequel ils travaillent depuis des mois. C’est une machine très complexe à piloter. Ce jour-là, ils réussissent à effectuer quatre vols de seulement 30 à 260 mètres qui se terminent chaque fois assez brutalement. Mais la boîte de Pandore est ouverte.

On peut tirer au moins cinq leçons de cet épisode.

 

Il est difficile d’estimer la portée d’une invention sur le long terme

Le 17 décembre 1903, personne n’imagine ce que d... Poursuivre la lecture

Une théorie récente de la conscience présente celle-ci comme le résultat d’une coexistence, dans l’esprit humain, de signaux venus de l’intérieur et de l’extérieur du corps, que le cerveau apprend à reconnaître et décoder, pour reconnaître dans ce flux l’existence d’un moi, ensemble des images mentales issues des signaux intérieurs.

Cette théorie suggère deux hypothèses vraisemblables : la conscience s’apprend chez les humains, et pourra s’apprendre chez les machines ou intelligence artificielle en leur apportant des signaux intérieurs... Poursuivre la lecture

L’idée que les règles vont tout résoudre est très profondément ancrée dans la culture européenne, la pensée des citoyens et l’esprit des hommes politiques. Nouvelle illustration avec le Digital Markets Act.

Allons-nous pour autant créer des champions européens et contrôler notre avenir numérique ?

C’est la fiesta à la Commission européenne !

Un accord de principe a été donné par les États membres, le Parlement et la Commission concernant le fameux Digital Markets Act (DMA pour les initiés), en discussion depuis un peu plus d'un... Poursuivre la lecture

Voir plus d'articles