30s de réflexion : #data etc

Cette constatation ne vous aura pas échappé : BigDatamachine learningdeep learning et maintenant intelligence artificielle sont omniprésents dans les discours sur l'innovation. A croire qu'une entreprise qui, à court terme, ne prévoit pas d’entraîner des algorithmes prédictifs basés sur un réseau de neurones multi-couches sur un cluster Hadoop est vouée à disparaître. J'exagère à peine.

Comme d'habitude, essayons de distinguer la tendance du bruit et faisons un peu de prospective. Je vois deux mouvements de fond : un nouveau paradigme économique, et une mutation de l'informatique d'entreprise.

Eniac, 1950 (~) - ref

Eniac, 1950 (~) - ref

Data is the new oil

Le premier mouvement de fond est l'émergence d'un nouveau paradigme économique : je vous renvoie à cet article de Clive Humby en 2006, Data is the new oil, au titre évocateur.

Les bases de données des entreprises enflent. Les causes sont connues :

  • l'avalanche de données générées par les sites webs et autres services en ligne ;
  • l'utilisation massive des outils connectés (dont les smartphones).

Une telle masse de données doit être valorisée : c'est ce que le monde économique s'est mis en tête, avec une volonté qui confine parfois à l'obstination. Au point de ne jurer que par ces data, pour tous les process internes et prises de décision. En supposant donc que toute forme d'activité peut se réduire à des suites de symboles, et qu'il est possible de les analyser simplement. Point que ma formation de scientifique me force à contester : un physicien sait qu'une donnée n'est interprétable que prise dans son contexte ou dans le cadre d'un modèle. Un nombre, en soit, ne signifie rien [42].

Des outils ont été pensés et conçus pour rendre possible cette valorisation brute - purement technique, hors-sol, hors contexte. Les GAFA en sont les figures dominantes, les exemples autoritaires.

Il ne faut cependant pas s'y méprendre, risque de se répéter : la valeur ajoutée est dans la modélisation et l'exploitation de ces données. Activité qui nécessite nombre de manipulations informatiques et opérations mathématiques. Envisager un pilotage par la donnée (data-drivencomme disent les communicants) nécessite une approche rationnelle et objective qui s'acquiert et se pratique. Différencier donnée brute et information utilisable nécessite un certain recul et, avouons-le, une démarche intellectuelle certaine.

La métaphore affirme que, tout comme le pétrole, toute donnée brute, non raffinée, hors contexte, est en soi inutilisable. Obtenir une source de données, évidemment, puis savoir l'analyser. Des initiatives se structurent, des plate-formes se créent (cf Dawex). La communication professionnelle (entreprises, investisseurs, puissance publique) se focalise cependant sur les sources de données, laissant de côté les phases de traitement et de raffinage, bien plus techniques, bien plus complexes, bien moins généralisables. Le marché est-il assez mature ?

« Data is the new oil ». Tout une activité du traitement de la donnée est à inventer, s'appuyant sur le retour en grâce des maths appliquées. Une nouvelle industrie est-elle en germe ? Je suppose qu'on peut réellement parler de révolution économique, peut-être industrielle, et de rupture systémique.

Client / serveur

Le second mouvement de fond est la mutation de l'outil informatique, sous la forme d'une disparition de l'infrastructure physique au profit d'une utilisation déportée, distante. Le Cloud [0], ou la virtualisation des infrastructures, des moyens et des services.

Mouvement de balancier, puisque l'infrastructure informatique est déjà passée par une phase centralisée, dans les années 1960-1970, celle des architectures client/serveur qui a vu l'âge d'or des mainframes IBM. Puissance de calcul et capacité de stockage étaient mutualisées et mises à disposition des utilisateurs via des terminaux légers. L'irruption des personal computer et leur mise en réseau permit de réduire les besoins en puissance de calcul centralisée (A very short history of IT, Forbes). Au prix d'une sous-utilisation généralisée des capacités de traitement, soit dit en passant.

L'infrastructure mute donc à nouveau pour revenir dans une organisation centralisée et distribuée. Formulons quelques remarques.

1. Puissance de calcul et capacité de stockage sont donc devenues des commodités. Puisque les données sont massivement capturées sur les réseaux, et principalement sur Internet, il peut être pertinent d'y déporter aussi stockage et traitement, afin de tirer parti de l'asymétrie du réseau et de la concentration des capacités technologiques.

2. L'externalisation est pertinente jusqu'à un certain point : il convient de garder une capacité de traitement en interne, ne serait-ce que pour pouvoir être spécifique. C'est une limite de l'analogie avec le pétrole : si les sources de données sont de typologie et de nature semblables, la gestion des accès est beaucoup plus fine - car stratégique. Quelle direction laisserait Google accéder à l'intégralité es données de son organisation ? Toute la problématique est de savoir où placer la limite.

3. Se pose enfin la question de l'existant, des bases de données historiques des organisations. Changer les supports de stockage et les accès implique de mettre à plat des dizaines d'années de process internes. Le risque est grand. Et en même temps, ne pas tout basculer dans les infrastructures virtualisées revient à ajouter des sources de données externes aux sources internes. Ce qui ajoute à la complexité.

Mise à distance de la technique

Un point commun à ces deux mouvements, c'est l'effacement (artificiel) de la technique et de la technologie, externalisées pour l'infrastructure, grandement sous-estimées pour la donnée. En tant que technicien, je trouve cette démarche regrettable.

L'accent est donc mis sur les usages et les fonctionnalités offerts au public, professionnel ou privé. Au risque de tomber dans la littérature la plus folle.

Thomas


[0] Pour rappel : xkcd a un avis sur la question.
[42] Douglas Adams, une de mes références, a résolu le problème à sa façon.

- Forty-two! Is that all you’ve got to show for seven and a half million years’ work?
- I checked it very thoroughly, said the computer, and that quite definitely is the answer. I think the problem, to be quite honest with you, is that you’ve never actually known what the question is.
— DeepThought (Douglas Adams)
Thomas GerbaudComment