[glossaire] #data

Glossaire - data


 

Ami n°1. « Tu vois, Thomas, ce que tu racontes à l’air super intéressant, et le sujet me branche bien. Mais quand tu racontes, je comprends 2-3 paragraphes, puis tu mets des références compliquées, puis tu sors des inside jokes ou des gros sous-entendus techniques que je ne comprends pas. Donc quand je te lis, je me sens un peu con, et j’ai l’impression d’effleurer un domaine super intéressant, mais je reste sur ma faim. Donc ça m’énerve ».

Ami n°2. « Je comprends les mots, mais je comprends pas les phrases ».

Dont acte. Maintenant, on arrête de faire les malins, et on explique. Premier article du glossaire, qui va essayer de couvrir des points techniques (ou pseudo) sans jargon ni étalage aléatoire de technique.

 
 

Qu'est-ce ?

Data = donnée(s).

Mot d'origine anglaise, pluriel de datum, employé plutôt au pluriel. On peut parler de a piece of data. Le fait est que data est aujourd'hui principalement vu comme un amoncellement de données. Ces données peuvent être des chiffres, des mots, des caractères, des sons, des images, ou des objets plus étranges. Isolée, une donnée peut être regardée comme signifiante (ex : il fait 23° à Aix) ou insignifiante (ex : une voiture est passée devant ce radar à 13h27:87.122319645), auquel cas on se référera volontiers aux autres données qui l'accompagnent qui, ensemble, forme le contexte et permettent de reconstruire une réalité (ex : l'ensemble des voitures qui passent devant le radar sur un mois).

Une donnée est donc un élément brut, sans contexte ni interprétation. Ainsi, une donnée en soi n’a aucun sens. Lorsqu’elle est interprétée dans un contexte, c’est-à-dire décodée, une donnée devient une information. Une information est la lecture humaine d’une donnée. La façon dont l’information est codée en donnée est son format. Par exemple, 1110000 peut représenter le prix d’une villa en euros, le nombre de globules rouges par mm cube d’un patient ou la lettre « p » dans le code ASCII.

 
17ba7efa3199c45429a79d8be7bab64b-hd2.jpg
 

D'où vient cette chose ?

Historiquement, la science déductive est basée entièrement sur l'accumulation d'informations et leur interprétation dans le cadre d'un modèle, permettant de résumer efficacement et intelligemment cet ensemble d'informations. L’homme a toujours eu tendance à recueillir des informations ; puis à les accumuler et construire des choses avec. Ce qui nous fait clairement un autre point commun avec les castors.

Ex: trouver la loi de la gravité en mesurant les temps de chute des pommes - ou des feuilles, mais c'est plus dur car il faut prendre en compte la forme de la feuille et la résistance de l’air .

Une donnée est issue d'un capteur, appartenant au monde physique ou informatique ; son stockage ainsi que son traitement se sont banalisés. J'ai souvenir d'un temps où les données étaient beaucoup moins sexy, mettons jusqu'en 2005 dans mon histoire personnelle [*], et probablement après les années 2010 pour le grand public. Les données sont quelque chose que l'on cache habituellement, dans des bases de données, massives ou non, stockées dans des disques durs hébergés localement ou dont la gestion est confiée à des exploitants (IaaS : cf OVH, Cloudwatt, Gandi etc).

Qu'en faire ?

Telles quelles, des données ne servent à rien, sinon à encombrer nos disques ou gonfler notre facture d'électricité. Elles ne sont utiles que si on les travaille, si on les fait parler, si on les valorise. Ex : les mots seuls n'ont pas vraiment d'intérêt, ce qui importe c'est l'assemblage qu'on peut en faire. Pour les données, c'est exactement la même chose, il faut fournir un effort pour en tirer quelque chose.

Tout d'abord y accéder :

  • physiquement, i.e. avoir réglé les problèmes de confidentialité et de sécurité ;
    ex : signer des papiers, se connecter sur les serveurs à distance ou localement, accéder aux disques durs

  • informatiquement, i.e. comprendre le format de stockage, le schéma de données, les relations entre les informations ;
    ex : communiquer avec le moteur de base de données, disposer des outils techniques d'interfaçage, espérer que d'autres ont fourni des moyens techniques sous GNU/Linux, payer les licences nécessaires

  • intellectuellement, i.e. comprendre ce qu'elles représentent, ce qui est mesuré ;
    ex : comment sont stockées les dates : "Sat, 24 Nov 2018 09:21:42 -0800", "2018-11-24 09:21:42", "Saturday" ou encore 1543047702 décrivent à peu près la même réalité

  • contextuellement, ie comprendre le contexte de la mesure (ou acquisition), la précision, les limites.
    ex : si on mesure une température, il sera intéressant de savoir que le capteur ne peut rien mesurer en dessous de -10 et au dessus de +45

Enfin, travailler ces données avec des outils techniques de :

  • manipulation, assemblage, transformation ;
    ex : transformer ces tables ou ces colonnes pour les regarder avec un bon angle, ou d'une façon pratique

  • représentation, exploration ;
    ex : dessiner ou tracer ces informations, les représenter visuellement pour s'en faire une idée

  • traitement, analyse.
    ex : maths, statistiques, et apprentissage automatique ou IA si on veut appâter le chaland

 
population_lines_sml.jpg

Et ça sert à ... ?

A mieux comprendre les phénomènes qu'on étudie : turbulence fluide, comportement client, détection de défauts sur une chaîne de production, prédiction de variations boursières, etc. On peut tout imaginer, la seule limite est celle des données : quantité, qualité, précision. Nous avons l'habitude chez AltGR de dire qu'il y a trois grandes classes de traitement : le classement, la prévision, la détection. Le plus simple est de partir du besoin métier (« qu'espérez-vous tirer de ces informations ? » et « que pensez-vous qu'on puisse construire à partir de ces données ? ») puis observer les données et identifier une réponse technique adéquate. C'est le quotidien du data analyst, ou data scientist.

En dehors de ce cadre technique, la data sert à faire parler, à faire rêver les gens, à dépenser beaucoup d’argent pour des technos ou des activités pas forcément rentables, à se faire mousser dans les media ou les salons. Donc, au final, à gonfler les factures « parce que tu comprends, Jean-Alain, ils nous ont dit qu'ils comptaient appliquer des techniques de machine learning du MIT, ça doit être super, on va essayer ». Alors qu'au final, la technique doit rester de la technique : un truc de spécialiste, au service d’un besoin métier, qui doit éviter l’écueil de la culture hors-sol.

 

[*] <ma vie> Ensuite, j'ai commencé ma formation de physicien des plasmas, les données ont envahi mon quotidien, et leur interprétation est devenu ma raison de vivre. Patience, abnégation, architecture : il faut parfois savoir affronter un morne et formateur quotidien, que ne renierait pas un castor augmenté </ma vie>

 
Thomas GerbaudComment