Un trou noir pèse 5 Po.

 

Je vais vous parler de cette photo qui a fait le tour du monde, la semaine dernière.

La disruption, ça excite tout le monde. Des gens écrivent même des bouquins sur le sujet et en tirent leur quart d'heure warholien. C'est assez drôle, mais c'est le jeu pour qui veut exister dans le cirque médiatique. Les scientifiques de l'EHT [Event Horizon Telescope) n'avaient pas vraiment prévu de rentrer dans l'arène ; mais ils l'ont fait en produisant cette image, ou photographie, d'un trou noir. Je vais essayer de tirer parti de cette exposition pour faire le lien entre l'équipe d'AltGR et ce travail d'analyse de données qui est, n'ayons pas peur des mots, ahurissant [1].

 
 
 

M87.

M pour (Charles) Messier, l'astronome qui a découvert cette galaxie en 1781. M87 a, en son centre, un trou noir super-massif. Classique pour toute (grosse) galaxie qui se respecte. Un trou noir est un objet assez étrange qui découle directement des équations de la relativité générale (Einstein, 1915 [pdf], et Schwarzschild, 1916). Ceux que les trous noirs intéressent iront glaner des informations sur 2 qui donnent quelques métriques.

La proximité de M87 a permis aux 200 membres de l'équipe de l'EHT de sortir une image du trou noir super-massif qui en occupe le centre. La performance est de taille quand on sait qu'une des caractéristiques premières d'un trou noir est de tout cannibaliser : matière, rayonnement, information. L'accumulation quasi-ponctuelle de masse déforme l'espace-temps, le creusant tant et si bien que même la lumière ne peut s'en échapper. Conclusion : passée une certaine proximité, rien (ou si peu, [2]) ne ressort d'un trou noir. Cet objet est donc assez complexe à photographier, puisqu'il n'émet pas. Je vous ferai grâce d'une explication laborieuse de la technique employée pour détecter la présence d'un tel objet ; retenez qu'on peut détecter un trou noir en analysant son ombre et la façon dont il perturbe son environnement.

Une image n'est, certes, pas une preuve. Mais c'est ce qui se rapproche le plus d'une validation directe des équations de la relativité générale d’Albert Einstein dans un régime de forts champs de gravité. Celle-ci est à la fois :

  • une aventure humaine : les premières mesures de l'EHT datent de 2006 ;

  • une aventure scientifique : c'est la première image directe d'un trou noir ;

  • une aventure technique : il a fallu travailler les 5 000 000 000 000 000 octets de données brutes pour les condenser à quelques centaines de milliers d'octets.

 
Hubble_follows_spiral_flow_of_black-hole-powered_jet.jpg
 

Données

"5 000 000 000 000 000 octets" donne une meilleure impression de volume qu'écrire 5Po, autrement dit cinq pétaoctet. L'informatique étant un monde binaire, on définit 1 Po comme (2**10)^5 = 2^50 = 1125899906842624 octets. Ne nous cachons pas la dure réalité des choses : cet exposant 50 pose problème. On ne se rend plus compte de la taille de ces choses. La capacité de stockage d'un disque dur actuel tourne autour de quelques To, soit un peu au delà de 2^40 octets. Il faut donc quelques milliers de disques pour atteindre une capacité de stockage de 5 Po. Sans parler des éventuels (mais obligatoires) copies de sauvegarde. On est sur du massif. Tellement massif qu'il a fallu envoyer les disques par avion - ou hélicoptère. Deux témoignages glanés lors de la conférence de presse, librement traduits :

"L'observatoire de Hawaï aurait généré environ 700 To de données, un septième du total. Il se situe à plus de 8000 km du MIT (Boston, USA). L'intégralité du transfert en avion des disques à duré 50 400 secondes (14h). Le débit des meilleures connexions internet est de l'ordre de quelques Gb/s (gigabits, 1 Gb/s = 0.125 Go/s), alors que le transfert par avion a permis d'atteindre un débit de 14 Go/s, soit 112 Gb/s)"

"Il a fallu attendre six mois qu’un hélicoptère soit disponible pour aller récupérer, en Antarctique, les mémoires de stockage du Télescope du Pôle Sud (SPT3)"

Il ne faut jamais sous-estimer le débit d'un break rempli de bandes magnétiques fonçant sur l'autoroute, disait Andrew S. Tanenbaum (1985).

Ce n'est pas du BigData, c'est du HugeData.
Le plus étonnant, dans toute cette histoire, c’est qu’on sait le traiter.

 
spt_data_delivery_2017_4s.jpg
 

Programmes

Voici où je veux en venir. Les outils de traitements massifs de données, elles aussi massives, sont des outils classiques, accessibles et performants.

Classiques. Oui. Une des bibliothèques de traitement [eht-imaging] est développée sous la forme d'un projet collaboratif, utilisant les outils habituels du développement de projet informatique distribué. Les bibliothèques spécialisées utilisées pour le traitement de données sont elles aussi bien connues de gens qui travaillent les données sous Python (pandas, numpy, scipy, networkx, skimage) ainsi que des outils de FFT rapides et autres bibliothèques spécifiques. Je n'ai pas été fouiller pour identifier les processus de traitement, et je ne serais très étonné que les outils ne soient pas des outils usuels.

Accessibles. Les dépôts de code source sont sous licence libre, et le code est accessible immédiatement sur la plateforme github. Les packages python sont disponibles et peuvent être installés avec les commandes pip usuelles. Il est à parier que les données brutes puissent elles-aussi être accessibles, pour qui serait assez courageux.

Performants. Les scientifiques ou ingénieurs n'ont pas forcément appris, lors de leurs études, à développer des programmes performants. Se spécialiser en physique est un travail à plein temps, et y adjoindre des études précises en informatique ou algorithmique n'est pas forcément faisable. Certains programmes sont horribles, peu optimisés et réinventent la roue (ou la FFT). De ce que j'ai pu en voir, ce temps est révolu, et les jeunes qui développent ces outils de traitements scientifiques ré-utilisent des briques logicielles développées par leurs collègues bien plus experts sur, par exemples, des algorithmes de réduction mathématique de dimensionnalité ou des implémentations spécifiques et optimisées de traitement parallèles. Installer de telles bibliothèques à l'état de l'art se fait avec une seule commande : pip install sklearn.

Conclusion

Pourquoi ce billet ?

Parce que j'ai travaillé, comme beaucoup de physiciens expérimentateurs, sur des projets de ce type : grosses équipes, gros projets, grosses machines. De la BigScience, critiquable évidemment, mais bien réelle. Et l'exemple de la collaboration EHT fait fortement écho à mon passé de physicien au CEA (Tore Supra / WEST) et au JET (EFDA/JET, maintenant EuroFusion). Les problématiques étaient similaires et, si nous n'avions pas atteint ce niveau d'intégration, le chemin semble tout tracé.

Parce que les outils dont nous nous servons, tous les jours, pour traiter les données que nos clients nous confient, sont exactement ceux dont se servent les scientifiques qui ont à traiter des monceaux de données.

Parce que la méthode scientifique d'analyse, mathématiques principalement, est la même. Un problème est un problème, quelque soit son domaine ou sa couleur, et les critères qui en guident la résolution sont identiques. Nos clients, ou partenaires, ont accès à ce niveau d'expertise et de précision.

Les différence majeures <instant promo> :
✓ nous faisons souvent plus de maths que les gars de l'astrophysique - oui, dans ce sens ;
✓ nous avons des problématiques plus variées ;
✓ nous pouvons valoriser directement notre travail, sans attendre des années ;
✗ chasser les trous noirs, c’est fun ;
✗ les traitements de données sont basés sur de la physique passionnante ;
✗ la taille maximale de base que nous avons eu à traiter approchait le To, soit 1/5000 de la base brute EHT.

Une anecdote de disque dur, pour finir. Loin de la demi-tonne de disques nécessaires pour stocker les données brutes de leur expérience, et des 6 mètres cubes qu’ils occupaient, j’ai déjà reçu un disque dur par la poste. Et en effet, c’était plus rapide que de l’envoyer sur notre FTP.

 

notes
[1] chez AltGR, si nous avions peur des mots, ils ne me laisseraient pas écrire des billets.
[2] cf l’évaporation de Hawking

 
Thomas Gerbaud