Publié jeudi, le rapport est l'œuvre du Bureau de l'inspecteur général de la NASA. Les conclusions du rapport sont préoccupantes, principalement parce qu'elles se rapportent à une agence spatiale qui a fait certaines des découvertes les plus importantes de l'histoire de l'humanité et qui est censée être à la pointe de la technologie. Le Bureau de l'inspecteur général de la NASA affirme que les technologies de calcul intensif de l'agence doivent être complètement révisées si elle veut rivaliser avec les programmes de recherche spatiale des autres grandes puissances et conserver sa position de leader dans la conquête spatiale.
Décrivant les ressources HEC (high-end computing) de la NASA comme étant "sursollicitées" et "surchargées", le rapport affirme que les directions de mission demandent plus de temps de calcul que la capacité existante ne peut en fournir, ce qui entraîne souvent des retards dans le calendrier. Il indique que l'agence a besoin d'un engagement renouvelé et d'une attention soutenue de la part de ses dirigeants pour redynamiser ses efforts en matière de calcul intensif. En l'absence d'une mise à jour, les ressources de calcul haute performance de l'agence limiteront probablement les priorités et les objectifs des missions futures.
Selon le rapport, la situation est si grave que plusieurs équipes de la NASA doivent utiliser une partie du budget qui leur est alloué pour acheter leurs propres ressources de HEC afin de respecter les délais des missions. À titre d'exemple, le rapport souligne que l'équipe "Space Launch System" investit environ 250 000 dollars par ans pour acheter et gérer ses propres systèmes de calcul intensif au lieu d'attendre la disponibilité des ressources HEC existantes. Selon le rapport, presque tous les centres de la NASA utilisent leurs propres systèmes de HEC, à l'exception du Goddard Space Flight Center et du Stennis Space Center.
La NASA dispose de cinq ressources HEC centrales situées au NASA Advanced Supercomputing (NAS) à Ames, en Californie, et au NASA Center for Climate Simulation (NCCS) à Goddard, dans le Maryland. Le liste comprend : Aitken (13,12 PFLOPS, conçu pour soutenir le programme Artemis, qui vise à ramener des humains sur la Lune et à y établir une présence durable), Electra (8,32 PFLOPS), Discover (8,1 PFLOPS, utilisé pour la modélisation climatique et météorologique), Pleiades (7,09 PFLOPS, utilisé pour les simulations climatiques, les études astrophysiques et la modélisation aérospatiale), et enfin Endeavour (154,8 TFLOPS).
Ces machines utilisent presque exclusivement d'anciens cœurs de CPU. Par exemple, tous les superordinateurs NAS utilisent plus de 18 000 CPU et seulement 48 GPU, et le NCSS utilise encore moins de GPU. « Les responsables HEC ont soulevé plusieurs préoccupations concernant cette observation, déclarant que l'incapacité à moderniser les systèmes de la NASA peut être attribuée à divers facteurs tels que les préoccupations de la chaîne d'approvisionnement, les exigences du langage informatique moderne et la rareté du personnel qualifié nécessaire pour mettre en œuvre les nouvelles technologies », indique le rapport.
« En fin de compte, cette incapacité à moderniser l'infrastructure HEC actuelle aura un impact direct sur la capacité de l'agence à atteindre ses objectifs en matière d'exploration, de science et de recherche », affirme le Bureau de l'inspecteur général de la NASA. Toutefois, les observations ne s'arrêtent pas là. L'audit a également révélé que les ressources HEC de l'agence ne sont pas gérées comme un programme ou un service stratégique centralisé, ce qui entraîne des inefficacités et l'absence d'une stratégie cohérente pour l'utilisation des ressources informatiques sur site par rapport aux ressources de cloud computing.
Selon le rapport, cette incertitude a fait hésiter à utiliser les ressources en cloud en raison de pratiques de programmation inconnues ou de coûts supposés plus élevés. En outre, l'audit a révélé que les contrôles de sécurité de l'infrastructure de calcul intensif sont souvent contournés ou ne sont pas mis en œuvre, ce qui accroît le risque de cyberattaque. Ainsi, le Bureau de l'inspecteur général de la NASA formule dix recommandations, la première étant que les hauts responsables réforment la manière dont les supercalculateurs sont administrés et implantés à la NASA. Les neuf autres recommandations sont des actions.
L'auditeur souligne toutefois que ces actions devraient être menées par une "équipe de choc" chargée de résoudre les problèmes connus dans l'ensemble du parc de superordinateurs de la NASA. Parmi les tâches auxquelles cette équipe doit s'atteler figurent les suivantes :
- identifier les lacunes technologiques essentielles, telles que la transition vers la GPU et la modernisation des codes, pour répondre aux besoins actuels et futurs et aux exigences technologiques et scientifiques stratégiques ;
- élaborer une stratégie visant à améliorer l'affectation des actifs HEC et à établir des priorités d'utilisation, y compris l'utilisation appropriée des ressources sur site par rapport aux ressources basées dans le cloud ;
- évaluer les risques cybernétiques associés aux actifs HEC afin de déterminer les exigences en matière de surveillance et de contrôle, d'établir l'appétence pour le risque et de remédier aux lacunes en matière de contrôle ;
- envisager d'utiliser la plateforme Splunk de la NASA comme ressource partagée ;
- dresser un inventaire des actifs HEC à l'échelle de l'entreprise et formaliser les procédures de gestion du cycle de vie du matériel et des logiciels.
Le rapport indique : « bien que la technologie HEC puisse soutenir certains petits projets d'IA, l'écosystème HEC actuel de l'agence ne peut pas soutenir les projets qui nécessitent un flux de données massif ». Comme l'on pouvait s'y attendre, le rapport d'audit a fait énormément réagir sur la toile. Beaucoup sont notamment préoccupées par les observations de l'auditeur en rapport avec le parc de superordinateurs de la NASA et le laxisme dans la gestion de la sécurité par l'agence. Selon certains commentateurs, le rapport pourrait ouvrir les yeux des pirates qui n'avaient pas considéré la NASA comme une cible potentielle.
Notamment, un passage du rapport indique que le personnel de sécurité de la NASA a fait part de ses préoccupations concernant le manque de capacités de contrôle de l'activité des utilisateurs et son exclusion des processus d'approbation et d'examen de l'accès des utilisateurs externes aux systèmes HEC ou aux ensembles de données de l'agence. « Sans un effort recentré pour mettre en œuvre de meilleures garanties de cybersécurité, les ressources HEC de la NASA continueront d'être des cibles de grande valeur pour les adversaires », indique le rapport.
La NASA aurait accepté la recommandation d'établir une direction exécutive pour ses actifs HEC et a partiellement accepté les autres recommandations du rapport, notant qu'elle travaillait pour collaborer et élaborer des stratégies sur les questions identifiées par l'auditeur.
Source : rapport de l'audit du Bureau de l'inspecteur général de la NASA (PDF)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des observations alarmantes de l'audit interne de la NASA ?
Comment expliquer l'obsolescence de l'infrastructure HEC d'une agence comme la NASA ?
Que pensez-vous du laxisme observé dans la gestion de la sécurité des ressources HEC de l'agence ?
Que pensez-vous des recommandations de l'auditeur ?
Voir aussi
La Russie peut-elle créer des grappes de calcul haute performance avec des technologies locales ? Les scientifiques russes estiment que le pays ne pourra pas construire de nouveaux superordinateurs
Le nouveau supercalculateur de simulation d'atterrissage sur la lune de la NASA est plus puissant, plus respectueux de l'environnement, peut exécuter jusqu'à 3,69 petaflops et compte 46 080 cœurs
Jupiter, le premier supercalculateur exascale d'Europe, fonctionnera sur ARM au lieu de x86. Le français SiPearl fournira les processeurs Rhea, l'Europe cherchant à obtenir son indépendance hardware