Dans une session spéciale à l'ISC 2024, le PDG de Codeplay, une société Intel, Andrew Richards, a abordé la demande croissante de calcul accéléré et de logiciels dans les domaines du HPC et de l'IA. Il a souligné l'importance de oneAPI, un modèle de programmation unifié basé sur des normes ouvertes qui permet aux développeurs de créer des applications fonctionnant sur diverses architectures matérielles, sans verrouillage fournisseur. Cette approche est également au cœur de l'Unified Acceleration Foundation (UXL) de la Fondation Linux, où plusieurs entreprises collaborent pour créer un écosystème ouvert de calcul accéléré sur des normes ouvertes, brisant ainsi les barrières propriétaires.
Parallèlement, Intel Tiber Developer Cloud élargit ses capacités avec de nouvelles plateformes matérielles et des services avancés, permettant aux entreprises et aux développeurs d'évaluer, d'innover et de déployer rapidement des modèles d'IA à grande échelle. Ces nouvelles capacités comprennent notamment des systèmes Intel Xeon 6 E-core et P-core, des clusters basés sur Intel Gaudi 2 et la série Intel Data Center GPU Max, ainsi que le service Intel Kubernetes pour les charges de travail d'IA dans le cloud et la prise en charge des comptes multi-utilisateurs.
Comparaison entre le calcul exascale et les autres ordinateurs
Le calcul exascale est la prochaine étape dans le développement des superordinateurs. Capables de traiter des informations beaucoup plus rapidement que les superordinateurs les plus puissants d'aujourd'hui, les ordinateurs exascales donneront aux scientifiques un nouvel outil pour relever certains des plus grands défis auxquels notre monde est confronté, du changement climatique à la compréhension du cancer en passant par la conception de nouveaux types de matériaux. Les ordinateurs exascales sont des ordinateurs numériques, à peu près semblables aux ordinateurs et superordinateurs d'aujourd'hui, mais dotés d'un matériel beaucoup plus puissant. Ils sont donc différents des ordinateurs quantiques, qui représentent une approche totalement nouvelle de la construction d'un ordinateur adapté à des types de questions spécifiques.
Les scientifiques mesurent les performances des ordinateurs en termes d'opérations en virgule flottante par seconde (FLOPS). Il s'agit d'opérations arithmétiques simples, comme des problèmes d'addition et de multiplication. En général, une personne peut résoudre des problèmes d'addition avec un stylo et du papier à une vitesse de 1 FLOP. Cela signifie qu'il nous faut une seconde pour résoudre un problème d'addition simple. Les ordinateurs sont beaucoup plus rapides que les humains. Leur performance en FLOPS comporte tellement de zéros que les chercheurs utilisent plutôt des préfixes. Par exemple, le préfixe « giga » signifie un nombre avec neuf zéros.
Un processeur d'ordinateur personnel moderne peut fonctionner dans la gamme des gigaflops, soit environ 150 000 000 000 FLOPS, ou 150 gigaFLOPS. « Tera » signifie 12 zéros. Les ordinateurs ont franchi le cap de la terascale en 1996 avec le superordinateur Intel ASCI Red du ministère de l'énergie (DOE). La performance maximale d'ASCI Red était de 1 340 000 000 000 FLOPS, soit 1,34 téraFLOPS. L'informatique Exascale est incroyablement plus rapide que cela. « Exa » signifie 18 zéros. Cela signifie qu'un ordinateur exascale peut réaliser plus de 1 000 000 000 000 000 FLOPS, soit 1 exaFLOP. C'est plus d'un million de fois plus rapide que les performances maximales d'ASCI Red en 1996.
Construire un ordinateur aussi puissant n'est pas chose aisée. Lorsque les scientifiques ont commencé à réfléchir sérieusement aux ordinateurs exascales, ils ont prédit que ces ordinateurs pourraient nécessiter autant d'énergie que 50 foyers. Ce chiffre a été revu à la baisse grâce aux recherches en cours avec les fournisseurs d'ordinateurs. Les scientifiques doivent également trouver des moyens de garantir la fiabilité des ordinateurs exascales, malgré le nombre considérable de composants qu'ils contiennent. En outre, ils doivent trouver des moyens de déplacer les données entre les processeurs et le stockage suffisamment rapidement pour éviter les ralentissements.
Les défis auxquels notre monde est confronté et les questions de recherche scientifique les plus complexes nécessitent de plus en plus de puissance informatique pour être résolus. Les superordinateurs exascales permettront aux scientifiques de créer des modèles plus réalistes du système terrestre et du climat. Ils aideront les chercheurs à comprendre les nanosciences qui sous-tendent les nouveaux matériaux. Les ordinateurs exascales nous aideront à construire les futures centrales à fusion. Ils alimenteront de nouvelles études de l'univers, de la physique des particules à la formation des étoiles. Enfin, ces ordinateurs contribueront à garantir la sûreté et la sécurité des États-Unis en prenant en charge des tâches telles que le maintien de notre force de dissuasion nucléaire.
Contrairement au TOP500, le GREEN500 a été profondément transformé dans sa dernière édition, avec un tout nouveau trio en tête. La première place revient au JUPITER Exascale Development Instrument (JEDI), une nouvelle création d'EuroHPC.FZJ en Allemagne. Bien que classée 190e au TOP500, cette machine a dominé le GREEN500 avec une efficacité énergétique impressionnante de 72,73 gigaflops par watt et un score HPL de 7,42 pétaflops. En deuxième position, nous trouvons le système Isambard-AI de l'université de Bristol, au Royaume-Uni, affichant une efficacité énergétique de 68,83 gigaflops par watt et un score HPL de 19,14 pétaflops. En troisième position, le système Helios de Cyfronet en Pologne affiche une efficacité énergétique de 66,95 gigaflops par watt, avec un score HPL de 19,14 pétaflops.
Toutefois, comme dans les listes précédentes, les performances de Frontier en matière d'efficacité énergétique ont été si remarquables qu'elles méritent d'être saluées. Frontier a atteint la première place du TOP500 avec un score HPL de 1,206 exaflops, ce qui est déjà impressionnant, mais le système a également obtenu une efficacité énergétique de 56,97 gigaflops par watt, ce qui place Frontier à la 11e place du GREEN500. Bien qu'il ait presque doublé son score HPL précédent et qu'il soit devenu officiellement la deuxième machine exascale de la liste, Aurora n'a tout simplement pas pu égaler l'efficacité énergétique de Frontier. Le système a pris la 41e place du GREEN500 avec une efficacité énergétique de 26,15 gigaflops par watt.
La disparité d'efficacité énergétique entre Frontier et Aurora suscite un vif intérêt et nécessite une analyse approfondie. En effet, Frontier affiche des performances globales supérieures d'environ 20 % à celles d'Aurora, tandis qu'Aurora consomme 70 % d'énergie en plus. De plus, le nombre de cœurs entre les deux machines souligne l'intérêt de la deuxième place occupée par Aurora, avec 9 264 128 cœurs contre 8 699 904 pour Frontier, bien qu'elles utilisent toutes deux la même interconnexion Slingshot-11.
Dans une récente discussion, Addison Snell, PDG d'Intersect360 Research et analyste pour la HPC-AI Leadership Organization (HALO), a avancé l'idée que cette différence pourrait résulter des processeurs Intel Data Center GPU Max d'Aurora, combinée à l'interconnexion partagée. Il souligne que l'objectif principal des supercalculateurs est de réaliser des avancées scientifiques, mais il est difficile d'ignorer le classement dans le Top500.
Le GPU Ponte Vecchio, également connu sous le nom de GPU Intel Data Center Max, affiche une puissance thermique nominale (TDP) de 600 W, tandis que le supercalculateur Frontier utilise le GPU MI250X d'AMD avec un TDP de 560 W. Une analyse plus approfondie est nécessaire pour comprendre pleinement cette disparité, alors que la communauté attend avec impatience les développements futurs d'Aurora. En attendant, Frontier conserve un avantage en termes d'efficacité énergétique et de puissance globale.
Au-delà de l'exascale, Aurora révolutionne la recherche scientifique grâce à l'IA
Conçu dès le départ comme un système centré sur l'IA, Aurora permettra aux chercheurs d'exploiter des modèles d'IA génératifs pour accélérer la découverte scientifique. Des progrès significatifs ont été réalisés dans les premières recherches d'Argonne basées sur l'IA. Parmi les réussites, citons la cartographie des 80 milliards de neurones du cerveau humain, la physique des particules à haute énergie améliorée par l'apprentissage profond, et la conception et la découverte de médicaments accélérées par l'apprentissage automatique, entre autres.
Le supercalculateur Aurora est un système étendu comprenant 166 racks, 10 624 lames de calcul, 21 248 processeurs Intel Xeon CPU Max Series et 63 744 unités Intel Data Center GPU Max Series, ce qui en fait l'un des plus grands clusters GPU au monde. Aurora comprend également la plus grande interconnexion ouverte de supercalculateurs basée sur Ethernet sur un système unique de 84 992 points d'extrémité HPE slingshot fabric.
Le supercalculateur Aurora est arrivé en deuxième position sur le benchmark LINPACK haute performance (HPL) mais a franchi la barrière de l'exascale avec 1,012 exaflops en utilisant 9 234 nœuds, soit seulement 87 % du système. Le supercalculateur Aurora a également obtenu la troisième place pour le test du gradient conjugué à haute performance (HPCG) avec 5 612 téraflops par seconde (TF/s) et 39 % de la machine. Ce test vise à évaluer des scénarios plus réalistes qui donnent un aperçu des schémas de communication et d'accès à la mémoire, qui sont des facteurs importants dans les applications HPC du monde réel. Il complète des benchmarks comme LINPACK en offrant une vue d'ensemble des capacités d'un système.
Comment l'IA est optimisée : Au cœur du supercalculateur Aurora se trouve la série Intel Data Center GPU Max. L'architecture Intel Xe GPU est à la base de la série Max, avec du matériel spécialisé comme des blocs de calcul matriciel et vectoriel optimisés pour les tâches d'IA et de HPC. La conception de l'architecture Intel Xe, qui offre des performances de calcul inégalées, est la raison pour laquelle le supercalculateur Aurora a obtenu la première place dans le benchmark LINPACK haute performance - précision mixte (HPL-MxP) - qui met le mieux en évidence l'importance des charges de travail d'IA dans le HPC.
Les capacités de traitement parallèle de l'architecture Xe excellent dans la gestion des opérations matricielles et vectorielles complexes inhérentes aux calculs d'IA des réseaux neuronaux. Ces cœurs de calcul sont essentiels pour accélérer les opérations matricielles cruciales pour les modèles d'apprentissage profond. Complétée par la suite d'outils logiciels d'Intel, y compris le compilateur Intel oneAPI DPC++/C++, un riche ensemble de bibliothèques de performance, et des cadres et outils d'IA optimisés, l'architecture Xe favorise un écosystème ouvert pour les développeurs, caractérisé par la flexibilité et l'évolutivité à travers divers appareils et facteurs de forme.
Les nouveaux superordinateurs en cours de déploiement avec les technologies Intel Xeon CPU Max Series et Intel Data Center GPU Max Series soulignent l'objectif d'Intel de faire progresser le HPC et l'IA. Les systèmes comprennent Cassandra du Centre euro-méditerranéen sur le changement climatique (CMCC) pour accélérer la modélisation du changement climatique ; CRESCO 8 de l'Agence nationale italienne pour les nouvelles technologies, l'énergie et le développement économique durable (ENEA) pour permettre des percées dans le domaine de l'énergie de fusion ; Texas Advanced Computing Center (TACC), qui est en pleine production pour permettre l'analyse de données en biologie sur les flux de turbulences supersoniques et les simulations atomistiques sur une large gamme de matériaux ; ainsi que l'Autorité britannique de l'énergie atomique (UKAEA) pour résoudre les problèmes liés à la mémoire qui sous-tendent la conception des futures centrales à fusion.
Le résultat du benchmark AI en précision mixte sera à la base de la prochaine génération de GPU d'Intel pour l'IA et le HPC, dont le nom de code est Falcon Shores. Falcon Shores s'appuiera sur l'architecture Intel Xe de nouvelle génération et sur le meilleur d'Intel Gaudi. Cette intégration permet une interface de programmation unifiée. Les premiers résultats de performance sur Intel Xeon 6 avec P-cores et mémoire MCR (Multiplexer Combined Ranks) à 8800 mégatransferts par seconde (MT/s) offrent jusqu'à 2,3 fois plus de performance pour les applications HPC réelles, comme Nucleus for European Modeling of the Ocean (NEMO), par rapport à la génération précédente1, établissant une base solide comme choix de CPU hôte pour les solutions HPC.
Les progrès technologiques ne sont pas dépourvus de défis et de problématiques
L'annonce selon laquelle le supercalculateur Aurora d'Intel a franchi la barrière de l'exascale lors de la conférence internationale sur les supercalculateurs 2024 est indéniablement une avancée majeure dans le domaine de la technologie informatique. Atteindre une puissance de calcul de 1,012 exaflops représente un bond significatif dans la capacité de traitement des données, ouvrant la voie à des possibilités de recherche et de développement sans précédent dans divers domaines scientifiques et industriels.
Ces deux événements mettent en lumière l'importance croissante de la technologie et de l'innovation pour les entreprises et l'économie mondiale. La capacité de traitement avancée offerte par Aurora ouvre de nouvelles possibilités pour l'analyse de données à grande échelle, la modélisation complexe et la simulation, ce qui pourrait conduire à des avancées significatives dans des domaines tels que la médecine, les sciences de la terre, l'ingénierie et bien d'autres encore. En même temps, la reconnaissance des grandes entreprises par la liste Fortune 500 témoigne de leur rôle crucial dans la création de richesse, la génération d'emplois et l'innovation économique.
La session spéciale à l'ISC 2024, dirigée par le PDG de Codeplay, Andrew Richards, met en lumière l'importance croissante du calcul accéléré et des logiciels dans les domaines du HPC et de l'IA. L'initiative oneAPI et l'Unified Acceleration Foundation offrent certainement des opportunités prometteuses pour favoriser l'innovation et la collaboration dans le domaine, mais il reste à voir dans quelle mesure ces initiatives seront réellement adoptées et mises en œuvre par la communauté.
Quant à Intel Tiber Developer Cloud, l'élargissement de ses capacités avec de nouvelles plateformes matérielles et des services avancés est une étape positive vers la facilitation de l'évaluation, de l'innovation et du déploiement des modèles d'IA à grande échelle. Cependant, il est essentiel de garantir que ces outils et services restent accessibles et abordables pour les entreprises et les développeurs, afin de stimuler véritablement l'innovation dans le domaine de l'IA.
Bien que l'annonce d'Aurora et les développements connexes dans le domaine du calcul haute performance et de l'IA représentent des avancées importantes, il convient d'examiner de manière critique les implications et les défis associés à ces progrès technologiques, ainsi que la façon dont ils seront réellement adoptés et exploités dans la pratique.
Sources : ISC High Performance, Argonne National Laboratory
Et vous ?
Quel est votre avis sur le sujet ?
Quelles limites ou contraintes techniques pourraient entraver la performance effective d'Aurora, même si elle est classée comme un supercalculateur exascale ?
Voir aussi :
Projet Aurora : les USA s'associent à Intel et Cray pour concevoir le supercalculateur le plus rapide du pays, estimé à 500 millions USD
Intel annonce un concurrent de ChatGPT appelé Aurora GenAI qui est doté de 1 000 milliards de paramètres, il est cinq fois plus grand que ChatGPT qui compte 175 milliards de paramètres