NVIDIA présente sa nouvelle génération de cartes graphiques
Volta accélère d'un facteur trois l'apprentissage profond grâce à ses cœurs tensoriels

Le , par dourouc05, Responsable Qt
Il y a deux jours, les dirigeants de NVIDIA déclaraient qu’ils ne voyaient pas les nouveaux processeurs graphiques d’AMD comme une menace. Depuis lors, la nouvelle génération de cartes graphiques de NVIDIA est annoncée : Volta promet de grands gains en performance, avec des pointes à 120 Tflops (c’est-à-dire cent vingt mille milliards d’opérations en virgule flottante par seconde), à l’aide d’un seul processeur, dans le cadre de l’apprentissage profond (donc avec une précision moindre dans les calculs) — le constructeur annonce 7,5 Tflops pour des opérations en double précision (sur soixante-quatre bits).



Les gains sont aussi promis pour des applications plus générales, comme le rendu graphique (le but premier de ces processeurs) ou le calcul scientifique (où ils se sont rendus indispensables ces dernières années, avec des technologies comme CUDA).



En chiffres, un seul GPU Volta contient vingt et un milliards de transistors, répartis sur 815 mm² (ce qui en fait le processeur graphique le plus grand). La consommation maximale est de 300 W (comme son grand frère, le GP100 , représentant la génération Pascal). Son pic de performance est cinq fois plus haut que le GP100, qui battait déjà des records : par rapport à Maxwell (GM100), lancé il y a deux ans, le gain atteint un facteur quinze. En d’autres termes, ces gains sont quatre fois plus élevés que ceux prédits par la loi de Moore (même si elle était prévue, dans les années 1970, pour des processeurs centraux).

Pour le moment, seul un processeur est annoncé : le GV100, à destination exclusivement des serveurs (les cartes graphiques grand public utilisent des versions plus petites de ce processeur). On pourrait s’attendre à voir débarquer des déclinaisons grand public fin de cette année, voire début 2018.

Côté matériel

Les gains de Volta sont dus à une architecture entièrement révisée : les cœurs de calcul sont divisés en deux groupes, les génériques (dits CUDA, habituels), puis les spécifiques (dits tenseur, prévus pour du calcul matriciel). Le GV100 contient ainsi 5376 cœurs CUDA (par rapport à 3840 pour le GP100) et 672 cœurs tensoriels (entièrement nouveaux). Une autre grande partie du gain de performance vient de la mémoire : le GV100 utilise 16 Go de puces de mémoire HBM2, avec une bande passante de 900 Go/s (la même technologie était utilisée pour le GP100, mais avec une bande passante de “seulement” 732 Go/s).

L’architecture des GPU a presque entièrement changé depuis la génération précédente : seule l’organisation globale des blocs est similaire, NVIDIA ne s’est pas limité à ajouter des cœurs de calcul plus spécifiques sur un procédé de fabrication plus récent. La mécanique d’exécution, l’ordonnancement des tâches, les contrôleurs mémoire, les instructions ont tous été profondément modifiés par rapport à Pascal.

D’ailleurs, le processus de fabrication a été adapté à ces GPU : il s’agit du 12FFN de TSMC, une variation du 12FF de plus haute performance (par rapport au 16FF de Pascal, la consommation énergétique est grandement diminuée). C’était presque une obligation : ces GPU ont la taille maximale que peut produire TSMC. En d’autres termes, le rendement sera très faible à la production : plus la puce est grande, plus le taux de pertes à la fabrication est grand. Sur un processus relativement récent et donc moins bien maîtrisé, les dommages sur le rendement sont encore plus importants. Ainsi, ces puces seront probablement réservées à des clients pouvant se permettre bien plus que 15 000 $ l’unité (prix d’une carte de génération Pascal) — pour dire à quel point ils en ont besoin pour leurs tâches.



NVIDIA annonce en parallèle ses serveurs de calcul DGX-1 avec des cartes Volta : la machine contient huit cartes Volta, pour un prix de 149 000 $ (avec deux processeurs Intel Xeon E5-2698 V4, 512 Go de mémoire DDR4 et quatre disques SSD de 2 To configurés en RAID0, pour une consommation de 3,2 kW avec refroidissement liquide). Une déclinaison en machine de bureau, la DGX Workstation, ne contiendra que quatre telles cartes, pour un prix de 69 000 $.



Organisation des multiprocesseurs

Les cœurs de calcul sont répartis en une série de multiprocesseurs de flux (SM, streaming multiprocessor). Un même SM contient une série de cœurs CUDA et de cœurs tensoriels. Chacun de ces multiprocesseurs contient soixante-quatre unités de calcul sur des nombres à virgule flottante de trente-deux bits (FP32), soixante-quatre unités pour des entiers à trente-deux bits (INT64), trente-deux unités FP64, ainsi que huit cœurs tensoriels.

Les données entières et en virgule flottante utilisent désormais des chemins parallèles : un GPU Volta sera donc nettement plus efficace sur des charges de travail qui mélangent calculs et adressage, les deux pouvant se faire en parallèle (et non plus l’un après l’autre). À l’intérieur de chaque SM, l’ordonnancement (matériel) des fils d’exécution indépendants a été profondément retravaillé, afin d’obtenir une synchronisation plus fine. Les caches L1 ont aussi été fusionnés avec la mémoire partagée, ce qui facilite la programmation des GPU (un niveau de la hiérarchie mémoire enlevé) et augmente la performance (la mémoire partagée étant rapprochée des cœurs de calcul).



Les cœurs tensoriels sont spécifiquement prévus pour les tâches d’algèbre linéaire dans le cadre de l’apprentissage profond : les opérations qu’ils effectuent ne sont pas spécifiques à ce domaine, mais bien la précision des opérandes. Plus particulièrement, ils sont utiles dans le cadre de la multiplication de deux matrices FP16 de seize éléments avec une addition à une autre matrice de même taille, en FP16 ou FP32  ; les calculs sont effectués avec une précision de trente-deux  bits, pour atteindre une précision suffisante — la sortie est simplement tronquée. Chaque cœur peut ainsi effectuer soixante-quatre opérations FMA (une multiplication et une addition) par coup d’horloge. De par leur conception extrêmement peu flexible (très peu d’instructions disponibles), ces cœurs ne consomment pas énormément d’énergie ni de place sur la puce.



Sources et images : NVIDIA Launches Revolutionary Volta GPU Platform, Fueling Next Era of AI and High Performance Computing, NVIDIA Volta Unveiled: GV100 GPU and Tesla V100 Accelerator Announced, NVIDIA Tesla V100: The Most Advanced Data Center GPU Ever Built, Inside Volta: The World’s Most Advanced Data Center GPU, NVIDIA Volta GV100 GPU Powers Updated DGX-1, HGX-1 and DGX-1 Supercomputing Stations – Available in Q3 2017 With Prices Up To $149K.


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de Padget Padget - Membre à l'essai https://www.developpez.com
le 13/05/2017 à 15:19
De la puissance brute à l'état pur... Cette nouvelle technologie relègue la Titan à l'état de calculatrice casio collège 😄
Avatar de ijk-ref ijk-ref - Membre averti https://www.developpez.com
le 13/05/2017 à 17:33
Pas sur le rapport prix/qualité en tout cas.
Avatar de dourouc05 dourouc05 - Responsable Qt https://www.developpez.com
le 13/05/2017 à 19:58
Ça dépend à quel niveau : un joueur n'aura aucun intérêt à acheter une carte Volta pour le moment (pas de sortie graphique dessus). Par contre, si tu as des milliers de GPU dans tes serveurs et as besoin de plus de puissance, tu prendras la nouvelle différemment (surtout avec de l'apprentissage profond).
Avatar de RyzenOC RyzenOC - Membre expert https://www.developpez.com
le 13/05/2017 à 20:08
Il y a deux jours, les dirigeants de NVIDIA déclaraient qu’ils ne voyaient pas les nouveaux processeurs graphiques d’AMD comme une menace.
répartis sur 815 mm²
Si AMD sort une carte de cette taille pas sur... l'architecture GCN a un gros avantage, elle prend peu de place et c'est se qui rends les APU d'AMD plus puissant que les Intel graphic Card par exemple.

Et puis attendons Vega, il y'a quelques mois on se souvient tous de la position d'Intel sur les Ryzens, pour eux Ryzen ne ferais jamais aussi bien que leurs architecture Core et on vois bien le résultat, 2 fois moins ches pour de meilleurs perf (en applicatif) pour une conso inférieure en PLUS !!!

Pour le marché pro, AMD peut parfaitement revenir dans la course car contrairement à Nvidia AMD fabrique aussi des CPU.... lors de la conférence à Austin en décembre ils ont montré des démos dans le deep leaning avec un gpu amd et un cpu Naple et on montré la cohérence de l'union de ces 2 composants.
Avatar de steflinux steflinux - Membre actif https://www.developpez.com
le 14/05/2017 à 10:41
Disons qu'AMD va sortir ses cartes graphiques Vega le mois prochain probablement,
et que, donc, NVidia sous pression a accéléré son calendrier...

Les nouvelles cartes graphiques NVidia 2xxx devraient donc sortir cette année, mais je pense
qu'ils attendent de voir les performances des cartes nouvelles AMD pour le moment.

J'aurais bien remplacé ma GTX 660 par une GTX 1070, mais vu le prix actuel,
je vais attendre deux mois. J'hésite à acheter un Benq XL2540 (à 240 Hz),
voir si ça aide côté fatigue occulaire : mais il faut une grosse carte graphique
derrière, avec display port.

Bref. Ca progresse enfin côté technologies graphiques.
On attend toujours les écrans OLED, ceci dit.
Avatar de melka one melka one - Membre éclairé https://www.developpez.com
le 14/05/2017 à 11:58
AMD l' emmerdeur de l'année, ça fait du bien un peut de concurrence
Avatar de MikeRowSoft MikeRowSoft - Provisoirement toléré https://www.developpez.com
le 14/05/2017 à 18:12
Je présume que la qualité des drivers PRO sera encore là.
Avatar de SurferIX SurferIX - Membre chevronné https://www.developpez.com
le 18/05/2017 à 22:31
Je dirais que l'intérêt de cette news est comme de regarder les F1 : on voit ce qui arrivera dans quelques années chez nous, mais en même temps comme on ne peut rien en faire ni prévoir... à vous de conclure le niveau de l'intérêt. Pour moi il est haut.
Avatar de dourouc05 dourouc05 - Responsable Qt https://www.developpez.com
le 22/06/2017 à 1:07
Quelques mois après la première annonce de ses processeurs graphiques pour le calcul intensif Tesla V100, NVIDIA dévoile les derniers détails sur la version PCIe de ces cartes. L’annonce précédente portait uniquement sur les modules SXM2, un format propriétaire nécessaire notamment pour le bus NVLink. Les grandes lignes de Volta sont déjà connues : ces puces de 815 mm² sont fabriquées avec un procédé spécifique de TSCM, le 12FFN, une variante du 12 nm ; l’architecture des cœurs fait place à des unités spécifiques aux traitements tensoriels, les caches L1 sont unifiés au sein d’un multiprocesseur de flux.

La version PCIe de ces cartes, certes plus standard, est quelque peu limitée par rapport au format SXM2 : la puissance délivrable est moindre (250 W au lieu de 300 W), ce qui limite de facto la fréquence des processeurs graphiques (qui passe de 1455 à 1370 MHz, soit une perte d’approximativement six pour cent). La puissance de calcul est donc aussi en baisse : au plus vingt-huit téraflops en demi-précision (au lieu de trente), par exemple. Le processeur en lui-même est identique, avec le même nombre de cœurs CUDA par exemple (5376). Cependant, la diminution de puissance de calcul n’est pas directement proportionnelle à la diminution d’énergie consommée : l’efficacité énergétique augmente donc (de cent gigaflops par watt à cent douze).

Contrairement à la génération Pascal (P100), ces processeurs spécifiquement prévus pour le calcul intensif ne seront pas déclinés en une gamme : le P100 existait en versions seize et douze gigaoctets de mémoire, le V100 n’existera qu’en version seize gigaoctets. Cela est probablement dû au fait que NVIDIA maîtrise mieux les processus de fabrication de puces avec interposeur (requis pour une mémoire de type HBM2) — ce qui diminue le taux de puces partiellement mal formées — et que la production de mémoire HBM2 a augmenté en volume.
On attend les premières cartes PCIe pour la fin de l’année, notamment intégrées dans des systèmes de HP Entreprise.

Source : NVIDIA Formally Announces PCIe Tesla V100: Available Later This Year.
Avatar de Ermand Ermand - Nouveau Candidat au Club https://www.developpez.com
le 03/08/2017 à 10:47
Perso amd Ryzen est moins cher par contre il a deux fois plus de core/coeurs...

Donc ça donnerait quoi à core/coeurs égaux?

C'est sûr en multi-tache il est au-dessus d'intel par contre de façon globale et pour un nombre de core/coeurs égal ça donne/donnerait quoi?

Et cela pour le prix, d'ailleurs, on pourrait admettre un prix entre 35 et 40% moins élevé pour un nombre de core/coeur égal... faudrait voir...

Pour nividia, je ne sais pas encore, j’hésites.

La question pour moi c'est: est-ce des pc portable auront des puces à HBM2 et est-ce qu'ils auront les pilotes/drivers pour windows 7...? Avec steam, quels jeux passeront sous windows 10 dans le pire des cas? (et le flicage, la crasse sous windows 10... non merci! faudra un autre pc en dual boot pour aller sur le net!) On ose nommer ça du progrès... nager dans l'égout n'est pas du tout un progrès sauf pour le con-sommateur moyen.
Offres d'emploi IT
Développeur Front-End F/H
Zenika - Bretagne - Rennes (35000)
Développeur PHP / Stage (H/F)
SMILE - Provence Alpes Côte d'Azur - Marseille (13000)
Responsable Developpement Informatique
Cabinet de recrutement Valeurs&Valeur - Nord Pas-de-Calais - Roubaix (59100)

Voir plus d'offres Voir la carte des offres IT
Responsable bénévole de la rubrique HPC : Thibaut Cuvelier -