L’avis spécialiste: pourquoi préférer les cartes GPU de type Tesla aux cartes Grand Public de type Geforce ?

Beaucoup d’utilisateurs ont découvert que les cartes Nvidia de type GTX ou maintenant RTX peuvent représenter une alternative économique intéressante aux cartes NVIDIA Tesla comme les P4, T4, P100 ou V100.

Tout comme les cartes Tesla, les GPUs GTX ou RTX permettent des performances de calcul élevées en simple précision ou double précision en termes de TFLOPS et nombre de cœurs CUDA. En termes de coûts, une carte RTX 2080 Ti coûte environ 1 000,00 euros H.T. Alors qu’une carte Tesla coûte de 2 à 8 fois plus cher.

Prenons comme exemple la dernière carte Titan RTX et comparons-la aux cartes Tesla P100 ou V100. La Titan RTX offre 4 608 cœurs CUDA et 24 Go de mémoire là ou une P100 dispose de 3 584 cœurs CUDA et 16 Go de RAM, les caractéristiques étant de 5 120 cœurs CUDA et 16 ou 32 Go de RAM pour la V100.

Les cartes Tesla ont un grand nombre d’atouts en comparaison des cartes GTX ou RTX.

Les avantages de la carte Tesla

« Pourquoi est-ce que je devrais acheter une carte Tesla ? Pourquoi ne pas tout simplement acheter une carte GTX ou RTX haut de gamme pour tous mes besoins de développement et de production ? » des questions récurrentes, que ce soit pour des besoins en HPC, en Intelligence Artificielle ou en Deep Learning.

  • Les cartes Grand Public de type GTX ou RTX ainsi que les Titan n’utilisent pas de mémoire ECC (error checking and correction). La mémoire ECC contient des bits de stockage supplémentaires qui ont été développés afin de détecter et de corriger les types les plus courants de corruption de données. Ceci est important pour un déroulement optimal de codes et une performance maximale. La mémoire ECC permet d’assurer que les résultats des calculs effectués sur une carte Tesla sont toujours identiques. Les mêmes calculs effectués sur une carte Consumer haut de gamme comme la Titan Xp, peuvent varier d’une utilisation à l’autre.
  • Les cartes Grand Public ne sont pas conçues pour effectuer des calculs HPC/Deep Learning de manière continue dans un environnement dense, leur durée de vie en comparaison des cartes de type Tesla étant nettement plus courte. Lors de l’installation dans un châssis de serveur rack standard, le faible volume disponible conduit à une surcharge des ventilateurs des cartes GTX/RTX/Titan ce qui augmente radicalement la probabilité de panne du ventilateur. Panne dont la conséquence immédiate est la surchauffe de la carte graphique. La défaillance de plusieurs cartes Grand Public entraînera des coûts (matériel, Main-d’œuvre, interruption d’exploitation,) au moins équivalent à l’achat d’une carte TESLA.
  • Nvidia offre un support complet sur plusieurs années pour les cartes Tesla, couvrant par exemple le hardware, correction de bugs, fonctionnalités spécifiques, drivers optimisés et support des cartes sur plusieurs années … Alors que les cartes Grand Public ne sont supportées que par les fabricants tiers qui limitent leur aide aux environnements PCs et invalident la garantie du produit s’il s’avère que la carte a été utilisée en mode 24/24H, 7/7J, dans un serveur
  • Les cartes Tesla sont optimisées pour une utilisation dans un cluster de calcul y compris le support complet de l’Infiniband et du RDMA (Remote Direct Memory Access), afin de permettre une communication inter-nœuds avec une grande bande passante et une faible latence. Elles intègrent également des outils pour la gestion des cartes GPU et du cluster. Si un développeur souhaite développer avec CUDA qui doit être exploité dans un cluster de calcul, ce sont les cartes Tesla qui supporteront le mieux ce besoin.
  • Depuis le mois de janvier 2018, Nvidia a modifié les termes de la licence d’utilisation des logiciels fournis pour l’exploitation des cartes de type Geforce. L’EULA (End User License Agreement) ainsi modifiée interdit désormais l’utilisation des cartes Geforce dans les Datacenters à l’exception du traitement du Blockchain. Différents hébergeurs autour du monde ont notamment été contraints de retirer de leurs offres les machines équipées de cartes Geforce et de remplacer ces offres par des solutions basées sur des cartes Tesla ou Quadro.
Les cartes Tesla de Nvidia sont optimales pour les besoins en HPC, Deep Learning ou en IA (source vidéo : Nvidia)

Le conseil Bechtle

Les cartes GPU Tesla ont été développées pour le HPC et le Deep Learning.  Elles garantissent ainsi de hauts niveaux de précision, de performances et de durée de vie. Mais les cartes « Grand Public » sont elles aussi utiles en fonction de certains cas.

C’est en fonction de l’utilisation qu’on va faire du GPU qu’il faut décider du choix de la carte. Les cartes Grand Public de type Geforce, GTX, RTX ou Titan sont certainement un choix à prendre en compte pour les premiers développements, quand les budgets sont souvent réduits et que le succès d’un code reste incertain. Une carte Geforce peut être intégrée dans une station de travail et être utilisée pour tester le code. Lorsque la phase de test et de développement du code est terminée, la migration vers un système basé sur des cartes Tesla est la solution idéale et notre recommandation.


Le cas particulier de la Titan RTX (4 608 cœurs CUDA, 24 Go de Ram, 16,3 TFLOPD en calcul simple précision)

Les différentes générations de cartes Nvidia Titan ont toujours été les cartes graphiques les plus performantes disponibles. Ces cartes étaient commercialisées jusque-là uniquement via la vente en ligne sur le site Nvidia avec une limite à deux cartes par client et impliquant le paiement en ligne par carte bancaire.

La situation a évolué avec la nouvelle Titan RTX, qui est désormais disponible à travers quelques partenaires sélectionnés par NVIDIA (dont Bechtle), pour les clients Education & Recherche et les Start-Ups pour leurs activités de développement et tests.

La Nvidia Titan offre l’expérience de calcul « Station de travail » ultime pour les utilisateurs les plus exigeants, chercheurs en Intelligence Artificielle, les laboratoires universitaires, développeurs Deep Learning, Data Scientists, et les créateurs de contenu.

  • La Titan RTX offre un apprentissage plus rapide des modèles avancés d’IA comme ResNet-50 et GNMT par rapport à Titan XP. 
  • La Tita,RTX accélère l’analyse des données avec les bibliothèques Open source de RAPIDS qui s’intègrent parfaitement aux workflows Data Science les plus populaires pour accélérer le Machine Learning.

Pour les chercheurs ou les Start-Up n’ayant pas besoin de réaliser des calculs en double précision, la Nvidia Titan se positionne clairement comme le meilleur choix du moment pour des environnements de développement et/ou de tests.