Die neue Generation von NVIDIA GPUs, Codename "Kepler", erreicht signifikante Leistungssteigerungen, speziell beim Beschleunigen von rechenintensiven Programmen. High Performance Linpack (HPL) lastet die Rechen- und Speichersubsysteme der Testsysteme aus und wird weitestgehend als Referenzbenchmark in der HPC (High-Performance Computing) Community akzeptiert. Das Weiterentwickeln an GPUs zum Beschleunigen von HPL, stellt nicht nur tieferen Einblick in die Leistung der Systeme bereit, sondern ermöglicht außerdem schnellere Forschung and Entdeckung für Forscher der Welt. Unsere Studie vergleicht die HPL Leistung an unterschiedlichen "Kepler" GPUs (K20 und K40).

Dell bietet jetzt eine vollständig implementierte GPU Lösung, basierend auf PowerEdge R720 Servern. In dieser Lösung befinden sich die GPUs direkt angeschlossen im Server, um die extra Rechenleistung bereitzustellen, welche für die Applikationsbeschleunigung benötigt wird. Zwei der aktuellsten Tesla K20 oder K40 GPUs können in jeden PowerEdge R720 Server hinzugefügt werden. In diesem Blog, werden wir die Leistungs- und Verbrauchsergebnisse einer GPU-beschleunigten HPL an einem Single-Node Poweredge R720 mit K20 und K40 präsentieren und vergleichen.

Abbildung 1: HPL Leistung und Effizienz an einer Single-Node. Darstellung der Ergebnisse verschiedener GPUs.

Abbildung 1 stellt die Leistung der HPL an Single-Node R720 mit verschiedenen GPUs dar. Verglichen zu einer Konfiguration mit CPU-only, erreicht die K40 GPU Konfiguration eine Beschleunigung von 6,2X und die K20 GPU Konfiguration erreicht eine Beschleunigung von 5,1X. Desweiteren ist die HPL Effizienz etwas höher bei der K40 (79,9%) im Vergleich zur K20 (79,1%). Nachfolgend, wird in Abbildung 2 das Ergebnis der Stromeffizenz bei HPL dargestellt. Wie aufgeführt, die Stromeffizienz, das heißt die erreichte Arbeit für jede Wattstunde an verbrauchter Energie, steigert sich durch Hinzufügen der GPUs. Mit zwei Kepler GPUs, steigt die Stromeffizenz um das bis zu 3,7X, verglichen zu CPU-only Konfigurationen.

Abbilung 2: Gesamtleistung und Stromeffizienz des Eight-Node Cluster.


Zusammengefasst, erstens steigert die Verwendung von GPUs substanziell die Beschleunigung von HPL. Wie in Abbilung 1 dargestellt, leistet die CPU-only Konfiguration um die 419 GFLOPs kontinuierlicher Leistung. Beim Hinzufügen von K40m GPUs steigert sich die kontinuierliche Leistung auf rund 2600 GFLOPs. Zweitens, die Verwendung von GPUs verbessert auch die Leistungs-Verbrauch-Rate. Der Stromverbauch steigt zwar durch die GPUS, aber nicht so stark wie die zugehörige Leistungsverbesserung. Wie in Abbildung 2 dargestellt, verbraucht eine CPU-only Konfiguration ungefähr 505 Watt und leistet 0,83 GFLOPs/Watt. Mit K40m GPUs, steigt der Stromverbrauch auf etwa 850 Watt, aber leistet im Gegenzug 3,07 GFLOPs/Watt, was eine Leistungs-Verbrauchs-Steigerung von ca. 250% bedeutet.

Eine der signifikanten Änderungn von K20 zu K40 GPUs ist die Bandbreitenverbesserung von PCIe Gen 2 zu PCIe Gen 3. Beim Vergleich der host-to-device und der device-to-host Bandbreite, sehen wir bei host-to-device Bandbreiten eine 74%ige Steigerung und bei device-to-host Bandbreiten, eine 56%ige Steigerung. Bei der device-to-device Bandbreite wird eine 40%ige Steigerung erreicht (203 GB/s für K40 und 145 GB/s für K20). Einen detaillierteren Vergleich finden sie nachfolgend in Abbildung 3.

Abbildung 3: K20/K40 GPUs host-to-device (H2D) und device-to-host (D2H) Brandbreiten-Vergleich.

 

Konfigurationen

Original Artikel von Mayura Deshmukh und Saeed Iqbal

Übersetzt durch Florian Steinau