Badania architektur superkomputerowych o niskim poborze mocy
Transkrypt
Badania architektur superkomputerowych o niskim poborze mocy
Badania architektur superkomputerowych o niskim poborze mocy Radosław Januszewski Marcin Pospieszny Poznań Supercomputing and Networking Center motywacja Roadrunner Jaguar 129600 rdzeni IBM Cell / AMD Opteron 150152 rdzeni AMD Opteron klaster Nehalem 26304 rdzeni Nehalem wydajność 1600 1400 1200 1000 800 600 400 200 0 RoadRunner Jaguar wydajnoćś teoretyczna Juropa wydajność Linpack pobór mocy 8000 7000 6000 5000 4000 power (kW) 3000 2000 1000 0 Roadrunner (1) Jaguar (2) Nehalem cluster (11) Stosunek moc/wydajność 700 600 500 400 300 200 100 0 RoadRunner Jaguar moc/wydajność moc/wydajność teoretyczna Juropa Część 1 serwery x86 Pobór mocy – róŜne maszyny 1200 1000 800 OS only full load 600 400 200 0 Xeon E5160 (2x2 cores) 1U (Itanium 2) Xeon E5410 (2x4cores blade) internal Xeon E5345 (2x4cores) Xeon E5410 (2x4cores blade) * Tesla ClearSpeed środowisko testowe dystrybucja mocy Xeon 53xx Nie moŜna wy świetlić obrazu. Na k omputerze moŜe brak ować pamięci do otwarcia obrazu lub obraz moŜe by ć uszk odzony . Uruchom ponownie k omputer, a następnie otwórz plik ponownie. Jeśli czerwony znak x nadal będzie wy świetlany , k onieczne moŜe by ć usunięcie obrazu, a następnie ponowne wstawienie go. pobór mocy – AMD Istanbul (blade) Power (W) CPUs HT3 Links Memory IB HCAs PS IB Switch Fans GigE Switch Motherboards CMM Pobór mocy - cell Część 2 akcelaratory Moc / wydajność teoretyczna stosunek moc / teoretyczna wydajność 6 5 4 moc/wydajnosc (single) moc/wydajnosc (double) 3 2 1 0 tesla xeon clearspeed Nvidia Tesla 240 rdzeni 1,3GHz Maksymalna moc 185 W Wydajność teoretyczna − − 930 Gflops (single) 78 Gfops (double) Tesla – syntetyczne testy Tesla – wyniki (s) NAMD 900 800 700 600 500 CPU CPU+GPU 400 300 200 100 0 2 4 8 Tesla – pobór mocy (NAMD) 1200 1000 800 OS only full load 600 400 200 0 1U (Itanium 2) Xeon E5160 (2x2 cores) Xeon E5410 (2x4cores blade) internal Xeon E5345 (2x4cores) Xeon E5410 (2x4cores blade) * Tesla ClearSpeed Clearspeed e620 96 rdzeni 210 MHz Maksymalna moc – 30W Maksymalna wydajność : 66 GFlops ClearSpeed – testy syntetyczne ClearSpeed Execution time [s] 30,0000 25,0000 20,0000 1000 2000 3000 4000 5000 6000 15,0000 10,0000 5,0000 0,0000 GCC+Clearspeed+BLAS ICC+MKL ICC+CLearspeed+MKL ClearSpeed (Gaussian) power (W) Power consumption [W] 1200 OS only full load 1000 800 600 400 200 0 Xeon E5160 (2x2 cores) 1U (Itanium 2) Xeon E5345 (2x4cores) Blade (internal) Blade * Tesla ClearSpeed ClearSpeed – testy (Gaussian) ClearSpeed Gaussian test [% speedup] 0,6 0,5 0,4 0,3 Clearspeed vs 1 core 0,2 0,1 0 -0,1 best worst averge Część 3 Inne rozwiązania SiCortex 1458 243 procesory (MIPS 66Mhz) 2W 1458 rdzeni węzły połączone siecią w topogii grafu Kautza 1,9 TB pamięci Wydajność 2,1 Tflops przy zuŜyciu mniej niŜ 5kW mocy SiCortex wyniki SiCortex GROMACS benchmark 300 250 time [s] 200 150 100 50 0 128 256 512 cores 1024 SiCortex – wyniki Power consumption 350 300 kW hours 250 200 150 100 50 0 SiCortex (1024 cores) Xeon E5345 (32 cores) niestety ZuŜycie mocy (Wh) 45 40 35 30 25 20 15 10 5 0 Xeon 1 Xeon 2 (2x4cores) Xeon 3 (2x4cores blade) Itanium 2 (1 core, 2CPU) Cell Nvidia server tesla+server Wnioski - sprzęt Klastry X86 są nieefektywne energetycznie Są lepsze rozwiązania! MPP? Akceleratory? Power 7, Cell Wnioski oprogramowanie oprogramowanie jest kluczowe! − − Stare programy muszą odejść! :) Nie będzie szybszych procesorów, tylko więcej! Nowe narzędzia programowania? Projektowanie z myślą o równoległym i/lub rozproszonym przetwarzaniu Przenoszenie kodu – nakład pracy Dziękuję za uwagę