Badania architektur superkomputerowych o niskim poborze mocy

Transkrypt

Badania architektur superkomputerowych o niskim poborze mocy
Badania architektur
superkomputerowych o
niskim poborze mocy
Radosław Januszewski
Marcin Pospieszny
Poznań Supercomputing and Networking Center
motywacja
Roadrunner
Jaguar
129600 rdzeni IBM Cell /
AMD Opteron
150152 rdzeni AMD Opteron
klaster Nehalem
26304 rdzeni Nehalem
wydajność
1600
1400
1200
1000
800
600
400
200
0
RoadRunner
Jaguar
wydajnoćś teoretyczna
Juropa
wydajność Linpack
pobór mocy
8000
7000
6000
5000
4000
power (kW)
3000
2000
1000
0
Roadrunner (1)
Jaguar (2)
Nehalem cluster (11)
Stosunek
moc/wydajność
700
600
500
400
300
200
100
0
RoadRunner
Jaguar
moc/wydajność
moc/wydajność teoretyczna
Juropa
Część 1
serwery x86
Pobór mocy – róŜne
maszyny
1200
1000
800
OS only
full load
600
400
200
0
Xeon E5160 (2x2 cores)
1U (Itanium 2)
Xeon E5410 (2x4cores blade) internal
Xeon E5345 (2x4cores)
Xeon E5410 (2x4cores blade) *
Tesla
ClearSpeed
środowisko testowe
dystrybucja mocy Xeon
53xx
Nie moŜna wy świetlić obrazu. Na k omputerze moŜe brak ować pamięci do otwarcia obrazu lub obraz moŜe by ć uszk odzony . Uruchom ponownie k omputer, a następnie otwórz plik ponownie. Jeśli czerwony znak x nadal będzie wy świetlany , k onieczne moŜe by ć usunięcie obrazu, a następnie ponowne wstawienie go.
pobór mocy – AMD
Istanbul (blade)
Power (W)
CPUs
HT3 Links
Memory
IB HCAs
PS
IB Switch
Fans
GigE Switch
Motherboards
CMM
Pobór mocy - cell
Część 2
akcelaratory
Moc / wydajność
teoretyczna
stosunek moc / teoretyczna wydajność
6
5
4
moc/wydajnosc (single)
moc/wydajnosc (double)
3
2
1
0
tesla
xeon
clearspeed
Nvidia Tesla
240 rdzeni
1,3GHz
Maksymalna moc 185 W
Wydajność teoretyczna
−
−
930 Gflops (single)
78 Gfops (double)
Tesla – syntetyczne testy
Tesla – wyniki (s)
NAMD
900
800
700
600
500
CPU
CPU+GPU
400
300
200
100
0
2
4
8
Tesla – pobór mocy
(NAMD)
1200
1000
800
OS only
full load
600
400
200
0
1U (Itanium 2)
Xeon E5160 (2x2 cores)
Xeon E5410 (2x4cores blade) internal
Xeon E5345 (2x4cores)
Xeon E5410 (2x4cores blade) *
Tesla
ClearSpeed
Clearspeed e620
96 rdzeni
210 MHz
Maksymalna moc – 30W
Maksymalna wydajność : 66 GFlops
ClearSpeed – testy
syntetyczne
ClearSpeed Execution time [s]
30,0000
25,0000
20,0000
1000
2000
3000
4000
5000
6000
15,0000
10,0000
5,0000
0,0000
GCC+Clearspeed+BLAS
ICC+MKL
ICC+CLearspeed+MKL
ClearSpeed (Gaussian)
power (W)
Power consumption [W]
1200
OS only
full load
1000
800
600
400
200
0
Xeon E5160 (2x2 cores)
1U (Itanium 2)
Xeon E5345 (2x4cores)
Blade (internal)
Blade *
Tesla
ClearSpeed
ClearSpeed – testy
(Gaussian)
ClearSpeed Gaussian test [% speedup]
0,6
0,5
0,4
0,3
Clearspeed vs 1
core
0,2
0,1
0
-0,1
best
worst
averge
Część 3
Inne rozwiązania
SiCortex 1458
243 procesory (MIPS 66Mhz)
2W
1458 rdzeni
węzły połączone siecią w
topogii grafu Kautza
1,9 TB pamięci
Wydajność 2,1 Tflops przy
zuŜyciu mniej niŜ 5kW mocy
SiCortex wyniki
SiCortex GROMACS benchmark
300
250
time [s]
200
150
100
50
0
128
256
512
cores
1024
SiCortex – wyniki
Power consumption
350
300
kW hours
250
200
150
100
50
0
SiCortex (1024 cores)
Xeon E5345 (32 cores)
niestety
ZuŜycie mocy (Wh)
45
40
35
30
25
20
15
10
5
0
Xeon 1
Xeon 2 (2x4cores)
Xeon 3 (2x4cores blade)
Itanium 2 (1 core, 2CPU)
Cell
Nvidia server
tesla+server
Wnioski - sprzęt
Klastry X86 są nieefektywne energetycznie
Są lepsze rozwiązania!
MPP?
Akceleratory?
Power 7, Cell
Wnioski oprogramowanie
oprogramowanie jest kluczowe!
−
−
Stare programy muszą odejść! :)
Nie będzie szybszych procesorów, tylko więcej!
Nowe narzędzia programowania?
Projektowanie z myślą o równoległym i/lub rozproszonym
przetwarzaniu
Przenoszenie kodu –
nakład pracy
Dziękuję za uwagę