Sumatory RCA, CLA, CSLA, CSKA, CSA

Transkrypt

Architektura komputerów, Informatyka, sem.III
Sumatory
Architektury sumatorów (zarys)
Half Adder
HA
Sumatory
1-bitowe
Full Adder
FA
CSKA
CSLA
Sumatory z propagacją
Przeniesień – CPA
(Carry Propagate Adders)
RCA
CLA
3-argumentowe
Sumatory
wieloargumentowe
Bit Counter
(m,k)
Macierz
sumatorów
CSA
Drzewo
sumatorów
Sumator z przeniesieniami szeregowymi
RCA – Ripple Carry Adder (zwany też kaskadowym)
Najprostszym i najmniejszy, ale najwolniejszy
Szybkość (w najgorszym przypadku): Θ(k)
ak-1 bk-1
ck
FA
a1 b1
FA
rn-1
k - cyfr
a0 b0
FA
c1 FA
r1
r0
c0
RCA – implementacja bitowo-szeregowa
Zalety (dla implementacji VLSI)
mała liczba wyprowadzeń
krótkie połączenia
duża szybkość zegara
mała powierzchnia
Bit-serial RCA
shift
X
shift
Y
niski pobór mocy
Dobrze nadaje się do
przetwarzania potokowego
Szybkość bez zmian: Θ(k)
c
FA
shift
X+Y
Sumator z przeniesieniami równoległymi
CLA - Carry Lookahead Adder
Dodatkowe układy logiki obliczania przeniesień
Szybkość (w najgorszym przypadku): Θ(log k)
a1 b1
4FA
4FA
4FA
LA
LA
LA
c4 FA
c3 FA
c2 FA
a0 b0
c1
FA
LA Logic - 1st level
LA Logic - 2nd level
k - cyfr
r1
r0
c0
Sumator z wyborem przeniesienia
CSLA – Carry Select Adder
Najstarsza architektura o szybkości Θ(log k)
Dla kilku fragmentów argumentów obliczane są
równolegle dwie wersje wyniku: dla przeniesień 0 i 1
Końcowy wynik jest wybierany z gotowych alternatyw
na podstawie obliczonych przeniesień
Prosta koncepcja – skomplikowany sprzęt
1
0
1
0
1
0
c0
Jednopoziomowy sumator CSLA
k−1
½k
0
k/2 RCA
k−1
0
k/2 RCA
½k
1
k/2 RCA
½k−1
k/2
+cout
k/2
+cout
Multiplexer magistral
2→1
ck/2
k/2
k/2
+cout
cout + k/2 bardziej
znaczacych bitów wyniku
k/2 mniej znaczących
bitów wyniku
c0
Propagacja w jednopoziomowym CSLA
Architektura jednopoziomowa nie może być
skalowana na dużą liczbę bloków ze względu na
propagację sygnału pomiędzy blokami
k-1
¾k
1
k/4 RCA
k/4 RCA
0
¾k-1
½k
1
k/4 RCA
0
k/4 RCA
c3k/4
½k-1
¼k ¼k-1
1
k/4 RCA
k/4 RCA
ck/2
0
0
k/4 RCA
ck/4
ck
Res. k-1...¾k
¾k-1...½k
½k-1...¼k
¼k-1...0
c0
Dwupoziomowy sumator CSLA
Wybór na drugim poziomie dotyczy dwukrotnie
dłuższego fragmentu wyniku
Koncepcja może być rozszerzana na większą liczbę
poziomów, ale wzrasta złożoność sprzętu
k-1
¾k
k/4 RCA 1
k/4 RCA 0
c3k/4
¾k-1
½k
k/4 RCA 1
k/4 RCA 0
½k-1
¼k
k/4 RCA 1
k/4 RCA 0
c3k/4
¼k-1
k/4 RCA c0
ck/4
ck/2
ck
Result k-1...½k
½k-1...¼k
0
¼k-1...0
CSKA – Carry Skip Adder
Przeniesienia mogą być propagowane (p=1),
generowane (g=1) lub absorbowane (p*g=0)
Zezwolenie na przeskok przeniesienia ponad blokami
z p=1 skraca ciągi propagacji przeniesienia
FA
najgorszy przypadek
przykładowe
propagacje
przeniesienia
Sumator z przeskokiem przeniesień
Blok przeskoku przeniesienia
Przeniesienie
jest przyspieszane
dla grupy sumatorów
z warunkiem p=1
ci +1
FA
FA
FA
FA
p = pi*pi+1*pi+2*pi+3
Obliczanie warunku
przeniesienia jest
proste: pi=ai+bi
4-bit RCA
p
Carry skip
ci
Analiza najgorszego przypadku CSKA
16-bitowy sumator CSKA
Najdłuższa ścieżka propagacji przeniesienia:
propagacja przez bity 1-3 (i bramkę OR)
przeskok przez bity 4-11
propagacja przez bity 12-14
4-bit RCA
p
c16
Carry skip
4-bit RCA
p
c12
Carry skip
4-bit RCA
p
c8
Carry skip
4-bit RCA
p
c4
Carry skip
najgorszy przypadek
propagacja
przeskok
propagacja
c0
Architektura sumatora CSKA
Bloki przeskoku przeniesień mogą mieć:
stałą długość b
Adder
Adder
Adder
Adder
Adder
Adder
Adder
Adder
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
b
...
...
b
b
b
zmienną długość (t – liczba bloków)
Adder
Adder
Adder
Adder
Adder
Adder
Adder
Adder
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
b
b+1
...
b+t/2-1
b+t/2-1
...
b+1
b
Wydajność sumatora CSKA
Opóźnienie (T) ze względu na propagację dla
sumatora CSKA o długości bloku b:
dla bloków o stałej długości:
●
bopt = (k/2)1/2
●
TfixCSKA-opt= 2(2k)1/2 − 3.5
dla bloków o zmiennej długości:
●
bopt = 1
●
TvarCSKA-opt= 2 k1/2 − 2.5
Wydajność sumatora CSKA
Przykłady (przy założeniu jednostkowego opóźnienia dla FA):
dla bloków o stałej długości:
16-bitowy sumator → bopt ≈ 3, TfixCSKA≈ 8
32-bitowy sumator → bopt = 4, TfixCSKA= 12.5
64-bitowy sumator → bopt ≈ 6, TfixCSKA≈ 19
dla t-bloków o zmiennej długości (bopt= 1):
16-bit adder → topt = 8, TfixCSKA≈ 5.5
e.g. 32-bit adder → topt ≈ 12, TfixCSKA≈ 9
e.g. 64-bit adder → topt = 16, TfixCSKA≈ 13.5
Wielopoziomowe sumatory CSKA
Sprzęt pierwszego poziom przeskoku otrzymuje dane
z sumatorów, drugi poziom z pierwszego, itd.
Przeskok przeniesienia może odbywać się na
znacznie dłuższych dystansach, co skraca opóźnienie
dla najgorszego przypadku
Adder
Adder
Adder
Adder
Adder
Adder
Adder
Adder
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Skip
Architektury hybrydowe
Przykład: CSLA + CLA + CSKA
CL Logic
CSKA
CSKA 0
1
CSKA
CSKA
0
1
CSKA
CSKA 0
1
CSKA
Dodawanie bez propagacji przeniesienia
Dodawanie bez przeniesienia (carry-free) jest możliwe
przy przejściu do redundantnych systemów
liczbowych, z poszerzonym zestawem cyfr
Operacje na wszystkich cyfrach są wykonywane
całkowicie równolegle – szybkość: Θ(1)
+
1
4
5
2
5
7
3 4 5 6
6 7 8 9
9 11 13 15
radix-10, zestaw cyfr [0,9]
Konwersja w systemach redundantnych
Konwersja z notacji redundantnej do normalnej
wymaga propagacji przeniesienia
Szybkość: Θ(k)
11 9
11 9
11 9
11 9
11 9
11 10
12 0
1 2 0
17
17
17
17
18
8
8
8
10 12 18
10 12 18
10 13 8
11 3 8
1 3 8
1 3 8
1 3 8
1 3 8
18 = 10+8
13 = 10+3
11 = 10+1
18 = 10+8
10 = 10+0
12 = 10+2
Reprezentacja liczb redundantnych
Liczby redundantne mogą być wygodnie
reprezentowane jako dwie liczby nieredundantne
Dekmpozycja nie jest jednoznaczna, ale wartość
całości jest jednoznaczna
Konwersja liczby redundatnej wymaga po prostu
dodania obu składników
11
9
+
2
1 2
+
0
0
0
1
9 17 10 12 18
9 9 9 9 9
0 8 1 3 9
0 8 1 3 8
radix-10,
radix-10,
radix-10,
radix-10,
1
0
1
0
radix-2,
radix-2,
radix-2,
radix-2,
2
1
1
0
1
0
1
1
1
0
1
1
1
1
0
1
zestaw cyfr [0,18]
zestaw cyfr [0,9]
zestaw cyfr [0,9]
zestaw cyfr [0,9]
zestaw cyfr [0,2]
zestaw cyfr [0,1]
zestaw cyfr [0,1]
zestaw cyfr [0,1]
Ograniczona propagacja przeniesienia
W systemach redundantnych, oprerandy i wynik mogą
mieć ten sam zestaw cyfr
Mozliwa jest redukcja sum pośrednich za pomocą
przeniesień, ograniczonych tylko do jednej pozycji w
przód (limited-carry) – szybkość: Θ(1)
+
1
1
11 9 17 10 12 18
6 12 9 10 8 18
17 21 26 20 20 36
7 11 16
0 10 16
Cyfry pozycyjne [0,16]
1 1 2
8 12 18
1 2
1 12 16
Cyfry przeniesień [0,2]
Wynik końcowy (suma) [0,18]
Realizacja ograniczonej propagacji
Limited-carry w systemie dwójkowym
Wielokrotne dodawanie liczb: [0,2] + [0,1] → [0,2]
+
0
+
0
1
0
0
0
1
1
2
2
1
3
1
1
2
1
0
1
1
1
2
0
0
1
0
1
0
1
1
0
1
1
1
0
1
1
2
1
3
0
0
0
0
1
2
1
3
0
0
1
1
1
1
1
0
1
1
0
1
1
2
0
1
1
1
0
1
1
0
0
1
1
1
1
Konwersja do NKB
Końcowy wynik dodawania (NKB)
Sumator z zachowaniem przeniesień
Liczby redundantne [0,2] przechowywane są w
postaci dwóch liczb NKB: pozycyjnej i przeniesień
Elementem wykonującym dekompozycję liczby [0,3]
→ [0,1] + [0,1] jest pełny sumator (FA) w układzie
CSA (Carry-Save Adder)
+
0
0
0
0
1
1
2
2
1
3
1
1
2
1
0
1
1
1
2
xi
[0,2]
x [0,2]
y [0,1]
[0,3]
0
0
1
0
1
0
[0,1]
1
1
1
1
1
2
0
0
1
2
0
0
[0,1]
s [0,2]
a
cout
do pozycji
i+1
yi
[0,1]
b
FA
cin
c
ve
a
-s
y
r
ar
si
[0,2]
z pozycji i-1
Sumator CSA
Dodaje 3 liczby w NKB i daje w wyniku 2 liczby NKB
Szybkość: Θ(1)
an-1 bn-1 cn-1
cout
FA
cout
an-2 bn-2 cn-2
a0
FA
cout
0
b0
FA
0
Układ redukujący 3/2
(bit-counter 3/2)
CSA
c0
Sumatory wieloargumentowe
Zastosowania: mnożenie, operacje na wektorach i
macierzach
● ● ● ● x
● ● ● ● y
------● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ●
--------------● ● ● ● ● ● ● ● x*y
● ● ● ● x
● ● ● ● y
------● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
--------------● ● ● ● ● ● ● ● x*y
Dodawanie n-liczb k-bitowych daje wynik k+log2n bitowy
Szybkość działania: Θ(n log k)
Akumulator wyniku
Implemetacja szeregowa
n-liczb
k-bitowych
Sumator
Θ(log k)
Rejestr
przesuwny
k+log n bitów
Drzewo sumatorów typu CPA (2/1)
Każdy sumator typu CPA redukuje liczbę operandów
Dla n-liczb wymagane jest n-1 sumatorow (dużo!)
Szybkość: Θ(k+log n) dla sumatorów RCA
n-liczb k-bitowych
RCA
RCA
RCA
k+1
k+1
k+1
RCA
RCA
k+2
k+2
RCA
k+log n bitowy wynik
Drzewo sumatorów typu CSA (3/2)
Sumatory CSA redukują liczbę argumentów do dwóch
Szybkność działania sumatora CSA wynosi Θ(1)
Szybkość całego drzewa: Θ(log n + log k)
n-liczb k-bitowych
CSA
CSA
CSA
Na końcu wymagany
jest reduktor CPA 2/1
o szybkości Θ(log k)
CSA
CSA
CPA

Sumatory RCA, CLA, CSLA, CSKA, CSA

Transkrypt

Podobne dokumenty

adapter Euro - 3* RCA+SVHS z przełącznikiem

zestaw obiadowy skip hop zoo żyrafa 252213

HYUNDAI ix-35

adderlink

HIGIENISTKA STOMATOLOGICZNA - Centrum Szkół Akademickich

AdderLink Digital - IP engine per server EURO power cable