MPEG-4 - Politechnika Wrocławska

Transkrypt

MPEG-4 - Politechnika Wrocławska
MPEGMPEG-4
2. MPEGMPEG- 4 - ogó
ogólna charakterystyka
Oficjalna nazwa - Coding of Audiovisual Objects
1. Etapy rozwoju standardó
standardów MPEG
Główne zał
założenia standardu
• MPEGMPEG-1
CDCD-I, (1992)
• MPEGMPEG-2
TV, DVD, HDTV, multimedia, (1994)
• Ujednolicenie metod dostę
dostępu do ró
różnego typu usł
usług.
• MPEG -3
...
• Rozwinię
play/slow
/slow…
…,”
Rozwinięta interaktywność
interaktywność (nie tylko stop/
stop/play
ale ró
również
wnież "interakcyjny dostę
dostęp" do poszczegó
poszczególnych
obiektó
obiektów sceny).
• MPEGMPEG- 4 DTV, interaktywne aplikacje graficzne
i multimedialne
1 wersja (V.1) - 11.1998
2 wersja (V.2) ~ 2000
• Połą
czenie treś
Połączenie
treści naturalnych i sztucznie
generowanych
• Efektywna kompresja danych.
• MPEGMPEG-7 " Multimedia Content Description
Interface „ , (2001)
Jacek Jarnicki Politechnika Wrocł
Wrocławska
• Ochrona praw autorskich.
1
Jacek Jarnicki Politechnika Wrocł
Wrocławska
2
3. Ogó
Ogólna zasada dział
działania
Strona dekodera MPEG- 4
Strona kodera MPEGMPEG- 4
Obiekty (A i V), po rozkodowaniu są
są umieszczane na
scenie przez ukł
), któ
układ komponują
komponujący (Compositor
(Compositor),
który
uwzglę
uwzględnia:
"Scena audiowizualna" (Audiovisual
(Audiovisual Scene)
Scene) jest
budowana z niezależ
niezależnych obiektó
obiektów, któ
którymi mogą
mogą być
być:
• "Obiekty audio" (A)
• "Obiekty video" (V)
Oba typy obiektó
), lub
obiektów mogą
mogą być
być naturalne (Natural
(Natural),
generowane sztucznie (Syntethic
).
(Syntethic).
Poszczegó
Poszczególne obiekty i scena są
są w odpowiedni
sposó
przesyłana do
sposób kodowane i informacja jest przesył
dekodera.
Jacek Jarnicki Politechnika Wrocł
Wrocławska
• charakter obiektó
obiektów i strukturę
strukturę sceny
• wymagania wynikają
wynikające z interaktywnego
charakteru procesu
3
Jacek Jarnicki Politechnika Wrocł
Wrocławska
4
1
scena
tło
lektor
meble
…
postać
postać
głos
prezentacja
A/V
…
biurko
globus
Hierarchiczna struktura sceny z poprzedniego przykł
przykładu
Ilustracja koncepcji opisu sceny (w nadajniku) i jej rekonstrukcji
rekonstrukcji
(w odbiorniku)
Jacek Jarnicki Politechnika Wrocł
Wrocławska
Jacek Jarnicki Politechnika Wrocł
Wrocławska
5
5. Na co pozwala MPEGMPEG- 4 ?
•
Obiekty video mogą
mogą być
być generowane komputerowo np.
animowane twarze ludzkie, obiekty szkieletowe
(Meshes)
Meshes) z ruchomą
ruchomą teksturą
teksturą
•
Dźwię
więki mogą
mogą być
być generowane komputerowo np. MIDI
•
Moż
Możliwość
liwość synchronizacji grafiki i tekstu animowanego
V.1
•
•
Przesył
Przesyłanie obiektó
obiektów video z prę
prędkoś
dkością
cią
10 Kbit/s
Kbit/s - 20 Mbit/s
Mbit/s
Naturalne obiekty video mogą
mogą być
być różne np. sekwencje
video w polu prostoką
prostokąta, lub sekwencje video w polu o
dowolnym kształ
kształcie
•
Przesył
ch
Przesyłanie dź
dźwię
więku z prę
prędkoś
dkością
cią 2 Kbit/s
Kbit/s - 64 kbit/s/
kbit/s/ch
•
Jakość
Jakość realnego dź
dźwię
więku lepsza niż
niż MP3
Jacek Jarnicki Politechnika Wrocł
Wrocławska
6
V.2
7
•
Animacja twarzy ciał
ciała ludzkiego
•
Kompresja teksturowanych obiektó
obiektów szkieletowych
3-D
•
Modelowanie charakterystyki pomieszczenia dla potrzeb
dźwię
więku przestrzennego
Jacek Jarnicki Politechnika Wrocł
Wrocławska
8
2
6. Architektura systemu
6. Klasyfikacja obiektó
obiektów MPEGMPEG-4
Norma wyró
wyróżnia 4 klasy obiektó
obiektów pierwotnych:
Mesh - dwuwymiarowa tablica punktó
punktów, w któ
której każ
każdy
punkt jest opisywany wektorem, skł
składowymi wektora
mogą
mogą być
być np. kolor, przezroczystość
przezroczystość,, poł
położenie,
Chain - jednowymiarowa tablica punktó
punktów,
Light - źródło światł
wiatła (obiekt stosowany jedynie przy
komponowaniu scen 33-D),
Waveform - jednowymiarowa tablica pró
próbek sł
służąca
żąca do
tworzenia elementó
elementów pierwotnych dla źródeł
deł sygnał
sygnałów
audio.
Jacek Jarnicki Politechnika Wrocł
Wrocławska
9
Jacek Jarnicki Politechnika Wrocł
Wrocławska
10
Wszystkie inne obiekty AV są
są obiektami zł
złożonymi,
powstają
powstającymi jako hierarchiczne struktury zbudowane z
obiektó
obiektów pierwotnych lub zł
złożonych.
7. Kodowanie i dekodowanie naturalnych
obiektó
obiektów video (VOP
(VOP-- Video Object Plane)
Plane)
• Obiekty o kształ
kształcie regularnym (prostoką
(prostokątnym)
• Obiekty o dowolnym kształ
kształcie (nieregularne)
Przykł
Przykład algorytmu kodowania - obiekty o dowolnym
kształ
kształcie, kodowaniu podlegają
podlegają:
• kształ
kształt obiektu (shape
(shape))
• ruch (motion
(motion))
• tekstura (texture
(texture))
Jacek Jarnicki Politechnika Wrocł
Wrocławska
Ogó
Ogólny schemat algorytmu kodowania
11
Jacek Jarnicki Politechnika Wrocł
Wrocławska
12
3
Sposoby opisu kształ
kształtu obiektu i kodowanie kształ
kształtu
Kodowanie kształ
kształtu obiektu
Sposoby opisu kształ
kształtu
• Płaszczyzna alfa dzielona jest na bloki 16 x 16
punktó
punktów
• Maska binarna nał
nałożona na prostoką
prostokąt ograniczają
ograniczający
obiekt
• Bloki są
są dalej kodowane niezależ
niezależnie przy
pomocy drzew czwó
czwórkowych (Quadtree
(Quadtree))
• Płaszczyzna alfa (Alpha
(Alpha Plane)
Plane) - mapa bitowa,
(8 - bitó
bitów na punkt okreś
określają
lająca przezroczystość
przezroczystość
punktu (0 - nieprzezroczysty, 255 – cał
całkowicie
przezroczysty)
Kodowanie bloku 16 x16 punktó
punktów
• blok 16 x 16 punktó
punktów dzielony jest na 64 podbloki
2 x 2 punkty
• podbloki są
są numerowane wedł
według algorytmu dla
poziomu 3 drzewa czwó
czwórkowego
Jacek Jarnicki Politechnika Wrocł
Wrocławska
0
1
4
5
16 17 20 21
2
3
6
7
18 19 22 23
8
9
12 13 24 25 28 29
10 11 14 15 26 27 30 31
32 33 36 37 48 49 52 53
34 35 38 39 50 51 54 55
Jacek Jarnicki Politechnika Wrocł
Wrocławska
13
14
0
0
1
4
5
2
3
6
7
8
9
12
13
10
11
14
15
3
15
40 41 44 45 56 57 60 61
42 43 46 47 58 59 62 63
poziom 2
poziom 3
0
1
2
3
60
61
62
63
Niż
Niższy poziom powstaje z podział
podziału na cztery, blokó
bloków wyż
wyższego poziomu.
Przykł
Przykładowo:
0
Podbloki 12, 13, 14, 15 poziomu 2, uzyskano z podbloku 3 poziomu
poziomu 1.
poziom 0
poziom 1
Jacek Jarnicki Politechnika Wrocł
Wrocławska
Podbloki 60, 61, 62, 63 poziomu 3, otrzymano z podbloku 15 poziomu
poziomu 2.
15
Jacek Jarnicki Politechnika Wrocł
Wrocławska
16
4
• Jako kryterium sł
służące
żące do poszukiwania wektora
ruchu przyjmowana jest suma wartoś
wartości
bezwzglę
bezwzględnych ró
różnic nazywana SAD
(Sum of Absolute Difference).
Difference).
Kodowanie ruchu
Kodowanie ruchu odbywa się
się podobnie jak
w algorytmie MPEG -2 przy pomocy wektoró
wektorów ruchu
i kompensacji ruchu.
• SAD dla danego makrobloku jest liczona tylko gdy
odpowiedni punkt pł
płaszczyzny alfa ma wartość
wartość różną
od 0.
Wyznaczanie wektoró
wektorów ruchu
• Prostoką
Prostokąt ograniczają
ograniczający kształ
kształt obiektu jest gdy
zachodzi taka potrzeba rozszerzany (z prawej strony
i od doł
dołu), tak aby jego rozmiary był
były wielokrotnoś
wielokrotnością
cią
16 dla skł
składowej Y i 8 dla skł
składowych U i V
• Płaszczyzna alfa opisują
opisująca kształ
kształt jest też
też
odpowiednio rozszerzana a w punktach rozszerzenia
wpisywane są
są wartoś
wartości 0
Jacek Jarnicki Politechnika Wrocł
Wrocławska
Jacek Jarnicki Politechnika Wrocł
Wrocławska
17
18
W poszczegó
poszczególnych przypadkach postę
postępuje się
się
nastę
następują
pująco:
Kodowanie tekstury
• Ramki I (Intra
(Intra)) są
są kodowane przy pomocy algorytmu
JPEG osobno dla skł
składowych Y, U i V przy podziale
na bloki 8 x 8 punktó
punktów z poniż
poniższą
szą modyfikacją
modyfikacją.
• Dla obiektó
obiektów o dowolnym kształ
kształcie mogą
mogą zajść
zajść trzy
przypadki
- blok leż
leży cał
całkowicie "wewną
"wewnątrz" kształ
kształtu
- część
część bloku jest wspó
wspólna z kształ
kształtem obiektu
•
jeś
jeśli blok leż
leży cał
całkowicie "wewną
"wewnątrz" kształ
kształtu
- normalne kodowanie JPEG
•
jeś
jeśli część
część bloku jest wspó
wspólna z kształ
kształtem obiektu
- punkty, któ
które nie należą
należą do kształ
kształtu są
są zerowane
•
jeż
jeżeli blok leż
leży cał
całkowicie "na zewną
zewnątrz" kształ
kształtu to
jest pomijany
- blok leż
leży cał
całkowicie "na zewną
zewnątrz" kształ
kształtu
Jacek Jarnicki Politechnika Wrocł
Wrocławska
19
Jacek Jarnicki Politechnika Wrocł
Wrocławska
20
5
8. Dział
Działanie ukł
układu komponują
komponującego (Compositor
(Compositor))
Dekodowanie obiektu
Obiekty po zdekodowaniu i rekonstrukcji są
są
przekazywane do ukł
układu komponują
komponującego, któ
którego
zadaniem jest ich odpowiednie umieszczenie na
rekonstruowanej scenie.
Przykł
Przykład:
ad
Obiekt N jest nakł
nakładany na wcześ
wcześniej umieszczony
na scenie obiekt M, w efekcie powstaje nowy obiekt P.
M
Jacek Jarnicki Politechnika Wrocł
Wrocławska
P
Jacek Jarnicki Politechnika Wrocł
Wrocławska
21
Jak wyznaczyć
wyznaczyć tablice Y,U,V dla nowego obiektu ?
22
9. Kodowanie i animacja twarzy oraz ciał
ciała
ludzkiego
Tablice Y,U,V dla obiektu P są
są wyznaczane ze wzoru:
W normie MPEGMPEG-4 został
została zdefiniowana specyfikacja
metody opisu i animacji twarzy oraz ciał
ciała ludzkiego.
255 − N α
N
M YUV + α N YUV
255
255
PYUV =
N
gdzie
Animacja twarzy
PYUV , M YUV , N YUV
Nα
- tablice Y,U,V dla poszczegó
poszczególnych
obiektó
obiektów
•
model geometryczny twarzy (siatka wielobokó
wieloboków lub
płaty powierzchni NURBS),
•
okreś
określenie parametró
parametrów animacji i sposobu ich
kodowania,
•
reguł
reguły pozwalają
pozwalające na obliczanie deformacji modelu
geometrycznego na podstawie parametró
parametrów animacji.
- płaszczyzna alfa dla obiektu N
Przykł
Przykładowo:
N α = 0 ⇒ PYUV = M YUV
N α = 255 ⇒ PYUV = N YUV
Jacek Jarnicki Politechnika Wrocł
Wrocławska
23
Jacek Jarnicki Politechnika Wrocł
Wrocławska
24
6
Okreś
Określenie parametró
parametrów animacji
Parametry animacji twarzy FAP (Face
(Face Animation
Parameters)
Parameters) pozwalają
pozwalają na celowe deformowanie modelu
twarzy powodują
powodując odpoowiednią
odpoowiednią zmianę
zmianę w stosunku do
stanu neutralnego.
MPEGMPEG-4 okreś
określa 84 punkty charakterystyczne FAP (Face
(Face
Animation Points),
Points), któ
które pozwalają
pozwalają dalej na zdefiniowanie
odpowiednich parametró
parametrów animacji.
Twarz z przodu i z profilu
Twarz w stanie neutralnym
Jacek Jarnicki Politechnika Wrocł
Wrocławska
Jacek Jarnicki Politechnika Wrocł
Wrocławska
25
26
Punkty charakterystyczne pogrupowano i przypisano im
parametry animacji:
Group
Szczegóły elementów twarzy
Jacek Jarnicki Politechnika Wrocł
Wrocławska
Number of
FAPs
1: visemes and expressions
2
2: jaw, chin, inner lowerlip, cornerlips, midlip
16
3: eyeballs, pupils, eyelids
12
4: eyebrow
8
5: cheeks
4
6: tongue
5
7: head rotation
3
8: outer lip positions
10
9: nose
4
10: ears
4
itd.
27
Jacek Jarnicki Politechnika Wrocł
Wrocławska
28
7