NeuroVoice - Synteza i analiza mowy

Transkrypt

NeuroVoice - Synteza i analiza mowy
NeuroVoice
Synteza i analiza mowy
Paweł Mrówka
[email protected]
Plan prezentacji
Synteza mowy - SynTalk
Wprowadzenie do syntezy konkatenacyjnej
Zastosowanie analizy językowej tekstu
MoŜliwości kształtowania prozodii
Wyszukiwanie w zasobach audio projekt
Videoscope
Cel: znajdźmy „zamroŜone” informacje
Sztuczna
Inteligencja - innowacyjne rozwiązania
Zastosowanie
rozpoznawania
mowy
2
Synteza konkatenacyjna
Metoda – budowanie mowy z „cegiełek”
Skompletowanie bazy fragmentów mowy
Stosujemy difony
(fragmenty będące przejściami między fonemami)
Wyodrębnienie difonów z nagrań – proces
półautomatyczny
x(t)
_+m
m
o
m
o
t
Sztuczna Inteligencja - innowacyjne rozwiązania
m+o
3
Synteza konkatenacyjna
Skompletowanie bazy fragmentów mowy c.d.
x(t)
w
o
w
o
o+w
t
x(t)
w+a
w
a
w
a
t
baza difonów
a+_
Sztuczna Inteligencja - innowacyjne rozwiązania
4
Synteza konkatenacyjna
Łączenie difonów w zadaną wypowiedź
+
+
_+m
m+o
+
+
o+w
w+a
a+_
x(t)
=
m
o
w
a
Sztuczna Inteligencja - innowacyjne rozwiązania
t
5
Schemat blokowy SynTalka
tekst
Normalizacja
Konwersja
fonetyczna
DSP
Wyznaczanie
prozodii
Baza difonów
sygnał
mowy
Normalizacja
Wejście:
tekst
Wyjście:
tekst znormalizowany + informacje dodatkowe
„3 maja byliśmy w lesie.”
typ zdania: oznajmujące
treść: trzeciego maja byliśmy w lesie
waŜność wyrazów: 0, +2 , 0, -1, -1
Sztuczna Inteligencja - innowacyjne rozwiązania
6
Schemat blokowy SynTalka
tekst
Normalizacja
Konwersja
fonetyczna
DSP
Wyznaczanie
prozodii
Baza difonów
sygnał
mowy
Konwersja fonetyczna
Wejście:
treść zdania
Wyjście:
ciąg difonów
„trzeciego maja byliśmy w lesie”
_+t t+sz sz+e e+. ci+e e+g g+o o+m m+a a+j j+a a+b
b+y y+l l+i i+si si+m m+y y+w w+l l+e e+si si+e e+_
Sztuczna Inteligencja - innowacyjne rozwiązania
7
Schemat blokowy SynTalka
tekst
Normalizacja
Konwersja
fonetyczna
DSP
Wyznaczanie
prozodii
Baza difonów
sygnał
mowy
Wyznaczanie prozodii
Wejście:
ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o (...)
treść zdania: trzeciego maja byliśmy w lesie
typ zdania: oznajmujące
waŜność wyrazów: 0, +2 , 0, -1, -1
Wyjście:
czasy trwania głosek (akcenty iloczasowe)
kontur intonacyjny (akcenty toniczne, akcenty logiczne zdania)
Sztuczna Inteligencja - innowacyjne rozwiązania
8
Schemat blokowy SynTalka
tekst
Normalizacja
Konwersja
fonetyczna
DSP
Wyznaczanie
prozodii
Baza difonów
sygnał
mowy
DSP – cyfrowe przetwarzanie sygnałów
Wejście:
ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o (...)
czasy trwania głosek
kontur intonacyjny
Wyjście:
próbki sygnału mowy (odtworzenie, zapis do pliku...)
Sztuczna Inteligencja - innowacyjne rozwiązania
9
Analiza językowa
Zastosowanie gramatycznej analizy tekstu w
procesie normalizacji
Odczytywanie skrótów, liczb, dat itp.
z ich odmianą
Wyznaczanie logicznych akcentów wyrazowych
Elementy wielojęzyczności
Sztuczna Inteligencja - innowacyjne rozwiązania
10
Elastyczna prozodia
Sterowanie przez uŜytkownika procesem
generowania prozodii
Personalizacja syntezatora
RóŜne głosy
Personalizacja syntezatora, czytanie z podziałem na
role, synteza własnym głosem
Transplantacja prozodii
Przykładowe zastosowania: ksiąŜki elektroniczne,
systemy dialogowe...
Sztuczna Inteligencja - innowacyjne rozwiązania
11
SynTalk - podsumowanie
DuŜe moŜliwości, małe wymagania:
Plik bazy difonów dla jednego głosu –
ok. 2.5 MB
Zapotrzebowanie na pamięć RAM: 8 - 10 MB
MoŜliwość implementacji w urządzeniach
przenośnych, systemach wbudowanych
MoŜliwość implementacji w architekturze typu
serwer – lekki klient
Sztuczna Inteligencja - innowacyjne rozwiązania
12
Projekt Videoscope
Cel: przeszukiwanie zasobów audiowizualnych
Ogromny zasób informacji – archiwalne programy
radiowe, telewizyjne, dokumentacja audiowizualna
obrad Sejmu...
Obecnie poza zasięgiem wyszukiwarek – informacja
„zamroŜona”
Sztuczna Inteligencja - innowacyjne rozwiązania
13
Projekt Videoscope
Schemat systemu - przygotowanie
Synchronizacja i
weryfikacja
transkrypcji
tekstowych
Repozytorium
audio-wideo
„lekkie”
automatyczne
rozpoznawanie
mowy
Transkrypcje
tekstowe
„Lekkie” rozpoznawanie mowy –
wyszukiwanie fragmentów zapisu audio zawierających zadaną w postaci
ortograficznej (przybliŜoną) treść.
Sztuczna Inteligencja - innowacyjne rozwiązania
14
Projekt Videoscope
Schemat systemu - wyszukiwanie
zapytanie
tekstowe
Analiza
zapytania
tekstowego
(Neuroscope)
Znana
transkrypcja
tekstowa
zapytanie
znormalizowane
Wyszukanie
fragmentów
audiowizualnych
Repozytorium
audio-wideo
Transkrypcje
tekstowe
Sztuczna Inteligencja - innowacyjne rozwiązania
prezentacja
wyników
„lekkie”
automatyczne
rozpoznawanie
mowy
15
Projekt Videoscope
Schemat systemu - wyszukiwanie
zapytanie
tekstowe
Analiza
zapytania
tekstowego
(Neuroscope)
Nieznana
transkrypcja
tekstowa
zapytanie
znormalizowane
Wyszukanie
fragmentów
audiowizualnych
Repozytorium
audio-wideo
Transkrypcje
tekstowe
Sztuczna Inteligencja - innowacyjne rozwiązania
prezentacja
wyników
„lekkie”
automatyczne
rozpoznawanie
mowy
16
Projekt Videoscope
Zastosowanie algorytmów rozpoznawania
mowy w procesach:
Automatycznej weryfikacji transkrypcji tekstowej
oraz jej synchronizacji czasowej z zapisem
audiowizualnym
Wyszukiwania w zasobach audiowizualnych przy
nieznanej ich transkrypcji tekstowej
Sztuczna Inteligencja - innowacyjne rozwiązania
17
Dziękuję za uwagę!
Sztuczna Inteligencja - innowacyjne rozwiązania
18