NeuroVoice - Synteza i analiza mowy
Transkrypt
NeuroVoice - Synteza i analiza mowy
NeuroVoice Synteza i analiza mowy Paweł Mrówka [email protected] Plan prezentacji Synteza mowy - SynTalk Wprowadzenie do syntezy konkatenacyjnej Zastosowanie analizy językowej tekstu MoŜliwości kształtowania prozodii Wyszukiwanie w zasobach audio projekt Videoscope Cel: znajdźmy „zamroŜone” informacje Sztuczna Inteligencja - innowacyjne rozwiązania Zastosowanie rozpoznawania mowy 2 Synteza konkatenacyjna Metoda – budowanie mowy z „cegiełek” Skompletowanie bazy fragmentów mowy Stosujemy difony (fragmenty będące przejściami między fonemami) Wyodrębnienie difonów z nagrań – proces półautomatyczny x(t) _+m m o m o t Sztuczna Inteligencja - innowacyjne rozwiązania m+o 3 Synteza konkatenacyjna Skompletowanie bazy fragmentów mowy c.d. x(t) w o w o o+w t x(t) w+a w a w a t baza difonów a+_ Sztuczna Inteligencja - innowacyjne rozwiązania 4 Synteza konkatenacyjna Łączenie difonów w zadaną wypowiedź + + _+m m+o + + o+w w+a a+_ x(t) = m o w a Sztuczna Inteligencja - innowacyjne rozwiązania t 5 Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP Wyznaczanie prozodii Baza difonów sygnał mowy Normalizacja Wejście: tekst Wyjście: tekst znormalizowany + informacje dodatkowe „3 maja byliśmy w lesie.” typ zdania: oznajmujące treść: trzeciego maja byliśmy w lesie waŜność wyrazów: 0, +2 , 0, -1, -1 Sztuczna Inteligencja - innowacyjne rozwiązania 6 Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP Wyznaczanie prozodii Baza difonów sygnał mowy Konwersja fonetyczna Wejście: treść zdania Wyjście: ciąg difonów „trzeciego maja byliśmy w lesie” _+t t+sz sz+e e+. ci+e e+g g+o o+m m+a a+j j+a a+b b+y y+l l+i i+si si+m m+y y+w w+l l+e e+si si+e e+_ Sztuczna Inteligencja - innowacyjne rozwiązania 7 Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP Wyznaczanie prozodii Baza difonów sygnał mowy Wyznaczanie prozodii Wejście: ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o (...) treść zdania: trzeciego maja byliśmy w lesie typ zdania: oznajmujące waŜność wyrazów: 0, +2 , 0, -1, -1 Wyjście: czasy trwania głosek (akcenty iloczasowe) kontur intonacyjny (akcenty toniczne, akcenty logiczne zdania) Sztuczna Inteligencja - innowacyjne rozwiązania 8 Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP Wyznaczanie prozodii Baza difonów sygnał mowy DSP – cyfrowe przetwarzanie sygnałów Wejście: ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o (...) czasy trwania głosek kontur intonacyjny Wyjście: próbki sygnału mowy (odtworzenie, zapis do pliku...) Sztuczna Inteligencja - innowacyjne rozwiązania 9 Analiza językowa Zastosowanie gramatycznej analizy tekstu w procesie normalizacji Odczytywanie skrótów, liczb, dat itp. z ich odmianą Wyznaczanie logicznych akcentów wyrazowych Elementy wielojęzyczności Sztuczna Inteligencja - innowacyjne rozwiązania 10 Elastyczna prozodia Sterowanie przez uŜytkownika procesem generowania prozodii Personalizacja syntezatora RóŜne głosy Personalizacja syntezatora, czytanie z podziałem na role, synteza własnym głosem Transplantacja prozodii Przykładowe zastosowania: ksiąŜki elektroniczne, systemy dialogowe... Sztuczna Inteligencja - innowacyjne rozwiązania 11 SynTalk - podsumowanie DuŜe moŜliwości, małe wymagania: Plik bazy difonów dla jednego głosu – ok. 2.5 MB Zapotrzebowanie na pamięć RAM: 8 - 10 MB MoŜliwość implementacji w urządzeniach przenośnych, systemach wbudowanych MoŜliwość implementacji w architekturze typu serwer – lekki klient Sztuczna Inteligencja - innowacyjne rozwiązania 12 Projekt Videoscope Cel: przeszukiwanie zasobów audiowizualnych Ogromny zasób informacji – archiwalne programy radiowe, telewizyjne, dokumentacja audiowizualna obrad Sejmu... Obecnie poza zasięgiem wyszukiwarek – informacja „zamroŜona” Sztuczna Inteligencja - innowacyjne rozwiązania 13 Projekt Videoscope Schemat systemu - przygotowanie Synchronizacja i weryfikacja transkrypcji tekstowych Repozytorium audio-wideo „lekkie” automatyczne rozpoznawanie mowy Transkrypcje tekstowe „Lekkie” rozpoznawanie mowy – wyszukiwanie fragmentów zapisu audio zawierających zadaną w postaci ortograficznej (przybliŜoną) treść. Sztuczna Inteligencja - innowacyjne rozwiązania 14 Projekt Videoscope Schemat systemu - wyszukiwanie zapytanie tekstowe Analiza zapytania tekstowego (Neuroscope) Znana transkrypcja tekstowa zapytanie znormalizowane Wyszukanie fragmentów audiowizualnych Repozytorium audio-wideo Transkrypcje tekstowe Sztuczna Inteligencja - innowacyjne rozwiązania prezentacja wyników „lekkie” automatyczne rozpoznawanie mowy 15 Projekt Videoscope Schemat systemu - wyszukiwanie zapytanie tekstowe Analiza zapytania tekstowego (Neuroscope) Nieznana transkrypcja tekstowa zapytanie znormalizowane Wyszukanie fragmentów audiowizualnych Repozytorium audio-wideo Transkrypcje tekstowe Sztuczna Inteligencja - innowacyjne rozwiązania prezentacja wyników „lekkie” automatyczne rozpoznawanie mowy 16 Projekt Videoscope Zastosowanie algorytmów rozpoznawania mowy w procesach: Automatycznej weryfikacji transkrypcji tekstowej oraz jej synchronizacji czasowej z zapisem audiowizualnym Wyszukiwania w zasobach audiowizualnych przy nieznanej ich transkrypcji tekstowej Sztuczna Inteligencja - innowacyjne rozwiązania 17 Dziękuję za uwagę! Sztuczna Inteligencja - innowacyjne rozwiązania 18