PrzegląD WyBrAnych AsPektóW AnAlizy ProzoDii moWy

Transkrypt

PrzegląD WyBrAnych AsPektóW AnAlizy ProzoDii moWy
PRACE FILOLOGICZNE, tom LXVI
PF 2015 (LXVI): 271–298
Agnieszka Wagner
Jolanta Bachan
Katarzyna KLessa
Grażyna Demenko
Instytut Językoznawstwa
Uniwersytet im. Adama Mickiewicza w Poznaniu
Al. Niepodległości 4
61-874 Poznań
tel. (61) 82 93 663
e-mail: [email protected]
[email protected]
[email protected]
[email protected]
Przegląd wybranych aspektów analizy
prozodii mowy spontanicznej na potrzeby
technologii mowy1
SŁOWA KLUCZOWE: anotacja percepcyjna prozodii, automatyczne rozpoznawanie mowy
KEY WORDS: perceptual annotation of prosody, automatic speech recognition
1. Cel pracy
W pracy omówiono zagadnienia związane z opisem struktury prozodycznej
mowy spontanicznej na potrzeby technologii mowy, ze szczególnym uwzględnieniem automatycznego rozpoznawania mowy i sformułowano podstawowe
zasady anotacji prozodycznej dla języka polskiego na potrzeby automatycznej
kategoryzacji fraz prozodycznych oraz prominencji prozodycznej. Celem pracy
Badania finansowane ze środków NCBiR – projekt rozwojowy nr DOBR/0008/R/ID1/2013/03
„Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst, dedykowany dla służb odpowiedzialnych za bezpieczeństwo państwa”.
1
272
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
było również przedstawienie założeń dotyczących akustycznych korelatów prominencji i granic fraz prozodycznych na podstawie wyników najnowszych badań
prezentowanych w literaturze (w tym badań własnych autorek pracy). Ponadto omówiono wyniki wstępnej analizy spójności anotacji prozodycznej. Praca
miała również na celu przedstawienie narzędzi zaprojektowanych i zastosowanych w celu wydobycia i ilościowej analizy danych będących wynikiem anotacji
prozodycznej (i nie tylko) materiału słownego. Wnioski płynące z krytycznego
przeglądu literatury, jak i te, będące wynikiem badań własnych i doświadczeń zebranych w trakcie realizacji zadań w projekcie ARM2, mają istotne znaczenie dla
metodologii przyszłych badań w dziedzinie produkcji i percepcji prozodii oraz
tworzenia praktycznych rozwiązań w zakresie pozyskiwania, przetwarzania i dalszego wykorzystania informacji prozodycznej w systemach technologii mowy.
2. Przegląd literatury
2.1. Struktura prozodyczna, prominencja i frazowanie
Struktura prozodyczna wypowiedzi, którą wyznacza rozkład prominencji
i granic fraz prozodycznych, odgrywa istotną rolę w rozumieniu mowy, gdyż
zmniejsza wysiłek poznawczy towarzyszący jej przetwarzaniu poprzez dostarczenie podstawowych ram pozwalających na przechowanie sekwencji sygnałów
językowych, w czasie gdy są one przetwarzane przez mózg (Clifton i in. 2002).
Z punktu widzenia percepcji mowy prominencja jest związana z uwydatnieniem pewnej sylaby, czy też całego słowa, w taki sposób, że wyróżnia się ona/ono
spośród sąsiednich sylab/słów. Natomiast na poziomie produkcji jest ona realizowana poprzez zmiany różnych cech akustycznych sygnału mowy (m.in. iloczas, F0, intensywność, por. sekcja 2.2). W fonologii autosegmentalno-metrycznej (Liberman, Prince 1977; Selkirk 1984; Hayes 1994; Ladd 1996), prominencję
definiuje się jako aspekt fonologicznej reprezentacji wypowiedzi wywodzący się
z jej struktury metrycznej (Cole i in. 2010a, str. 426). W tym ujęciu, prominencja
ma charakter strukturalny i jest własnością tych sylab/słów, które w strukturze
metrycznej wypowiedzi zajmują silną pozycję. Ponieważ struktura metryczna
może mieć więcej niż jedną warstwę, np. jedną, dotyczącą relacji między sylabami w wyrazach (słaba vs. silna) i drugą, dotyczącą relacji między wyrazami we
frazie, prominencje będą się różniły pod względem siły, czy też poziomu. I tak, na
poziomie pojedynczych wyrazów mówimy o prominencji niższego poziomu, której dziedziną są sylaby akcentowane (ang. stressed). Z kolei prominencja frazowa
Projekt nr DOBR/0008/R/ID1/2013/03
2
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
273
to prominencja wyższego poziomu, a jej dziedziną są wyrazy niosące nowe lub/i ważne z punktu widzenia rozwoju dyskursu informacje (ang. focus vs. giveness). Selkirk (1996) dokonała rozróżnienia między czterema poziomami prominencji, zaczynając od jej braku, poprzez sylaby z akcentem wyrazowym (ang.
stress), sylaby z akcentem melodycznym (ang. pitch accent), aż do sylab z akcentem frazowym (czyli prominencja frazowa – najwyższy poziom prominencji).
Obok prominencji, struktura prozodyczna jest także efektem grupowania,
czyli podziału wypowiedzi na mniejsze fragmenty – frazy prozodyczne, obejmujące jeden lub kilka wyrazów i charakteryzujące się spójnością znaczeniową
(Selkirk 1984; Frazier i in. 2004). Podział na frazy jest uwarunkowany w znacznej
mierze również strukturą syntaktyczną wypowiedzi i właściwościami fonologicznymi, takimi jak np. długość frazy w sylabach, czy też pozycja akcentu frazowego
(Watson, Gibson 2004). Podobnie jak w przypadku prominencji, także w odniesieniu do frazowania mówimy o różnych jego poziomach3, co związane jest z pozycją konkretnych fraz w strukturze prozodycznej wypowiedzi (np. Trim 1959;
O’Connor, Arnold 1973; Beckman, Pierrehumbert 1986; Ladd 1996).
2.2. Akustyczne korelaty struktury prozodycznej
2.2.1. Prominencja
Na poziomie akustycznym prominencja jest realizowana poprzez wydłużenie iloczasu, wzrost intensywności/głośności, dystynktywne zmiany wysokości
tonu związane z akcentem melodycznym (ang. pitch accent), zmiany w strukturze
widmowej związane z wysiłkiem głosowym i/lub ustawieniem krtani oraz zmiany w częstotliwościach formantów informujące o precyzji artykulacji (m.in. Jassem 1962; Beckman, Edwards 1994; Dogil 1999; Sluijter, van Heuven 1996; Turk,
White 1999; Demenko 1999; Tamburini 2005; Kochanski i in. 2005; Andreeva
i in. 2007; Wagner 2008; Wagner 2014).
Wraz ze wzrostem poziomu prominencji, czyli od akcentu wyrazowego przez
akcent melodyczny po akcent frazowy (por. Selkirk 1996), zwiększa się udział
poszczególnych cech akustycznych, np. silna prominencja jest realizowana poprzez znaczniejsze wydłużenie iloczasu samogłoski/sylaby akcentowanej niż prominencja o średnim i słabym poziomie (Malisz, Wagner 2012; Wagner 2014).
Przeprowadzone dla poszczególnych języków eksperymenty w zakresie struktury akcentowej wypowiedzi, ściśle związanej z realizacją prominencji, często
znacznie różniące się metodologiami, można poklasyfikować według badanych
cech częstotliwości podstawowej, takich jak np. umiejscowienie zmiany parametru F0, szybkość, interwał zmiany oraz typ intonacji. Dodatkowo także analizuje
Zobacz również dyskusję w sekcji 3.3.
3
274
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
się strukturę sylaby oraz kontekst. W najnowszych badaniach podkreśla się istotność interakcji akcentu zarówno ze strukturą językową (mikroprozodią, kontekstem leksykalnym, dyskursem), jak i pozajęzykową (związaną np. z fizjologicznymi uwarunkowaniami wysiłku głosowego lub z emocjami). Konieczne staje się
rozwiązanie problemu zweryfikowania założeń odnośnie do: 1) segmentacji, 2)
akustycznych wyznaczników akcentu oraz 3) normalizacji.
1)Segmentacja. Podstawowym problemem jest podział wypowiedzi na grupy
akcentowe (ewentualnie tzw. zestroje, stopy akcentowe). Definicje tych jednostek nie są wystarczająco precyzyjne dla automatycznych klasyfikacji (Jassem
1962; Steffen-Batogowa 2000).
2) Akustyczne wyznaczniki akcentów. Obszerne badania w tym zakresie zapoczątkowali między innymi de Pijper (1983), Collier (1991) i Hart (Hart i in.
2006), tworząc podstawy pozwalające określić, które zmiany częstotliwości
podstawowej są istotne w percepcji melodii mowy.
3)Normalizacja. Potrzeba normalizacji zmian wysokości tonu związana jest
z wieloma uwarunkowaniami, między innymi z różnicami międzyosobniczymi, stylistycznymi, sposobem wypowiedzi powiązanym z ekspresywnością
oraz wysiłkiem głosowym. Sposób normalizacji położenia sylaby akcentowanej – prominentnej na skali częstotliwości i zakresu zmian częstotliwości podstawowej stanowi od wielu lat nierozwiązany problem (Botinis i in.. 2001).
Analiza akustycznej realizacji prominencji w języku polskim przedstawiona
w pracy Wagner (2009) pokazała, że jej najistotniejszymi korelatami są kolejno:
ogólna zmienność wysokości tonu na sylabie akcentowanej, względny znormalizowany iloczas sylaby i samogłoski akcentowanej, kształt przebiegu zmiany wysokości tonu oraz wartość maksymalna F0 na sylabie akcentowanej. Automatyczna detekcja prominencji na poziomie wyrazu (tzn. pod uwagę wzięto tylko sylaby
z akcentem wyrazowym, ang. stressed) na podstawie zbioru wymienionych tutaj
cech charakteryzowała się dokładnością w granicach 78%-72% w zależności od
modelu (sieci neuronowe, drzewa decyzyjne – CART, analiza dyskryminacyjna),
natomiast w klasyfikacji poszczególnych typów akcentów (H*L, L*H, LH*, HL*,
LH*L) dokładność modeli wahała się między 27% a 81%.
2.2.2. Frazowanie
Za główny i uniwersalny wyznacznik granicy frazy przyjmuje się wydłużenie
iloczasu sylab o końcowej pozycji we frazie (Wightman i in. 1992; Yoon i in. 2007;
Wagner 2010; Cole i in. 2010b), przy czym stopień wydłużenia jest pozytywnie
skorelowany z siłą granicy. Innymi ważnymi korelatami są obecność i długość
pauzy (Horne i in. 1995; Bulyko, Ostendorf 2001) oraz przebieg konturu intonacyjnego (Carlson, Swerts 2003; Aguilar i in. 2009; Carlson i in. 2005; Kim i in.
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
275
2008). Obecność granicy frazy jest sygnalizowana również w mniejszym stopniu
poprzez zmiany w zakresie intensywności i jakości głosu, takie jak glotalizacja samogłosek na początku frazy i laryngalizacja samogłosek na końcu (por. Cole i in.
2010a). Jak pokazano m.in. w pracy Wightmana i in. (1992) zmiany w dziedzinie konkretnych cech akustycznych są proporcjonalne do siły granicy frazy, np.
w przypadku granic fraz zajmujących wyższą pozycję w hierarchii samogłoska/
sylaba wygłosowa ulega znaczniejszemu wydłużeniu niż w realizacji fraz niższego poziomu4.
W odniesieniu do języka polskiego badania akustycznych korelatów struktury
prozodycznej (Demenko 2000; Francuzik i in. 2002; Klessa 2006; Wagner 2008)
pokazały istotny udział iloczasu oraz parametrów w dziedzinie F0 w realizacji prominencji oraz granic fraz. W dziedzinie czasu obecność granicy jest sygnalizowana przede wszystkim przez znaczne wydłużenie iloczasu ostatniej we frazie sylaby
i jej samogłoski oraz wydłużenie iloczasu samogłoski sylaby poprzedzającej sylabę
o pozycji końcowej (Wagner 2008). Na podstawie małego zbioru cech akustycznych udało się stworzyć modele automatycznej detekcji granic fraz prozodycznych
w mowie czytanej, których średnia dokładność sięgała 82% (Wagner 2008). Wyniki
automatycznej klasyfikacji typu granicy frazy5 wahały się między 81% i 87,6%.
2.3. Znaczenie prozodii dla przetwarzania i rozumienia języka
w kontekście technologii mowy
Systemy technologii mowy powinny opierać się na interpretacji i rozumieniu
treści, a więc na kognitywnej analizie cech akustycznych oraz fonetycznych na
różnych poziomach językowego i pozajęzykowego przetwarzania. Na poziomie
fonologicznej oraz fonetyczno-akustycznej analizy, bardzo wyraźnie wyodrębniło się zagadnienie kompleksowego modelowania prozodycznej (suprasegmentalnej) struktury mowy. Wiedza prozodyczna w bardzo znacznym stopniu jest
wykorzystywana zarówno przez mówcę, jak i przez słuchacza, głównie w segmentacji oraz uwydatnianiu znaczenia poszczególnych fragmentów wypowiedzi.
Dzisiejsze systemy wykorzystują tę wiedzę jedynie w bardzo ograniczony sposób
(np. synteza mowy) lub całkowicie ją z tych analiz eliminują (np. rozpoznawanie
mowy/mówcy). Bezpośrednią przyczyną ograniczeń w wykorzystaniu tego niezwykle ważnego źródła informacji jest brak adekwatnych technik ich ekstrakcji
i modelowania.
Najważniejszym problemem modelowania prozodii na potrzeby technologii,
zwłaszcza rozpoznawania mowy, jest niewątpliwie segmentacja sygnału mowy.
Zobacz też dyskusję w sekcji 3.3.
4 typy granic: silna (IP) rosnąca i opadająca, słaba (ip) rosnąca i opadająca; w klasyfikacji
wzięto pod uwagę tylko sylaby o końcowej pozycji we frazie.
4
5
276
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
Problem wyznaczania granicy frazy oraz mniejszych jednostek prozodycznych jest
tylko częściowo rozwiązywany poprzez powierzchowną analizę gramatyczną. Punkt
wyjścia dla anotacji struktur melodycznych w korpusach i modelowania prozodii
stanowią informacje gramatyczne związane głównie ze znakami interpunkcyjnymi
i spójnikami, określające frazy syntaktyczne. W tekście pisanym funkcję podziału
tekstu na sekwencje wyrazów stanowiących spójną całość pod względem syntaktycznym lub semantycznym pełnią znaki interpunkcyjne, których obecność pozwala odbiorcy przeprowadzać podział tekstu na jednostki informacji zgodnie z intencją nadawcy. W tekście mówionym wyodrębnianie jednostek zwanych frazami jest
osiągane głównie poprzez realizację określonych wzorców prozodycznych.
Także informacja dotycząca prominencji i jej siły/poziomu ma bardzo istotne znaczenie w kontekście rozpoznawania mowy, ponieważ prominencja (akcent) ma na tyle silny wpływ na fonetyczno-akustyczną realizację6 głosek, że
może powodować błędy rozpoznawania. Ponadto pozycja akcentu wyrazowego
(słaba prominencja) częściowo informuje o granicy wyrazu, zaś pozycja akcentu
frazowego (silna prominencja) niesie wskazówki odnośnie roli danego wyrazu
w rozwoju dyskursu. Jak pokazano m.in. w pracach Cole i in. (2005), uwzględnienie
tego rodzaju informacji prozodycznej w systemie rozpoznawaniu mowy poprzez
wykorzystanie interakcji między modelem akustycznym i językowym (tzw.. prosody dependent speech recognition) może istotnie przyczynić się do zmniejszenia
błędów rozpoznawania (ang. word error rate).
W odniesieniu do mowy spontanicznej, zwłaszcza ekspresywnej, opis i modelowanie prozodii bezwzględnie wymaga uwzględnienia nie tylko aspektów językowych, ale również parajęzykowych i pozajęzykowych w znacznie szerszym zakresie niż w przypadku wypowiedzi neutralnych. Zasadniczą kwestią jest poznanie
i sformalizowanie funkcji intonacji, zwłaszcza jej wpływu na fonetyczno­akustyczne
struktury. Wiadomo, iż zmiana F0 o oktawę w diametralny sposób zmienia widmo
sygnału (Minematsu i in. 2001). Bardzo istotne stają się czynniki związane ze zmianami tempa, amplitudy sygnału, zwiększonej zmienności częstotliwości podstawowej (uwarunkowanych różnorodnymi czynnikami), a dodatkowo jeszcze pojawia
się prozodia elementów typowo niejęzykowych (jak np. pauz wypełnionych).
3. Opis struktury prozodycznej wypowiedzi
W niniejszym rozdziale przedstawiono zagadnienia związane z opisem prozodii na poziomie produkcji i percepcji, w tym systemy anotacji prozodii, z których
W sylabach akcentowanych prominentnych – większa precyzja artykulacyjna w wymowie
spółgłosek, bardziej kanoniczna wymowa samogłosek.
6
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
277
jeden – ToBI – uważany jest za międzynarodowy standard w transkrypcji prozodii, natomiast drugi – RaP – jest mniej upowszechniony, ale ze względu na
pewne swoje cechy może on stanowić alternatywę dla ToBI. Specyfikacje anotacji
prozodii przyjęte w obecnej pracy są wynikiem krytycznej oceny zalet i wad obu
systemów. Ponadto omówiono zagadnienie czynników pozaakustycznych wpływających na percepcję prozodii i kwestię liczby poziomów frazowania, które
również uwzględniono tworząc specyfikacje przedstawione w rozdziale 4. pracy.
3.1. Systemy anotacji prozodii
3.1.1. ToBI (ang. Tones and Break Indices)
System ToBI (Silvermann i in. 1992; Beckman, Hirschberg 1994; Beckman, Ayers 1997; Beckman i in. 2004) opiera się na modelu autosegmentalno-metrycznym
intonacji (Pierrehumbert 1980) i powstał pierwotnie na potrzeby anotacji intonacji
języka angielskiego (amerykańskiego), ale szybko zaczął być adaptowany do innych języków, m.in. hiszpańskiego, niemieckiego, koreańskiego, czy też greckiego.
Pojęcie tonów (ang. tones) odnosi się do opisu wzorców intonacyjnych jako sekwencji kategorii tonalnych: akcentów melodycznych (ang. pitch accents), akcentów frazowych (ang. phrase accents) i tonów frazowych (ang. boundary tones), zaś
indeksy odnoszą się do opisu struktury prozodycznej i pozwalają na grupowanie
mniejszych elementów składowych tej struktury (czyli ang. intermediate phrases)
w większe elementy (ang. intonational phrases). Akcenty melodyczne są realizowane jako pojedyncze tony (H* lub L*) lub jako kombinacja dwóch tonów (np.
L+H*, H+L*). W systemie ToBI akcenty mono- i bitonalne posiadają ten sam status
w strukturze prozodycznej wypowiedzi, gdyż nie rozróżnia się między akcentami
prenuklearnymi i nuklearnymi (wyznacznikiem tych drugich jest tylko końcowa
pozycja w wypowiedzi, por. hierarchiczny model struktury prozodycznej Jassema
i in. (1984)). Akcenty frazowe i tony frazowe są zawsze monotonalne. Tony H i L
można zidentyfikować jako miejsca docelowe lub punkty zwrotne w konturze –
kolejno jako maksimum i minimum częstotliwości podstawowej (F0) wyznaczających zakres tonu głosu mówcy, realizowane na konkretnych sylabach lub w ich
pobliżu (np. etykieta L+H* oznacza niski ton na sylabie poprzedzającej sylabę akcentowaną, na której zrealizowano ton wysoki). Ich dokładne skalowanie podlega
wpływowi zjawisk znanych jako downstep i upstep (Ladd 1996).
Indeksy przerwy (ang. break indices) oznaczają siłę granicy występującej po
danym elemencie struktury prozodycznej, tj. są „wskaźnikiem postrzeganej przez
słuchacza siły połączenia między każdą parą wyrazów w wypowiedzi oraz między
wyrazem ostatnim a ciszą na końcu wypowiedzi” (Beckman, Ayers 1997, s. 31).
System ToBI rozróżnia między pięcioma indeksami: 0 – granica między wyrazami,
278
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
z których jeden jest klityką, 1 – granica między wyrazami prozodycznymi, 2 – granica mająca pewne cechy granicy intermediate phrase, ale wyrazy nie tworzą takiej
frazy, 3 – granica intermediate phrase, 4 – granica intonational phrase.
System ToBI był i nadal jest stosowany do anotacji prozodii w korpusach
mowy przeznaczonych dla różnych aplikacji, m.in. Boston Radio News Corpus,
Boston Direction Corpus, czy też Colorado University Corpus, a dostarczone za
jego pomocą informacje odnośnie struktury prozodycznej wypowiedzi z powodzeniem wykorzystano w licznych badaniach, w tym również w dziedzinie automatycznego rozpoznawania mowy (Hasegawa-Johnson i in. 2005).
3.1.2. RaP (ang. Rhythm and Pitch)
RaP (Breen i in. 2012), podobnie jak ToBI, opiera się na teorii autosegmentalno-metrycznej. Transkrypcja w systemie RaP ma charakter percepcyjny, odsłuchowy i nie wymaga wizualnej reprezentacji wypowiedzi. Prowadzi się ją na
czterech równoległych warstwach, z których najistotniejsze są warstwy rhythm
i pitch. Warstwa rhythm służy do opisu pozycji i siły prominencji oraz granic
fraz, natomiast warstwa pitch do opisu względnej wysokości tonu każdej kolejnej
sylaby. W warstwie rytmu rozróżnia się miedzy dwoma poziomami prominencji
(silną vs. słabą-umiarkowaną) oraz dwoma poziomami frazowania odpowiadającymi intermediate i intonational phrases w ToBI. W warstwie pitch, poza oznaczeniem względnej wysokości tonu sylaby (H, L, E), opisuje się również relacje
między tonami a prominencją, np. L+H* oznacza ton niski na sylabie nieakcentowanej (bez oznaczenia prominencji) poprzedzający ton wysoki zrealizowany na
sylabie akcentowanej (z etykietą prominencji). Dodatkowo, w systemie RaP można anotować wielkość zmiany tonalnej (HL, LH, LHL), która w pewnych kontekstach może być dystynktywna, a także może oznaczać osiągniecie maksimum lub
minimum zakresu głosu mówcy na sylabach o końcowej pozycji we frazie.
System RaP był zastosowany do anotacji rytmu i intonacji w korpusie DiaGest, stworzonym na potrzeby badania wzajemnych zależności między gestami,
leksykonem i prozodią w języku polskim (Jarmołowicz i in. 2007). Transkrypcja
nagrań wypowiedzi w systemie RaP była również podstawą do badania realizacji
zjawiska prominencji i struktury rytmicznej języka polskiego (Malisz, Wagner
2012; Malisz i in. 2013).
Jak wcześniej wspomniano, w pewnych konkretnych zastosowaniach (np.
analiza percepcji wybranych aspektów prozodii, takich jak prominencja), system RaP może stanowić alternatywę dla ToBI, gdyż transkrypcja w tym systemie
opiera się na percepcji mowy i nie jest tak silnie umotywowana teoretycznie jak
anotacja w ToBI, a także ze względu na rozdzielenie anotacji struktury rytmicznej i intonacyjnej wypowiedzi.
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
279
3.1.3. Krytyczna ocena systemów
Przydatność danego systemu transkrypcji prozodii można ocenić badając
zgodność anotacji wykonanych według jego specyfikacji, na tym samym materiale i co najmniej przez kilkoro słuchaczy. Wysoka zgodność świadczy o miarodajności takiego systemu. Wyniki badań zgodności anotacji w ToBI są rozbieżne
z uwagi na typ materiału słownego (mowa spontaniczna vs. czytana) oraz transkrypcji (pełna vs. uproszczona). Jak pokazano w pracy Yoon i in. (2004) w mowie
spontanicznej zgodność anotujących co do pozycji akcentów melodycznych (prominencji) wynosiła 86%, zaś w odniesieniu do granic fraz prozodycznych – 89%.
Podobne badanie dla systemu RaP pokazało, że dla binarnej decyzji dotyczącej
prominencji zgodność anotacji kształtuje się na poziomie 89%, a w przypadku
granic fraz na poziomie 90% (Breen i in. 2012). W obu systemach transkrypcji zgodność istotnie spada wraz ze wzrostem dokładności anotacji (Pitrelli i in.
1994; Grice i in. 1996; Jun i in. 2000; Syrdal, McGory 2000; Yoon i in. 2004; Breen
i in. 2012). Ograniczenie anotacji prozodycznej do warstwy nazwanej w systemie
RaP rhythm, czyli oznaczania tylko siły/poziomu prominencji oraz siły/poziomu
granic fraz i rezygnacja z opisu tonalnego, czyli typów akcentów (np. H+L*), tonów frazowych i granicznych (np. L-L%) wydaje się zasadne, gdyż w kontekście
rozpoznawania mowy takie informacje mają mniejsze znaczenie, a jednocześnie
obniżają one znacznie zgodności anotacji oraz spowalniają jej przebieg. Ogólnie
rzecz biorąc, wyniki badań wskazują na konieczność ograniczenia liczby możliwych etykiet i rezygnacji z bardzo szczegółowej anotacji prozodii na rzecz anotacji bardziej miarodajnej i o charakterze ogólniejszym, ale wciąż uwzględniającej
najistotniejsze informacje z punktu widzenia struktury prozodycznej wypowiedzi. Takie założenie stało się podstawą do stworzenia specyfikacji anotacji prozodii w korpusie mowy spontanicznej dla systemu ARM (por. rozdział 4.).
3.2. Czynniki pozaakustyczne wpływające na percepcję prozodii
Percepcja struktury prozodycznej wypowiedzi pozostaje pod znacznym wpływem różnego rodzaju czynników językowych i pozajęzykowych i nie można jej
w pełni opisać w oparciu o model uwzględniający wyłącznie cechy akustyczne
sygnału mowy. W przypadku prominencji wskazówki akustyczne, które ją sygnalizują pozostają jednocześnie pod wpływem czynników związanych ze statusem
informacyjnym słowa (leksemu) – jego przewidywalnością w danym kontekście
dyskursowym, gęstością sąsiedztwa i częstością użycia (Aylett, Turk 2004; Watson
i in. 2008), a także czynników pozajęzykowych takich jak tempo mowy (Fossler-Lussier, Morgan 1999). Jak pokazano w pracy Cole i in. (2010a) słuchacz może
oznaczyć dane słowo/daną sylabę jako prominentne albo z uwagi na wyraźne
280
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
wskazówki akustyczne (m.in. wydłużenie iloczasu, charakterystyczną zmianę
przebiegu wysokości tonu), albo z uwagi na wspomniane czynniki pozaakustyczne (nieznajomość słowa, niska frekwencja, niska przewidywalność), które powodują uruchomienie dodatkowych zasobów przetwarzania leksykalnego.
W przypadku percepcyjnego podziału wypowiedzi na frazy prozodyczne najważniejszym czynnikiem językowym jest składnia. W relacji między granicami
fraz syntaktycznych i prozodycznych pośredniczą częściowo wskazówki akustyczne, które są najsilniejsze w miejscach wskazanych przez podział syntaktyczny wypowiedzi. Jednocześnie wpływ kontekstu syntaktycznego na percepcję granic fraz
prozodycznych jest silniejszy i częściowo niezależny od wpływu cech akustycznych
(np. wydłużenia iloczasu wygłosowej samogłoski) (Cole i in. 2010b). Wyniki te
mają ważne implikacje dla tworzenia specyfikacji percepcyjnej anotacji prozodii
i wykorzystania informacji prozodycznej w systemach technologii mowy.
3.3. Problem liczby poziomów frazowania
W literaturze przedmiotu brak jest zgodności odnośnie liczby poziomów frazowania. Choć istnieją prace, w których wykazano istnienie akustycznych wskazówek
pozwalających na słuchowe rozróżnienie między czterema poziomami (Wightman
i in. 1992), najczęściej przyjmuje się dwa poziomy, czyli frazę niższego poziomu
(ip), która musi zawierać tylko jeden akcent nuklearny i frazę wyższego poziomu
(IP), bardzo wyraźnie zasygnalizowaną percepcyjnie i zawierającą przynajmniej jeden element niższego poziomu (według oryginalnej terminologii: ip – intermediate
phrase oraz IP – intonation phrase7). Rozróżnienie między dwoma poziomami frazowania opiera się m.in. na założeniu, że w ramach takiej struktury prozodycznej
można skutecznie kontrolować zmiany zakresu tonu głosu mówcy. Pierrehumbert
i Beckman (1986) definiują frazę ip jako fragment wypowiedzi zawierający ciąg
akcentów (ang. pitch accents) oraz akcent frazowy (ang. phrase akcent), ale bez tonu
granicznego (ang. boundary tone), frazę pełną IP natomiast jako nadrzędną strukturę zawierającą jedną lub więcej fraz pośrednich ip plus ton graniczny zrealizowany na ostatniej sylabie frazy. Tego rodzaju opis, w którym wyróżnia się jednostkę
nadrzędną – frazę intonacyjną (IP) zawierającą sekwencje jednostek/fraz niższego
rzędu (ip) wydaje się być adekwatny dla większości języków, w tym dla języka polskiego. Dla anotacji prozodycznej mowy spontanicznej dla języka polskiego należy
jednak oprócz rozróżnienia między frazami pełnymi wyższego (IP) i pośrednimi
niższego poziomu (ip) również wydzielić frazy ip o pozycji niekońcowej i końcowej
we frazie pełnej, a także frazy IP pojedyncze (tj. zawierające jedną frazę) i złożone,
czyli zawierające kilka fraz (Wagner 2008).
http://prosodia.upf.edu/sp_tobi/en/labeling_system/prosodic_phrasing/BI3_vs_BI4.html
7
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
281
4. Specyfikacje anotacji prozodii mowy spontanicznej na
potrzeby rozwijania systemu ARM
W tym rozdziale przedstawiamy głównie wyniki prac własnych prowadzonych w ramach projektu ARM, których celem było stworzenie specyfikacji dotyczących percepcyjnej anotacji prozodii na potrzeby dalszego wykorzystania
informacji prozodycznych w celu poprawy jakości wyników automatycznego
rozpoznawania mowy w języku polskim.
4.1. Uwagi ogólne
W opisie zjawisk prozodycznych bierzemy pod uwagę: dwa poziomy uwydatnienia
sylab – silne i słabe-średnie uwydatnienie/prominencja oraz trzy poziomy siły granicy
frazy prozodycznej – granica słaba, średnia i silna. Dodatkowo w anotacji uwzględniamy elementy dyskursowe o istotnym wpływie na strukturę prozodyczną wypowiedzi.
W anotacji prominencji i granic fraz kierujemy się zarówno znaczeniem, czyli
wskazówkami syntaktycznymi, semantycznymi i dyskursowymi (por. sekcja 3.2),
jak i cechami akustycznymi wypowiedzi. Aby pogodzić oba kryteria, wprowadzono oznaczenia słabych granic fraz (granice typu /) w miejscach, gdzie syntaktycznie i znaczeniowo taka granica przypada, ale wskazówki akustyczne są bardzo subtelne, oraz granic niegramatycznych, które są wyraźnie zaznaczone przez
prozodię, ale pojawiają się w miejscach „niespodziewanych” z punktu widzenia
struktury semantycznej, syntaktycznej lub/i dyskursowej wypowiedzi.
Proponowany zestaw etykiet do percepcyjnej anotacji prozodii przedstawia
poniższa tabela.
Tab. 1. Podsumowanie specyfikacji percepcyjnej anotacji prozodii
etykieta
2
3
1
/
//
///
%
$
zastosowanie
słabe uwydatnienie
silne uwydatnienie
trudno stwierdzić czy sylaba jest czy nie jest uwydatniona
słaba granica frazy
granica frazy o średniej sile
silna granica frazy
z pewnością występuje granica frazy, ale trudno określić jej siłę (/// czy //)
z pewnością występuje granica frazy – gramatyczne zdanie (wypowiedź
kompletna) kończy się, ale wskazówki prozodyczne nie są jednoznaczne
(albo brak zmiany albo zmiana nietypowa)
282
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
etykieta
\
!
{tekst}
/..
/@
/~
~/
zastosowanie
granica niegramatyczna (mówca wstawia pauzę/oddech/fil wewnątrz wypowiedzi), nie ma żadnych wskazówek prozodycznych ani składniowych,
aby taka przerwa w danym miejscy się pojawiła
słowo lub fraza zrealizowane z wyraźną emfazą/ekspresją
wydzielenie lub wtrącenie, którego struktura prozodyczna wyraźnie wskazuje, że nie stanowi on integralnej części wypowiedzi
dopowiedzenie
ang. backchannel
wypowiedź niepełna, urwana na końcu (mechanicznie lub przez wejście
kolejnego mówcy)
wypowiedź niepełna, urwana na początku
4.2. Anotacja prominencji
Jak już wspomniano w rozdziale 2. prominencja lub inaczej uwydatnienie odnosi
się do percepcyjnej siły danej sylaby/wyrazu na tle innych sylab/wyrazów we frazie. Na poziomie akustycznym prominencja jest sygnalizowana poprzez wydłużenie
iloczasu, wzrost intensywności/głośności, znaczną zmianę w przebiegu konturu intonacyjnego oraz jego kształt (także zmiany w strukturze widmowej związane z wysiłkiem głosowym i/lub ustawieniem krtani, zmiany w częstotliwościach formantów
informujące o precyzji artykulacji). Oprócz wymienionych tutaj kryteriów akustycznych w percepcyjnej anotacji prominencji bierzemy również pod uwagę kryteria związane ze znaczeniem: prominencję zaznaczamy na sylabach należących do
słów niosących informacje o kluczowym znaczeniu dla dalszego rozwoju dyskursu
i istotne dla prawidłowej interpretacji komunikatu, który chce przekazać mówca.
Oznaczenia prominencji umieszczamy za samogłoską sylaby związanej
z głównym lub pobocznym akcentem wyrazowym, tak więc w jednym wyrazie mogą się pojawić maksymalnie dwa oznaczenia prominencji. Etykiety prominencji umieszczamy w wypowiedziach pełnych, niepełnych i wydzieleniach.
W anotacji unikamy zaznaczania uwydatnienia na sąsiadujących ze sobą sylabach w ramach jednej frazy: preferujemy anotację, w której sylaby uwydatnione
są oddzielone przynajmniej jedną sylabą nieuwydatnioną (bez oznaczenia prominencji), a jednocześnie sekwencje sylab nieuwydatnionych nie są zbyt długie
(czyli unikamy tzw. clashes i lapses). Jednocześnie bierzemy pod uwagę fakt, że
wraz ze wzrostem tempa wypowiedzi, coraz mniej sylab będzie uwydatnionych
przez mówcę, więc tzw. lapses mogą być dłuższe (nawet do kilku sylab).
Zakładamy, że w danej frazie tylko jedna sylaba (jeden wyraz) może być silnie
uwydatniona, natomiast słabe uwydatnienie może być zrealizowane na kilku sylabach (wyrazach).
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
283
W wyrazach wielosylabowych preferujemy anotację, w której sylaby akcentowane otrzymują etykietę silnego lub średniego/słabego uwydatnienia (prominencji), a jednocześnie sylaby nieakcentowane nie są anotowane jako uwydatnione.
W rezultacie w wyrazach 2- i 3-sylabowych będziemy mieli jedną etykietę uwydatnienia, a w wyrazach 4-sylabowych i dłuższych możliwe będą dwie etykiety:
np. akcent główny – silne uwydatnienie (ozn. jako 3), akcent poboczny – słabe
(ozn. jako 2). W przypadku emfazy uwydatnienie może być większe na sylabie
z akcentem pobocznym, np. nie3samowi2te ///! (Dogil 1999).
W wyrazach jednosylabowych preferujemy anotację, w której wyrazy samodzielne akcentowo, ortotoniczne (czasowniki, rzeczowniki, przymiotniki, przysłówki) otrzymują oznaczenie uwydatnienia, zaś wyrazy atoniczne (niektóre formy
zaimków, przyimki, spójniki, partykuła nie) nie otrzymują takiego oznaczenia.
4.3. Hierarchia struktur frazowych
Wyróżniamy trzy elementy tworzące hierarchię struktur frazowych: wypowiedź kompletną, frazę intonacyjną pełną oraz frazy pośrednie.
Fraza pośrednia (ip) zawiera jedną lub kilka sylab, które posiadają tylko jeden
akcent rdzenny/frazowy, związany z silną prominencją. Bazując na tradycjach
szkoły brytyjskiej, można przyjąć następujący schemat dla frazy pojedynczej
(Demenko 1999):
ip = [anakruza] [[intonacja przedrdzenna [intonacja rdzenna]]]
gdzie: anakruza jest sylabą lub ciągiem sylab początkowych, intonacja preiktyczna zawiera jeden lub więcej akcentów preiktycznych (-> słaba/średnia prominencja), intonacja rdzenna zawiera jeden (i tylko jeden) ictus (główny akcent
intonacyjny – rdzenny, frazowy ->silna prominencja). Semantycznie frazy ip stanowią całość, tzn. ciąg sylab w ramach ip niesie konkretne znaczenie.
Fraza pośrednia końcowa (ip’) zawiera jedną lub kilka sylab z tylko jednym
akcentem rdzennym, który tworzy charakterystyczny wzorzec intonacyjno-rytmiczny, wyraźnie sygnalizujący koniec wypowiedzi (przeważnie wydłużeniem
końcowych sylab, pauzą, zmianami wysokości tonu, amplitudy etc.):
ip’= [anakruza] [[intonacja przedrdzenna [intonacja rdzenna’]]]
Granice prozodyczne fraz pojedynczych niekońcowych są mniej wyraziste niż
frazy pojedynczej końcowej, która poprzez swoją strukturę intonacyjno-rytmiczną
wyraźnie sygnalizuje koniec wypowiedzi. Za frazę pośrednią niekońcową uznamy
fragment mowy, który uważamy za niezupełnie zakończony (tj. spodziewamy się dalszego ciągu do interpretacji syntaktycznej lub pragmatycznej). Może on być określony
strukturą składniową lub też związany z pragmatycznym grupowaniem wyrazów, np.:
284
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
Nauczyciel – powiedział uczeń – jest mądry (Frazę IP tworzą 3 frazy: ip, ip, ip’)
Nauczyciel powiedział – uczeń jest mądry (Frazę IP tworzą 2 frazy: ip, ip’)
Frazy pośrednie nie muszą tworzyć wypowiedzi kompletnej, np. wypowiedź zostaje przerwana, mówca nie kończy fragmentu wypowiedzi poprawnie gramatycznie, ale restartuje, poprawia, wtrąca nowy element.
Fraza intonacyjna pełna (IP) stanowi wypowiedź kompletną i obejmuje fragment mowy, który uważamy za zakończony – nie spodziewamy się dalszego ciągu
wypowiedzi i nie jest on konieczny do jej interpretacji. Wypowiedź kompletna
może być określona strukturą składniową lub też związana z treścią ekspresywną
(w tym przypadku muszą pojawić się bardzo wyraźne wzorce prozodyczne) i często jest ona definiowana gramatycznie jako zdanie.
4.4. Anotacja granic fraz
Granica frazy prozodycznej określa miejsce w wypowiedzi, w którym zgodnie
z percepcyjną oceną słuchacza znajduje się koniec frazy prozodycznej IP lub ip sygnalizowany na poziomie akustycznym przez przerwę, brak ciągłości lub rozłączenie w strumieniu wypowiedzi (o różnym stopniu nasilenia), wydłużenie iloczasu
sylab o końcowej pozycji we frazie (którego stopień jest pozytywnie skorelowany
z siłą granicy) oraz przebieg konturu intonacyjnego (np. charakterystyczny ton
wznoszący sygnalizujący kontynuację lub ton opadający sygnalizujący zakończenie
wypowiedzi, albo zmiana rejestru, tzw. pitch range reset)8. Na poziomie akustycznym różnica między granicą /// i // wiąże się z mniejszą wyrazistością granicy //, co
może być spowodowane mniejszym stopniem zmiany parametrów akustycznych
(np. krótsza pauza, mniej znaczne wydłużenie iloczasu) lub udziałem mniejszej ich
ilości (np. sama intonacja). Granice ///, sygnalizujące koniec frazy IP9, są najczęściej sygnalizowane przez przynajmniej dwa czynniki akustyczne oraz obowiązkowo przez pitch range reset, natomiast granice //, tj. granice fraz ip niekońcowych,
mogą być sygnalizowane przez jeden czynnik i rzadziej niż w przypadku /// będzie
to pauza akustyczna. Słabe granice typu /, związane z frazami ip niekońcowymi,
mogą być sygnalizowane przez pojedynczy czynnik akustyczny (z wykluczeniem
pauzy), lub mogą wcale nie być realizowane akustycznie (wtedy o obecności granicy decydujemy na podstawie wskazówek znaczeniowych i stopnia spójności między wyrazami). Dodatkowo, po granicach // i / możemy umieścić jeden ze znaków
interpunkcyjnych: : -, ; ( ) „ ” jeżeli mamy pewność, że w tym miejscu jest on odpowiedni. Po granicy /// może wystąpić: . … ! ? ?! Znaki interpunkcyjne odpowiednie
Więcej na temat akustycznych korelatów granic fraz w sekcji 2.2.2.
Podobnie w systemie ToBI granice fraz IP są związane z indeksem 4, a granice ip z indeksem
3: sekcja 3.1.1.
8
9
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
285
w danym kontekście umieszczamy także za etykietą % oraz $. Wyznaczając granicę
frazy bierzemy również pod uwagę kryteria związane ze znaczeniem wypowiedzi,
czyli wskazówki syntaktyczne, semantyczne i dyskursowe: granice fraz przebiegają
w miejscach, w których zakłócenie znaczenia wypowiedzi jest minimalne10.
5. Narzędzia zastosowane w celu wydobycia i ilościowej analizy
danych będących wynikiem anotacji prozodycznej (i nie tylko)
materiału słownego
W celu stworzenia korpusu słownego, umożliwiającego przeprowadzenie badań nad wyznacznikami akustycznymi, fonetycznymi oraz percepcyjnymi granicy frazy oraz prominencji na potrzeby systemu ARM, przeprowadzono anotację
nagrań na kilku poziomach analizy (suprasegmentalnych i segmentalnych).
W pierwszym etapie skoncentrowano się na pozyskaniu informacji odnośnie
percepcyjnej oceny umiejscowienia granic fraz oraz obecności (i siły) prominencji w poszczególnych realizacjach wypowiedzi. Anotacja została przeprowadzona
w programie Transcriber (Barras i in. 2001) umożliwiającym przede wszystkim
wygodny odsłuch nagrań lub ich wybranych fragmentów, transkrypcję na poziomie ortograficznym oraz segmentację sygnału mowy na jednostki suprasegmentalne (w tym przypadku frazy) na podstawie odsłuchu oraz wizualnej oceny obrazu fali głosowej. W wyniku tego etapu dla każdego z przedmiotowych
nagrań pozyskano sześć wersji percepcyjnej anotacji prozodycznej (od sześciu
anotujących osób (por. rozdział 6.).
Aby umożliwić przeprowadzenie bardziej szczegółowych analiz fonetyczno-akustycznych z uwzględnieniem cech spektralnych oraz dokładniejszą analizę
wyników anotacji, dla wszystkich badanych nagrań przeprowadzono automatyczną zamianę tekstu ortograficznego na zapis fonetyczny, wykorzystując w tym
celu program Polphone (Demenko i in. 2003) w wersji uwzględniającej aktualizacje wprowadzone na potrzeby tworzenia leksykalnej bazy danych dla systemu
ARM (Klessa i in. 2009/2010). Otrzymano w ten sposób transkrypcję fonetyczną w formacie SAMPA (Wells 1997), stanowiącym jeden z częściej wykorzystywanych standardów transkrypcji fonetycznej w wielu dziedzinach technologii
mowy, m.in. ze względu na prostotę zapisu (np. brak specjalnych czcionek spoza
podstawowego układu klawiatury) i idącą za tym stosunkową łatwość komputerowego przetwarzania znaków tego alfabetu fonetycznego. Na podstawie zapisu
ortograficznego pozyskanego na etapie anotacji percepcyjnej przeprowadzono
Więcej na temat czynników pozaakustycznych wpływających na percepcję prozodii w sekcji 3.2.
10
286
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
również automatyczną segmentację nagrań z podziałem na: (1) wyrazy, (2) sylaby, (3) głoski. W tym celu posłużono się programem Salian (Szymański, Grocholewski 2005). Uzyskany tą drogą zestaw etykiet transkrypcji wraz z informacją
o ich znacznikach czasowych zaimportowano następnie do programu Annotation Pro (Klessa i in. 2013). Program ten umożliwia m.in. wielowarstwową anotację nagrań mowy, z praktycznie dowolną liczbą zsynchronizowanych warstw
anotacji, przy czym dostępne są opcje wyświetlania tylko wybranej konfiguracji
warstw (włączania i wyłączania widocznych warstw), co jest istotnym udogodnieniem praktycznym, zwłaszcza gdy anotacja każdego pliku składa się z dużej
liczby warstw, co miało miejsce w przypadku obecnego materiału nagraniowego (por. też rozdział 6.). Rysunek 1. przedstawia fragment przykładowego pliku
z anotacją, na którym wyświetlono trzy wybrane warstwy z wynikami automatycznej segmentacji i transkrypcji (warstwy z podziałem na głoski, sylaby i wyrazy, kolejno ang. phones, syllables, words) oraz wynikami percepcyjnej anotacji
prozodycznej (warstwa perceptual). Ponadto dla każdego pliku dostępna była
warstwa dla komentarzy (ang. comments), wykorzystywana przez osoby anotujące celem oznaczania sytuacji wątpliwych lub niejednoznacznych na kolejnym
etapie pracy nad anotacją, a mianowicie podczas manualnej korekty transkrypcji
i segmentacji wygenerowanej automatycznie.
Rys. 1. Przykładowa wielowarstwowa anotacja nagrania w programie Annotation Pro
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
287
Manualna korekta została przeprowadzona przez dwie przeszkolone osoby
(doktoranci z kilkuletnim doświadczeniem w anotacji różnego typu nagrań) pod
nadzorem eksperta fonetyka. Znaczne zróżnicowanie zbioru nagrań pod względem
jakości technicznej, stosunkowo wysokiego poziomu szumów otoczenia (nagrania
w różnego rodzaju warunkach środowiskowych) oraz niejednorodność typów wypowiedzi (zarówno przez wzgląd na różne konteksty sytuacyjne, obecność lub brak
interlokutorów, jak i różnice indywidualne szczególnie obecne w wypowiedziach
spontanicznych), spowodowało wystąpienie większej liczby usterek w automatycznie generowanych wynikach, aniżeli miałoby to miejsce w przypadku nagrań studyjnych wysokiej jakości (por. też Szymański, Grocholewski 2005; Szymański i in.
2011). Z tych przyczyn za konieczne uznano przeprowadzenie ręcznej weryfikacji
dla wszystkich granic segmentów dla każdego z nagrań. Poza obsługą wielowarstwowych plików anotacji oraz opcjami zarządzania zbiorami plików, program Annotation Pro daje możliwość precyzyjnej instrumentalnej analizy sygnału mowy na
podstawie konfigurowalnego obrazu spektrograficznego (użytkownik ma możliwość dostosowania parametrów wyświetlanego spektrogramu w celu zapewnienia
optymalnego odczytu informacji). Na potrzeby przeprowadzenia różnego rodzaju analiz w innych narzędziach (np. wstępna ekstrakcja F0 za pomocą skryptów
programu Praat (Boersma, Weenink 2012)) wykorzystano opcje importu/eksportu
plików programu Annotation Pro. Opcje eksportu danych obejmują m.in. eksport
do formatów programu Praat, Transcriber, a także eksport indywidualnych plików
bądź ich kolekcji do plików CSV, co z kolei daje możliwość szybkiego przejścia
od plików anotacji do arkusza kalkulacyjnego (pliki CSV można zaimportować
do większości współczesnych pakietów, umożliwiających prowadzenie analiz statystycznych, np. Statistica czy Excel). Przy eksporcie kolekcji plików z programu
Annotation Pro dokonywany jest automatyczny pomiar czasu trwania wszystkich
segmentów występujących na warstwach anotacji. Stąd dla obecnego materiału dostępne są informacje o czasie trwania wszystkich zrealizowanych głosek, sylab, wyrazów oraz fraz. W ramach przyszłych prac z wykorzystaniem wymienionych narzędzi zakłada się m.in. szczegółową analizę zjawisk czasowych, z uwzględnieniem
zależności występujących zarówno na poziomie segmentalnym i suprasegmentalnym, m.in. analizę zmienności czasowej w obrębie badanych grup jednostek segmentacji (ang. Time Group Analysis) za pomocą funkcjonalności TGA wbudowanej w programie Annotation Pro (m.in. Klessa, Gibbon 2014). Omawiane narzędzie
daje również możliwość przeprowadzenia testów percepcyjnych z udziałem osób
nie mających doświadczenia w pracach fonetycznych, a w szczególności w transkrypcji czy segmentacji nagrań (np. Wagner 2011/2012). Ta funkcjonalność może
stanowić wsparcie dla końcowej analizy wyników badań nad wyznacznikami granicy frazy, dając możliwość weryfikacji zdefiniowanych wyznaczników w ramach
testów odsłuchowych z udziałem dużej liczby respondentów.
288
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
6. Badanie zgodności anotacji prozodii
W celu zweryfikowania zaproponowanego systemu anotacji prozodii przeprowadzono analizę zgodności anotacji prozodycznej na materiale obejmującym
łącznie 70 minut nagrań, w tym 36-minut materiału wcześniej przetranskrybowanego (tj. materiału, w którym znajdował się już tekst ortograficzny oraz oznaczenia zakłóceń) oraz 34-minut materiału nowego (bez żadnego tekstu). Materiał
pochodził z nagrań przemówień sejmowych, oględzin śledczych, konferencji oraz
dialogów telefonicznych pochodzących z podsłuchów policyjnych. Cały materiał
był anotowany prozodycznie jednocześnie przez sześć wyszkolonych osób. Poniższa tabela przedstawia przykład podsumowania anotacji krótkiego fragmentu
nagrania dla 6 osób wraz z graficzną reprezentacją ilości różnic mierzonej odległością Levenshteina (Gibbon 2014).
Tab. 2. Przykładowa anotacja fragmentu nagrania wykonana przez sześć osób
osoba
anotująca
tekst nagrania wraz z anotacją
A1
jest to po3dział / taki na2sz umo3wny /
mo2żna powie3dzieć //, [spk=b]
A2
jest to po2dział taki na1sz umo3wny /,
mo1żna powie3dzieć //, [spk=b]
A3
jest to po3dział ta1ki na1sz \ umo3wny /,
można powiedzieć /, [spk=b]
A4
jest to podzia3ł taki na2sz \ umo3wny można powie2dzieć /,
A5
jest to po2dział taki nasz umo3wny //,
mo2żna powie3dzieć //,
A6
jest to po2gląd ta2ki nasz umo3wny /
mo2żna powie3dzieć ///. [spk=b]
Do wyznaczenia zgodności anotacji zastosowano trzy współczynniki zgodności:
avg_Ao (Lippincott 2014), pi (Scott 1955; Siegel, Castellan 1988) oraz S (Bennett
i in. 1954). Materiał po anotacji został wcześniej przetworzony, aby stworzyć dopasowane trójki: <kod_anotującego, numer_elementu, anotowany_element>.
Tab. 3. Dopasowane trójki dla sześciu anotacji
kod
nr
element
kod
nr
element
kod
nr
element
A1
A2
1126
1126
enklawa
enklawa
A1
A2
1127
1127
i,
i,
A1
A2
1128
1128
ta
ta
289
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
kod
nr
element
kod
nr
element
kod
nr
element
A3
A4
A5
A6
1126
1126
1126
1126
enklawa
enklawa
enklawa
enklawa
A3
A4
A5
A6
1127
1127
1127
1127
i,
i
i,
A3
A4
A5
A6
1128
1128
1128
1128
ta
ta
ta
ta
Ponadto na tym etapie analizy z anotacji zostały usunięte oznaczenia prominencji sylaby, a etykiety granic prozodycznych zostały znormalizowane do jednego oznaczenia ‚i’ (zachowując przy tym znaki interpunkcyjne).
Zgodność anotacji dla całego materiału – łącznie 70 min. 52 sec. (55 plików,
średnia długość pliku 77 sec., 11226 elementów dla każdego anotującego) wynosi: avg_Ao – 0,809, pi – 0,804, S – 0,809, gdzie 1,000 oznacza pełną zgodność.
Zgodność anotacji, w której anotujący mieli wprowadzony wcześniej tekst oraz
oznaczenia zakłóceń jest wyższa o ok. 0,08 (por. tab. 4). Anotacja wykonana od
początku (bez wcześniej wprowadzonego tekstu, por. tab. 5.) była najbardziej
zgodna wśród nagrań sejmowych. Najwięcej różnic zaobserwowano w anotacji
nagrań konferencyjnych.
Tab. 4. Wyniki zgodności anotacji z podziałem na rodzaje nagrań, anotacja wykonana na
materiale z tekstem. (*6) oznacza, że dla każdego anotującego porównywana była liczba
elementów zaprezentowana w tabeli, tj. łącznie liczba_elementów * 6
Ilość plików/ elementy
avg_Ao
średni czas
(*6)
Sejm
15 min. 40 sec. 12/78 sec.
2585
0,858
Oględziny
5 min. 10 sec.
4/77 sec.
525
0,873
Dialog_telefon 13 min. 51 sec. 13/64 sec.
2311
0,829
Dialog_auto
1 min. 28 sec.
2/44 sec.
219
0,860
Ogółem
36 min. 8 sec.
31/70 sec.
5640
0,857
Czas
pi
S
0,853
0,867
0,824
0,855
0,843
0,857
0,872
0,829
0,859
0,847
Tab. 5. Wyniki zgodności anotacji z podziałem na rodzaje nagrań, anotacja wykonana od
początku (transkrypcja tekstu + anotacja prozodii)
Ilość plików/ elementy
avg_Ao
średni czas
(*6)
Sejm
15 min. 13 sec. 9/101 sec.
2253
0,861
Oględziny
5 min. 27 sec.
9/81 sec.
618
0,710
Dialog_telefon 12 min. 6 sec.
2/59 sec.
2357
0,711
Konferencja
1 min. 58 sec.
4/82 sec.
358
0,698
Ogółem
34 min. 43 sec. 24/87 sec.
5586
0,771
Czas
pi
S
0,858
0,697
0,699
0,684
0,764
0,861
0,709
0,711
0,697
0,771
290
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
Materiał po anotacji został również poddany analizom statystycznym opartym na frekwencji występowania poszczególnych oznaczeń. Rysunek 2. przestawia ilościowe zestawienie umieszczonych w tekście oznaczeń prominencji, natomiast rysunek 3. – statystyki dotyczące granic fraz z wyłączeniem interpunkcji
dla granic /, //, /// oraz %.
Rys. 2. Podsumowanie wyników anotacji prominencji: 3 – silna, 2 – średnia-słaba
i 1 – trudno powiedzieć, czy sylaba jest czy nie jest uwydatniona
Rys. 3. Podsumowanie wyników anotacji granic fraz
Wyniki analizy zgodności anotacji pokazują duże różnice w wykorzystaniu
różnego rodzaju etykiet przez osoby anotujące (np. liczba oznaczeń / między A4
i A6, por. rys. 3.), co wskazuje na dużą subiektywność w percepcji granic fraz
i prominencji. Ponadto można zaobserwować, że niektóre etykiety np. { i % były
używane tylko sporadycznie, w związku z czym należy rozważyć ich wykluczenie. Jednak ogólnie rzecz biorąc, zaprezentowane tutaj wstępne wyniki pokazują
dużą zgodność słuchaczy co do ogólnego przebiegu kształtu struktury frazowej
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
291
wypowiedzi (pozycji granic fraz bez uwzględnienia ich siły) i są one porównywalne do wyników prezentowanych w literaturze (por. sekcja 3.1.3).
7. Dyskusja i wnioski
Prozodia jest nośnikiem informacji o istotnym znaczeniu dla przetwarzania
i rozumienia mowy. O kształcie struktury prozodycznej wypowiedzi decydują
rozkład i siła prominencji, która związana jest z akcentem i zlokalizowana w tych
miejscach w wypowiedzi, gdzie znajdują się informacje nowe lub o kluczowym
znaczeniu dla przebiegu dyskursu, a także rozkład i siła granic fraz prozodycznych
związanych głównie ze strukturą składniową wypowiedzi. Prominencja i frazowanie są realizowane przez mówców za pomocą różnych wskazówek akustycznych
w dziedzinie iloczasu, wysokości tonu, intensywności, cech widmowych i jakości
głosu, które słuchacze efektywnie wykorzystują, aby uzyskać reprezentację struktury prozodycznej. Jednakże na percepcję struktur prozodycznych, przede wszystkim
zaś prominencji, wpływają także czynniki językowe i pozajęzykowe, które trzeba
wziąć pod uwagę na etapie analizy wyników percepcyjnej anotacji prozodii.
Od wielu lat prowadzone są badania w zakresie wykorzystania informacji prozodycznej w systemach technologii mowy. Wiadomo już, że efektywne modelowanie prozodii przekłada się na naturalność wypowiedzi generowanych w systemach syntezy mowy, zaś w automatycznym rozpoznawaniu mowy wykorzystanie
informacji prozodycznych może istotnie wpłynąć na poprawność rozpoznawania.
W obu przypadkach konieczne jest stworzenie korpusów mowy zawierających anotacje dostarczające spójnych i miarodajnych informacji na temat przebiegu struktury prozodycznej wypowiedzi, a także stworzenie narzędzi pozwalających na wydobywanie, przetwarzanie i dalsze wykorzystywanie tych informacji. W niniejszej
pracy zaprezentowano system anotacji prozodii dla mowy spontanicznej na potrzeby rozwijania systemu ARM dla języka polskiego. W chwili obecnej posiadamy
jedyny dla języka polskiego korpus mowy spontanicznej zawierający tak szczegółowe anotacje (nie tylko prozodyczne), a także dysponujemy autorskimi narzędziami (m.in. Annotation Pro) pozwalającymi na efektywną wielopoziomową anotację
nagrań i przetwarzanie pochodzących z anotacji danych. Jak pokazały wstępne
analizy zgodności anotacji przyjęte specyfikacje wymagają pewnych modyfikacji
(np. scalenia niektórych etykiet i usunięcia innych), zaś ogólne wyniki dotyczące
zgodności anotacji granic fraz nie odbiegają od prezentowanych w literaturze. Aby
stwierdzić czy specyfikacje wymagają uproszczenia (w zakresie liczby poziomów
prominencji i granic fraz) konieczne jest przeprowadzenie dalszych analiz.
292
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
Ogólnie rzecz biorąc, każda transkrypcja prozodyczna musi być weryfikowalna statystycznie w odniesieniu do postawionych założeń. Zasadnicze wymogi
stawiane współczesnej transkrypcji prozodycznej muszą zostać jednoznacznie
określone, na przykład według założeń umożliwiających implementację informacji prozodycznej w systemach technologii mowy, które narzucą określone
formalizacje.
1. Reprezentacja prozodii powinna być obiektywna i spójna, dobrze ugruntowana teoretycznie, łatwa do interpretacji. Punktem wyjściowym mogą być
badania percepcyjne odnoszące się do różnicowania zauważalnych zmian
wysokości tonu.
2. Transkrypcję prozodyczną należy skorelować ze strukturą czasową sygnału
(np. zmianami rytmu, układem pauz, pauz wypełnionych i innych elementów
pozajęzykowych) oraz z widmową (np. zmianami jakości głosu, redukcjami,
koartykulacjami) i również z segmentalną transkrypcją fonetyczną.
3. Transkrypcja powinna w sposób obiektywny oceniać struktury prozodyczne
w dłuższych i krótszych wypowiedziach, niezależnie od mówcy oraz stylu wypowiedzi.
4. Pożądane byłoby, aby transkrypcja powiązana była z określonymi, powyżej
wymienionymi, funkcjami intonacji w sposób jak najbardziej jednoznaczny.
5. Transkrypcja powinna uwzględniać aspekty charakterystyczne dla określonego języka oraz niezależne, uniwersalne przynajmniej dla określonej grupy
językowej.
6. Wskazana byłaby automatyzacja transkrypcji w jak największym stopniu,
zwłaszcza w przypadku dużych korpusów danych.
Dotychczas żadne transkrypcje prozodii nie spełniają tych warunków, częściowo tylko niektóre z nich (Hart i in. 2006; Pierrehumbert 1980; Taylor 1994).
Zapewne uwzględnienie wszystkich wymienionych założeń nie jest obecnie
możliwe. Za najważniejszy obecny problem w modelowaniu struktur prozodycznych należy uznać sformułowanie akustycznych wyznaczników akcentu i taki
opis, który umożliwi właściwą normalizację zmian częstotliwości podstawowej,
a więc opis kontekstowy akcentu pozwalający na analizę różnorodnych funkcji
intonacji.
Bibliografia
Aguilar, L., Bonafonte, A., Campillo, F., Mancebo, D.E. (2009). Determining intonational
boundaries from the acoustic signal. W: R. Moore (red.), Proceedings of Interspeech
2009 (2447–2450). Brighton. Pozyskano z http://www.isca-speech.org/archive/archive_papers/interspeech_2009/papers/i09_2447.pdf
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
293
Andreeva, B., Barry, W.J., Steiner, I. (2007). Producing phrasal prominence in German.
W: J. Trouvain, W.J. Barry (red.), Proceedings of the 16th International Congress of
Phonetic Sciences (1209–1212). Saarbrücken: University of Saarbrücken. Pozyskano z:
http://www.icphs2007.de/conference/Papers/1699/1699.pdf
Aylett, M., Turk, A. (2004). The smooth signal redundancy hypothesis: A functional explanation for relationships between redundancy, prosodic prominence, and duration
in spontaneous speech, Language and Speech, 47 (1), 31–56.
Barras, C., Geoffrois, E., Wu, Z., Liberman, M. (2001). Transcriber: Development and use
of a tool for assisting speech corpora production, Speech Communication, 33 (1–2),
5–22.
Beckman, M., Ayers, G. (1997). Guidelines for ToBI labeling (Version 3.0). Manuscript and
accompanying speech materials. Pozyskano z http://www.ling.ohio-state.edu/~tobi/
ame_tobi/labelling_guide_v3.pdf.
Beckman, M.E., Edwards, J. (1994). Articulatory evidence for differentiating stress categories. W: P.A. Keating (red.), Phonological Structure and Phonetic Form: Papers in Laboratory Phonology III (7–33). Cambridge: Cambridge University Press.
Beckman, M.E., Hirschberg, J. (1994). The ToBI annotation conventions. Pozyskano
z www.cs.columbia.edu/~agus/tobi/tobi_convent.pdf
Beckman, M.E., Hirschberg, J.B., Shattuck-Hufnagel, S. (2004). The original ToBI system
and the evolution of the ToBI framework. W: Sun-Ah Jun (red.), Prosodic models and
transcription: Towards prosodic typology (9–54). Oxford: Oxford University Press.
Beckman, M., Pierrehumbert, J. (1986). Intonational structure in Japanese and English,
Phonology Yearbook, 3, 255–309.
Bennett, E.M., Alpert, R., Goldstein, A.C. (1954). Communications through limited response questioning, Public Opinion Quarterly, 18, 303–308.
Boersma, P. Weenink, P. (2012). Praat – doing phonetics with a computer. Program komputerowy, wersja 5.3.39. Pozyskano z http://www.fon.hum.uva.nl/praat/.
Botinis, A., Granström, B., Möbius, B. (2001). Developments and paradigms in intonation research, Speech Communication, 33 (4), 263–296.
Breen, M., Dilley, L.C., Kraemer, J., Gibson, E. (2012). Inter-transcriber reliability for two
systems of prosodic annotation: ToBI (Tones and Break Indices) and RaP (Rhythm
and Pitch), Corpus Linguistics and Linguistic Theory, 8 (2), 277–312.
Bulyko, I., Ostendorf, M. (2001). Joint prosody prediction and unit selection for concatenative speech synthesis, Acoustics, Speech, and Signal Processing, 2, 781–784.
Carlson, R., Hirschberg, J., Swerts, M. (2005). Cues to upcoming Swedish prosodic
boundaries: Subjective judgment studies and acoustic correlates, Speech communication, 46 (3), 326–333.
Carlson, R., Swerts, M. (2003). Perceptually based prediction of upcoming prosodic breaks
in spontaneous Swedish speech materials. W: W: M.J. Solé, D. Recasens, J. Romero
294
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
(red.), Proceedings of the 15th international congress of phonetic sciences (375–378). Barcelona. Pozyskano z http://www.speech.kth.se/prod/publications/files/913.pdf
Clifton, C., Carlson, K., Frazier, L. (2002). Informative prosodic boundaries, Language
and Speech, 45 (2), 87–114.
Cole, J., Mo, Y., Baek, S. (2010b). The role of syntactic structure in guiding prosody perception with ordinary listeners and everyday speech, Language and Cognitive Processes, 25 (7–9), 1141–1177.
Cole, J., Mo, Y., Hasegawa-Johnson, M. (2010a). Signal-based and expectation-based factors in the perception of prosodic prominence, Laboratory Phonology, 1 (2), 425–452.
Collier, R. (1991). Multilanguage intonation synthesis, Journal of Phonetics, 19 (1), 61–73.
Demenko, G. (1999). Analiza cech suprasegmentalnych na potrzeby technologii mowy.
Poznań: Wydawnictwo UAM.
Demenko G. (2000). Automatic analysis of phrase in Polish. Speech and Language Technology, 4, 13–22.
Demenko, G., Baranowska, E., Wypych, M. (2003). A Grapheme-to-Phoneme Algorithm
Based on SAMPA alphabet extension for the Polish language, Speech and Language
Technology, 7, 2–17.
De Pijper, J. R. (1983). Modelling British English Intonation (Vol. 3). Dordrecht: Walter de
Gruyter.
Dogil, G. (1999). The phonetic manifestation of word stress in Lithuanian, Polish and
German and Spanish. W: H. van der Hulst (red.), Word prosodic systems in the languages of Europe (273–311). Berlin: Mouton de Gruyter.
Fossler-Lussier, E., Morgan, N. (1999). Effects of speaking rate and word frequency on
pronunciations in conventional speech, Speech Communication, 29 (2), 137–158.
Francuzik K., Karpiński M. Kleśta J. (2002). A preliminary study of the intonational phrase,
nuclear melody and pauses in Polish semi-spontaneous narration. W: Proceedings of
Speech Prosody 2002 (303-306). Aix-en-Provence: ProSig and Universite de Provence.
Pozyskano z http://www.isca-speech.org/archive/sp2002/papers/sp02_303.pdf
Frazier, L., Clifton, C., Jr., Carlson, K. (2004). Don’t break or do: Prosodic boundary preferences, Lingua, 114, 3–27.
Gibbon, D. (2014). Visualisation of distances in language quality spaces: DistGraph,
a teaching tool for language typology data mining. Pozyskano z http://wwwhomes.unibielefeld.de/gibbon/DistGraph/.
Grice, M., Reyelt, M., Benzmüller, R., Mayer, J., Batliner, A. (1996). Consistency in transcription and labelling of German intonation with GToBI. W: Proceedings of The Fourth
International Conference on Spoken Language Processing (1716–1719). Philadelphia.
Hart, J.T., Collier, R., Cohen, A. (2006). A perceptual study of intonation: an experimentalphonetic approach to speech melody. Cambridge: Cambridge University Press.
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
295
Hasegawa-Johnson, M., Chen, K., Cole, J., Borys, S., Kim, S.S., Cohen, A., Chavarria, S.
(2005). Simultaneous recognition of words and prosody in the boston university radio speech corpus, Speech Communication, 46 (3), 418–439.
Hayes, B. (1994). Metrical stress theory: principles and case studies. Chicago: University of
Chicago Press.
Horne, M., Strangert, E. Heldner, M. (1995.) Prosodic boundary strength in Swedish:
final lengthening and silent interval duration. W: K. Elenius, P. Branderud (red.), Proceedings of the 13th International Congress of Phonetic Sciences (170–173). Stockholm.
Jarmołowicz, E., Karpiński, M., Malisz, Z., Szczyszek, M. (2007). Gesture, prosody and
lexicon in task-oriented dialogues: multimedia corpus recording and labelling. W:
A. Esposito, M. Faundez-Zanuy, E. Keller, M. Marinaro (red.), Verbal and Nonverbal
Communication Behaviours (99–110). Berlin Heidelberg: Springer Verlag.
Jassem, W. 1962. Akcent języka polskiego. Wrocław: Ossolineum.
Jassem, W., Hill, D., Witten, I.H. (1984). Isochrony in English speech: Its statistical validity and linguistic relevance. W: D. Gibbon, H. Richter. (red.). Intonation, accent and
rhythm, Studies in Discourse Phonology, 8, 203–225.
Jun, S.A., Lee, S.H., Kim, K., Lee, Y.J. (2000). Labeler agreement in transcribing Korean
intonation with K-ToBI. W: Proceedings of Interspeech 2000 (211–214). Beijing.
Kim, H., Yoon, T.J., Cole, J., Hasegawa-Johnson, M. (2006). Acoustic differentiation of
L-and LL% in switchboard and radio news speech. W: Proceedings of Speech Prosody
(214–217). Dresden.
Klessa, K. (2006). Analiza iloczasu głoskowego na potrzeby syntezy mowy polskiej. (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im. Adama
Mickiewicza, Poznań.
Klessa, K., Gibbon, D. (2014). Annotation Pro + TGA: automation of speech timing analysis. W: Proceedings of the 9th Language Resources and Evaluation Conference (1499–
1505). Reykjavik.
Klessa, K., Karpiński, M., Bałdys, O., Demenko, G. (2009/2010). Speechlabs ASR. Polish
Lexical Database for Speech Technology: Design and Architecture, Speech and Language Technology, 12/13, 191–207.
Klessa, K., Karpiński, M., Wagner, A. (2013). Annotation Pro – a new software tool for
annotation of linguistic and paralinguistic features. W: D. Hirst, B. Bigi (red.). Proceedings of the Tools and Resources for the Analysis of Speech Prosody (TRASP) Workshop (51–54). Aix en Provence.
Kochanski, G., Grabe, E., Coleman, J. Rosner, B. (2005). Loudness predicts prominence:
Fundamental frequency lends little, Journal of the Acoustical Society of America, 118
(2), 1038–1054.
Ladd, D.R. (1996). Intonational phonology. Cambridge: Cambridge University Press.
Liberman, M., Prince, A. (1977). On stress and linguistic rhythm. Linguistic Inquiry, 8,
249–236.
296
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
Lippincott, T. Natural Language Toolkit: Agreement Metrics. Copyright (C) 2001–2014
NLTK Project. Pozyskano z http://www.nltk.org/_modules/nltk/metrics/agreement.
html#AnnotationTask.avg_Ao
Malisz, Z., Wagner, P. (2012). Acoustic-phonetic realisation of Polish syllable prominence: a corpus study, Speech and Language Technology, 14/15, 105–114.
Malisz, Z., Żygis, M., Pompino-Marschall, B. (2013). Rhythmic structure effects on glottalisation: A study of different speech styles in Polish and German, Laboratory Phonology, 4 (1), 119–158.
Minematsu, N., Tsuda, K., Hirose, K. (2001). Quantitative analysis of F0-induced variations of cepstrum coefficients. Pozyskano z http://www.isca-speech.org/archive_open/
archive_papers/prosody_2001/prsr_021.pdf.
O’Connor J.D., Arnold G.F. (1973). Intonation of Colloquial English. London: Longman.
Pierrehumbert, J.B. (1980). The phonology and phonetics of English intonation (niepublikowana rozprawa doktorska). Cambridge: Massachusetts Institute of Technology.
Pitrelli, J.F., Beckman, M.E., Hirschberg, J. (1994). Evaluation of prosodic transcription
labeling reliability in the ToBI framework. W: Proceedings of ICSLP (123–126). Tokyo.
Scott, W. (1955). Reliability of content analysis: The case of nominal scale coding, Public
Opinion Quarterly, 19 (3), 321–325.
Selkirk, E.O. (1984). The relation between sound and structure. Cambridge: MIT Press.
Selkirk, E. (1996). Sentence prosody: Intonation, stress and phrasing. W: J. Goldsmith
(red.), The handbook of phonological theory (550–569). Cambridge, Mass.: Blackwell.
Siegel, S., Castellan, J.N. (1988). Nonparametric statistics for the behavioral sciences. Boston: McGraw–Hill Book Company.
Silverman, K., Beckman, M., Pitrelli J., Ostendorf, M., Wightman, C., Price, P., Pierrehumbert, J., Hirschberg, J. (1992). ToBI: A standard scheme for labeling prosody. W:
Proceedings of the Second International Conference on Spoken Language Processing
(867–879). Alberta. Pozyskano z http://www.isca-speech.org/archive/archive_papers/icslp_1992/i92_0867.pdf
Sluijter, A., van Heuven, V. (1996). Spectral balance as an acoustic correlate of linguistic
stress, Journal of the Acoustical Society of America, 100 (4), 2471–2485.
Steffen-Batogowa, M. (2000). Struktura akcentowa języka polskiego. Warszawa-Poznań:
Wydawnictwo Naukowe PWN.
Syrdal, A.K., McGory, J.T. (2000). Inter-transcriber reliability of ToBI prosodic labeling.
W: Proceedings of Interspeech 2000 (235–238). Beijing. Pozyskano z http://www.isca-speech.org/archive/archive_papers/icslp_2000/i00_3235.pdf
Szymański, M., Grocholewski, S. (2005). Semi-Automatic Segmentation of Speech: Manual Segmentation Strategy. Problem Space Analysis. W: M. Kuzryński, E. Puchała,
M. Woźniak, A. Żołnierek (red.), Advances in Soft Computing, Computer Recognition
Systems (747–755). Berlin: Springer.
Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby…
297
Szymański M., Klessa K., Breuer S. Demenko G. (2011). Optimization of unit selection
speech synthesis. W: W.S. Lee, E. Zee (red.), Proceedings of the XVIIth International
Congress of Phonetic Sciences (1930–1933). Hong Kong: City University of Hong Kong.
Tamburini, F. (2005). Automatic prominence identification and prosodic typology. W:
Proceedings of Interspeech 2005 (1813–1816). Lisbon.
Taylor, P. (1995), The rise/fall connection model of intonation, Speech Comunication, 15
(1–2), 169–185.
Trim, J. (1959). Major and minor tone groups in English, Le Maitre Phonetique, 112, 26–29.
Turk, A., White, L. (1999). Structural influences on accentual lengthening in English,
Journal of Phonetics, 27 (2), 171–206.
Wagner, A. (2008). Comprehensive model of intonation for application in speech synthesis. (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im.
Adama Mickiewicza, Poznań.
Wagner, A. (2009) Analysis and recognition of accentual patterns. W: : R. Moore (red.),
Proceedings of Interspeech 2009 (2427-2430). Brighton. Pozyskano z http://www.iscaspeech.org/archive/archive_papers/interspeech_2009/papers/i09_2427.pdf
Wagner, A. (2010). Acoustic cues for automatic determination of phrasing. W: Proceedings of Speech Prosody 2010 (paper 100196). Pozyskano z http://speechprosody2010.
illinois.edu/papers/100196.pdf.
Wagner, A. (2011/2012). Emotional speech production and perception in Polish: A framework of analysis, Speech and Language Technology, 14/15, 163–183.
Wagner, A. (2014). Rhythmic structure of utterances in native and non-native Polish. W:
N. Campbell, D. Gibbon, D. Hirst (red.), Proceedings of Speech Prosody (337–341).
Dublin: Trinity College Dublin.
Watson, D.G., Arnold, J.E., Tanenhaus, M.K. (2008). Tic Tac TOE: Effects of predictability and importance on acoustic prominence in language production, Cognition, 106
(3), 1548–1557.
Watson, D., Gibson, E. (2004). The relationship between intonational phrasing and syntactic structure in language production, Language and Cognitive Processes, 19 (6),
713–755.
Wells, J.C. (1997). SAMPA: computer readable phonetic alphabet. W: D. Gibbon,
R. Moore, R. Winski (red.), Handbook of Standards and Resources for Spoken Language Systems (Part IV, section B). Berlin and New York: Mouton de Gruyter. Pozyskano
z www.phon.ucl.ac.uk/home/sampa
Wightman, C.W., Shattuck-Hufnagel, S., Ostendorf, M., Price, P.J. (1992). Segmental durations in the vicinity of prosodic phrase boundaries, Journal of the Acoustical Society
of America, 91, 1707–1717.
Yoon, T., Chavarria, S., Cole, J., Hasegawa-Johnson, M. (2004). Intertranscriber reliability of prosodic labeling on telephone conversation using ToBI. W: Proceedings of
298
Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko
Interspeech 2004 (2729–2732). Jeju Island. Pozyskano z http://www.isca-speech.org/
archive/archive_papers/interspeech_2004/i04_2729.pdf
Yoon, T-J., Cole, J., Hasegawa-Johnson, M. (2007). On the edge: Acoustic cues to layered
prosodic domains. W: J. Trouvain, W. J. Barry (red.), Proceedings of the 16th International Congress of Phonetic Sciences (1017–1020). Saarbrücken.
The overview of selected aspects of speech prosody analysis for the
purpose of speech technology
summary
The paper overviews the state-of-the-art literature on speech prosody and on the use
of prosodic information in speech technology systems, in particular in automatic speech
recognition (ASR). For many years now, the authors of the paper have addressed such
research topics as e.g. problems related to prosodic annotation of spontaneous speech
(including the issue of the number of levels of phrasing, the role of non-acoustic features
in the perception of prosody), acoustic correlates of prosodic prominence and boundaries, specifications of the perceptual description of prosodic structure of spontaneous
speech and the consistency of the perceptual annotation of prosody. The article discusses
the above-mentioned issues, taking into account the practical experience gained by the
authors in numerous research and research-developmental projects which resulted in the
creation of speech recognition and synthesis systems for Polish and computer-assisted
pronunciation training for Polish as a foreign language.