PrzegląD WyBrAnych AsPektóW AnAlizy ProzoDii moWy
Transkrypt
PrzegląD WyBrAnych AsPektóW AnAlizy ProzoDii moWy
PRACE FILOLOGICZNE, tom LXVI PF 2015 (LXVI): 271–298 Agnieszka Wagner Jolanta Bachan Katarzyna KLessa Grażyna Demenko Instytut Językoznawstwa Uniwersytet im. Adama Mickiewicza w Poznaniu Al. Niepodległości 4 61-874 Poznań tel. (61) 82 93 663 e-mail: [email protected] [email protected] [email protected] [email protected] Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby technologii mowy1 SŁOWA KLUCZOWE: anotacja percepcyjna prozodii, automatyczne rozpoznawanie mowy KEY WORDS: perceptual annotation of prosody, automatic speech recognition 1. Cel pracy W pracy omówiono zagadnienia związane z opisem struktury prozodycznej mowy spontanicznej na potrzeby technologii mowy, ze szczególnym uwzględnieniem automatycznego rozpoznawania mowy i sformułowano podstawowe zasady anotacji prozodycznej dla języka polskiego na potrzeby automatycznej kategoryzacji fraz prozodycznych oraz prominencji prozodycznej. Celem pracy Badania finansowane ze środków NCBiR – projekt rozwojowy nr DOBR/0008/R/ID1/2013/03 „Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst, dedykowany dla służb odpowiedzialnych za bezpieczeństwo państwa”. 1 272 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko było również przedstawienie założeń dotyczących akustycznych korelatów prominencji i granic fraz prozodycznych na podstawie wyników najnowszych badań prezentowanych w literaturze (w tym badań własnych autorek pracy). Ponadto omówiono wyniki wstępnej analizy spójności anotacji prozodycznej. Praca miała również na celu przedstawienie narzędzi zaprojektowanych i zastosowanych w celu wydobycia i ilościowej analizy danych będących wynikiem anotacji prozodycznej (i nie tylko) materiału słownego. Wnioski płynące z krytycznego przeglądu literatury, jak i te, będące wynikiem badań własnych i doświadczeń zebranych w trakcie realizacji zadań w projekcie ARM2, mają istotne znaczenie dla metodologii przyszłych badań w dziedzinie produkcji i percepcji prozodii oraz tworzenia praktycznych rozwiązań w zakresie pozyskiwania, przetwarzania i dalszego wykorzystania informacji prozodycznej w systemach technologii mowy. 2. Przegląd literatury 2.1. Struktura prozodyczna, prominencja i frazowanie Struktura prozodyczna wypowiedzi, którą wyznacza rozkład prominencji i granic fraz prozodycznych, odgrywa istotną rolę w rozumieniu mowy, gdyż zmniejsza wysiłek poznawczy towarzyszący jej przetwarzaniu poprzez dostarczenie podstawowych ram pozwalających na przechowanie sekwencji sygnałów językowych, w czasie gdy są one przetwarzane przez mózg (Clifton i in. 2002). Z punktu widzenia percepcji mowy prominencja jest związana z uwydatnieniem pewnej sylaby, czy też całego słowa, w taki sposób, że wyróżnia się ona/ono spośród sąsiednich sylab/słów. Natomiast na poziomie produkcji jest ona realizowana poprzez zmiany różnych cech akustycznych sygnału mowy (m.in. iloczas, F0, intensywność, por. sekcja 2.2). W fonologii autosegmentalno-metrycznej (Liberman, Prince 1977; Selkirk 1984; Hayes 1994; Ladd 1996), prominencję definiuje się jako aspekt fonologicznej reprezentacji wypowiedzi wywodzący się z jej struktury metrycznej (Cole i in. 2010a, str. 426). W tym ujęciu, prominencja ma charakter strukturalny i jest własnością tych sylab/słów, które w strukturze metrycznej wypowiedzi zajmują silną pozycję. Ponieważ struktura metryczna może mieć więcej niż jedną warstwę, np. jedną, dotyczącą relacji między sylabami w wyrazach (słaba vs. silna) i drugą, dotyczącą relacji między wyrazami we frazie, prominencje będą się różniły pod względem siły, czy też poziomu. I tak, na poziomie pojedynczych wyrazów mówimy o prominencji niższego poziomu, której dziedziną są sylaby akcentowane (ang. stressed). Z kolei prominencja frazowa Projekt nr DOBR/0008/R/ID1/2013/03 2 Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 273 to prominencja wyższego poziomu, a jej dziedziną są wyrazy niosące nowe lub/i ważne z punktu widzenia rozwoju dyskursu informacje (ang. focus vs. giveness). Selkirk (1996) dokonała rozróżnienia między czterema poziomami prominencji, zaczynając od jej braku, poprzez sylaby z akcentem wyrazowym (ang. stress), sylaby z akcentem melodycznym (ang. pitch accent), aż do sylab z akcentem frazowym (czyli prominencja frazowa – najwyższy poziom prominencji). Obok prominencji, struktura prozodyczna jest także efektem grupowania, czyli podziału wypowiedzi na mniejsze fragmenty – frazy prozodyczne, obejmujące jeden lub kilka wyrazów i charakteryzujące się spójnością znaczeniową (Selkirk 1984; Frazier i in. 2004). Podział na frazy jest uwarunkowany w znacznej mierze również strukturą syntaktyczną wypowiedzi i właściwościami fonologicznymi, takimi jak np. długość frazy w sylabach, czy też pozycja akcentu frazowego (Watson, Gibson 2004). Podobnie jak w przypadku prominencji, także w odniesieniu do frazowania mówimy o różnych jego poziomach3, co związane jest z pozycją konkretnych fraz w strukturze prozodycznej wypowiedzi (np. Trim 1959; O’Connor, Arnold 1973; Beckman, Pierrehumbert 1986; Ladd 1996). 2.2. Akustyczne korelaty struktury prozodycznej 2.2.1. Prominencja Na poziomie akustycznym prominencja jest realizowana poprzez wydłużenie iloczasu, wzrost intensywności/głośności, dystynktywne zmiany wysokości tonu związane z akcentem melodycznym (ang. pitch accent), zmiany w strukturze widmowej związane z wysiłkiem głosowym i/lub ustawieniem krtani oraz zmiany w częstotliwościach formantów informujące o precyzji artykulacji (m.in. Jassem 1962; Beckman, Edwards 1994; Dogil 1999; Sluijter, van Heuven 1996; Turk, White 1999; Demenko 1999; Tamburini 2005; Kochanski i in. 2005; Andreeva i in. 2007; Wagner 2008; Wagner 2014). Wraz ze wzrostem poziomu prominencji, czyli od akcentu wyrazowego przez akcent melodyczny po akcent frazowy (por. Selkirk 1996), zwiększa się udział poszczególnych cech akustycznych, np. silna prominencja jest realizowana poprzez znaczniejsze wydłużenie iloczasu samogłoski/sylaby akcentowanej niż prominencja o średnim i słabym poziomie (Malisz, Wagner 2012; Wagner 2014). Przeprowadzone dla poszczególnych języków eksperymenty w zakresie struktury akcentowej wypowiedzi, ściśle związanej z realizacją prominencji, często znacznie różniące się metodologiami, można poklasyfikować według badanych cech częstotliwości podstawowej, takich jak np. umiejscowienie zmiany parametru F0, szybkość, interwał zmiany oraz typ intonacji. Dodatkowo także analizuje Zobacz również dyskusję w sekcji 3.3. 3 274 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko się strukturę sylaby oraz kontekst. W najnowszych badaniach podkreśla się istotność interakcji akcentu zarówno ze strukturą językową (mikroprozodią, kontekstem leksykalnym, dyskursem), jak i pozajęzykową (związaną np. z fizjologicznymi uwarunkowaniami wysiłku głosowego lub z emocjami). Konieczne staje się rozwiązanie problemu zweryfikowania założeń odnośnie do: 1) segmentacji, 2) akustycznych wyznaczników akcentu oraz 3) normalizacji. 1)Segmentacja. Podstawowym problemem jest podział wypowiedzi na grupy akcentowe (ewentualnie tzw. zestroje, stopy akcentowe). Definicje tych jednostek nie są wystarczająco precyzyjne dla automatycznych klasyfikacji (Jassem 1962; Steffen-Batogowa 2000). 2) Akustyczne wyznaczniki akcentów. Obszerne badania w tym zakresie zapoczątkowali między innymi de Pijper (1983), Collier (1991) i Hart (Hart i in. 2006), tworząc podstawy pozwalające określić, które zmiany częstotliwości podstawowej są istotne w percepcji melodii mowy. 3)Normalizacja. Potrzeba normalizacji zmian wysokości tonu związana jest z wieloma uwarunkowaniami, między innymi z różnicami międzyosobniczymi, stylistycznymi, sposobem wypowiedzi powiązanym z ekspresywnością oraz wysiłkiem głosowym. Sposób normalizacji położenia sylaby akcentowanej – prominentnej na skali częstotliwości i zakresu zmian częstotliwości podstawowej stanowi od wielu lat nierozwiązany problem (Botinis i in.. 2001). Analiza akustycznej realizacji prominencji w języku polskim przedstawiona w pracy Wagner (2009) pokazała, że jej najistotniejszymi korelatami są kolejno: ogólna zmienność wysokości tonu na sylabie akcentowanej, względny znormalizowany iloczas sylaby i samogłoski akcentowanej, kształt przebiegu zmiany wysokości tonu oraz wartość maksymalna F0 na sylabie akcentowanej. Automatyczna detekcja prominencji na poziomie wyrazu (tzn. pod uwagę wzięto tylko sylaby z akcentem wyrazowym, ang. stressed) na podstawie zbioru wymienionych tutaj cech charakteryzowała się dokładnością w granicach 78%-72% w zależności od modelu (sieci neuronowe, drzewa decyzyjne – CART, analiza dyskryminacyjna), natomiast w klasyfikacji poszczególnych typów akcentów (H*L, L*H, LH*, HL*, LH*L) dokładność modeli wahała się między 27% a 81%. 2.2.2. Frazowanie Za główny i uniwersalny wyznacznik granicy frazy przyjmuje się wydłużenie iloczasu sylab o końcowej pozycji we frazie (Wightman i in. 1992; Yoon i in. 2007; Wagner 2010; Cole i in. 2010b), przy czym stopień wydłużenia jest pozytywnie skorelowany z siłą granicy. Innymi ważnymi korelatami są obecność i długość pauzy (Horne i in. 1995; Bulyko, Ostendorf 2001) oraz przebieg konturu intonacyjnego (Carlson, Swerts 2003; Aguilar i in. 2009; Carlson i in. 2005; Kim i in. Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 275 2008). Obecność granicy frazy jest sygnalizowana również w mniejszym stopniu poprzez zmiany w zakresie intensywności i jakości głosu, takie jak glotalizacja samogłosek na początku frazy i laryngalizacja samogłosek na końcu (por. Cole i in. 2010a). Jak pokazano m.in. w pracy Wightmana i in. (1992) zmiany w dziedzinie konkretnych cech akustycznych są proporcjonalne do siły granicy frazy, np. w przypadku granic fraz zajmujących wyższą pozycję w hierarchii samogłoska/ sylaba wygłosowa ulega znaczniejszemu wydłużeniu niż w realizacji fraz niższego poziomu4. W odniesieniu do języka polskiego badania akustycznych korelatów struktury prozodycznej (Demenko 2000; Francuzik i in. 2002; Klessa 2006; Wagner 2008) pokazały istotny udział iloczasu oraz parametrów w dziedzinie F0 w realizacji prominencji oraz granic fraz. W dziedzinie czasu obecność granicy jest sygnalizowana przede wszystkim przez znaczne wydłużenie iloczasu ostatniej we frazie sylaby i jej samogłoski oraz wydłużenie iloczasu samogłoski sylaby poprzedzającej sylabę o pozycji końcowej (Wagner 2008). Na podstawie małego zbioru cech akustycznych udało się stworzyć modele automatycznej detekcji granic fraz prozodycznych w mowie czytanej, których średnia dokładność sięgała 82% (Wagner 2008). Wyniki automatycznej klasyfikacji typu granicy frazy5 wahały się między 81% i 87,6%. 2.3. Znaczenie prozodii dla przetwarzania i rozumienia języka w kontekście technologii mowy Systemy technologii mowy powinny opierać się na interpretacji i rozumieniu treści, a więc na kognitywnej analizie cech akustycznych oraz fonetycznych na różnych poziomach językowego i pozajęzykowego przetwarzania. Na poziomie fonologicznej oraz fonetyczno-akustycznej analizy, bardzo wyraźnie wyodrębniło się zagadnienie kompleksowego modelowania prozodycznej (suprasegmentalnej) struktury mowy. Wiedza prozodyczna w bardzo znacznym stopniu jest wykorzystywana zarówno przez mówcę, jak i przez słuchacza, głównie w segmentacji oraz uwydatnianiu znaczenia poszczególnych fragmentów wypowiedzi. Dzisiejsze systemy wykorzystują tę wiedzę jedynie w bardzo ograniczony sposób (np. synteza mowy) lub całkowicie ją z tych analiz eliminują (np. rozpoznawanie mowy/mówcy). Bezpośrednią przyczyną ograniczeń w wykorzystaniu tego niezwykle ważnego źródła informacji jest brak adekwatnych technik ich ekstrakcji i modelowania. Najważniejszym problemem modelowania prozodii na potrzeby technologii, zwłaszcza rozpoznawania mowy, jest niewątpliwie segmentacja sygnału mowy. Zobacz też dyskusję w sekcji 3.3. 4 typy granic: silna (IP) rosnąca i opadająca, słaba (ip) rosnąca i opadająca; w klasyfikacji wzięto pod uwagę tylko sylaby o końcowej pozycji we frazie. 4 5 276 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko Problem wyznaczania granicy frazy oraz mniejszych jednostek prozodycznych jest tylko częściowo rozwiązywany poprzez powierzchowną analizę gramatyczną. Punkt wyjścia dla anotacji struktur melodycznych w korpusach i modelowania prozodii stanowią informacje gramatyczne związane głównie ze znakami interpunkcyjnymi i spójnikami, określające frazy syntaktyczne. W tekście pisanym funkcję podziału tekstu na sekwencje wyrazów stanowiących spójną całość pod względem syntaktycznym lub semantycznym pełnią znaki interpunkcyjne, których obecność pozwala odbiorcy przeprowadzać podział tekstu na jednostki informacji zgodnie z intencją nadawcy. W tekście mówionym wyodrębnianie jednostek zwanych frazami jest osiągane głównie poprzez realizację określonych wzorców prozodycznych. Także informacja dotycząca prominencji i jej siły/poziomu ma bardzo istotne znaczenie w kontekście rozpoznawania mowy, ponieważ prominencja (akcent) ma na tyle silny wpływ na fonetyczno-akustyczną realizację6 głosek, że może powodować błędy rozpoznawania. Ponadto pozycja akcentu wyrazowego (słaba prominencja) częściowo informuje o granicy wyrazu, zaś pozycja akcentu frazowego (silna prominencja) niesie wskazówki odnośnie roli danego wyrazu w rozwoju dyskursu. Jak pokazano m.in. w pracach Cole i in. (2005), uwzględnienie tego rodzaju informacji prozodycznej w systemie rozpoznawaniu mowy poprzez wykorzystanie interakcji między modelem akustycznym i językowym (tzw.. prosody dependent speech recognition) może istotnie przyczynić się do zmniejszenia błędów rozpoznawania (ang. word error rate). W odniesieniu do mowy spontanicznej, zwłaszcza ekspresywnej, opis i modelowanie prozodii bezwzględnie wymaga uwzględnienia nie tylko aspektów językowych, ale również parajęzykowych i pozajęzykowych w znacznie szerszym zakresie niż w przypadku wypowiedzi neutralnych. Zasadniczą kwestią jest poznanie i sformalizowanie funkcji intonacji, zwłaszcza jej wpływu na fonetycznoakustyczne struktury. Wiadomo, iż zmiana F0 o oktawę w diametralny sposób zmienia widmo sygnału (Minematsu i in. 2001). Bardzo istotne stają się czynniki związane ze zmianami tempa, amplitudy sygnału, zwiększonej zmienności częstotliwości podstawowej (uwarunkowanych różnorodnymi czynnikami), a dodatkowo jeszcze pojawia się prozodia elementów typowo niejęzykowych (jak np. pauz wypełnionych). 3. Opis struktury prozodycznej wypowiedzi W niniejszym rozdziale przedstawiono zagadnienia związane z opisem prozodii na poziomie produkcji i percepcji, w tym systemy anotacji prozodii, z których W sylabach akcentowanych prominentnych – większa precyzja artykulacyjna w wymowie spółgłosek, bardziej kanoniczna wymowa samogłosek. 6 Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 277 jeden – ToBI – uważany jest za międzynarodowy standard w transkrypcji prozodii, natomiast drugi – RaP – jest mniej upowszechniony, ale ze względu na pewne swoje cechy może on stanowić alternatywę dla ToBI. Specyfikacje anotacji prozodii przyjęte w obecnej pracy są wynikiem krytycznej oceny zalet i wad obu systemów. Ponadto omówiono zagadnienie czynników pozaakustycznych wpływających na percepcję prozodii i kwestię liczby poziomów frazowania, które również uwzględniono tworząc specyfikacje przedstawione w rozdziale 4. pracy. 3.1. Systemy anotacji prozodii 3.1.1. ToBI (ang. Tones and Break Indices) System ToBI (Silvermann i in. 1992; Beckman, Hirschberg 1994; Beckman, Ayers 1997; Beckman i in. 2004) opiera się na modelu autosegmentalno-metrycznym intonacji (Pierrehumbert 1980) i powstał pierwotnie na potrzeby anotacji intonacji języka angielskiego (amerykańskiego), ale szybko zaczął być adaptowany do innych języków, m.in. hiszpańskiego, niemieckiego, koreańskiego, czy też greckiego. Pojęcie tonów (ang. tones) odnosi się do opisu wzorców intonacyjnych jako sekwencji kategorii tonalnych: akcentów melodycznych (ang. pitch accents), akcentów frazowych (ang. phrase accents) i tonów frazowych (ang. boundary tones), zaś indeksy odnoszą się do opisu struktury prozodycznej i pozwalają na grupowanie mniejszych elementów składowych tej struktury (czyli ang. intermediate phrases) w większe elementy (ang. intonational phrases). Akcenty melodyczne są realizowane jako pojedyncze tony (H* lub L*) lub jako kombinacja dwóch tonów (np. L+H*, H+L*). W systemie ToBI akcenty mono- i bitonalne posiadają ten sam status w strukturze prozodycznej wypowiedzi, gdyż nie rozróżnia się między akcentami prenuklearnymi i nuklearnymi (wyznacznikiem tych drugich jest tylko końcowa pozycja w wypowiedzi, por. hierarchiczny model struktury prozodycznej Jassema i in. (1984)). Akcenty frazowe i tony frazowe są zawsze monotonalne. Tony H i L można zidentyfikować jako miejsca docelowe lub punkty zwrotne w konturze – kolejno jako maksimum i minimum częstotliwości podstawowej (F0) wyznaczających zakres tonu głosu mówcy, realizowane na konkretnych sylabach lub w ich pobliżu (np. etykieta L+H* oznacza niski ton na sylabie poprzedzającej sylabę akcentowaną, na której zrealizowano ton wysoki). Ich dokładne skalowanie podlega wpływowi zjawisk znanych jako downstep i upstep (Ladd 1996). Indeksy przerwy (ang. break indices) oznaczają siłę granicy występującej po danym elemencie struktury prozodycznej, tj. są „wskaźnikiem postrzeganej przez słuchacza siły połączenia między każdą parą wyrazów w wypowiedzi oraz między wyrazem ostatnim a ciszą na końcu wypowiedzi” (Beckman, Ayers 1997, s. 31). System ToBI rozróżnia między pięcioma indeksami: 0 – granica między wyrazami, 278 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko z których jeden jest klityką, 1 – granica między wyrazami prozodycznymi, 2 – granica mająca pewne cechy granicy intermediate phrase, ale wyrazy nie tworzą takiej frazy, 3 – granica intermediate phrase, 4 – granica intonational phrase. System ToBI był i nadal jest stosowany do anotacji prozodii w korpusach mowy przeznaczonych dla różnych aplikacji, m.in. Boston Radio News Corpus, Boston Direction Corpus, czy też Colorado University Corpus, a dostarczone za jego pomocą informacje odnośnie struktury prozodycznej wypowiedzi z powodzeniem wykorzystano w licznych badaniach, w tym również w dziedzinie automatycznego rozpoznawania mowy (Hasegawa-Johnson i in. 2005). 3.1.2. RaP (ang. Rhythm and Pitch) RaP (Breen i in. 2012), podobnie jak ToBI, opiera się na teorii autosegmentalno-metrycznej. Transkrypcja w systemie RaP ma charakter percepcyjny, odsłuchowy i nie wymaga wizualnej reprezentacji wypowiedzi. Prowadzi się ją na czterech równoległych warstwach, z których najistotniejsze są warstwy rhythm i pitch. Warstwa rhythm służy do opisu pozycji i siły prominencji oraz granic fraz, natomiast warstwa pitch do opisu względnej wysokości tonu każdej kolejnej sylaby. W warstwie rytmu rozróżnia się miedzy dwoma poziomami prominencji (silną vs. słabą-umiarkowaną) oraz dwoma poziomami frazowania odpowiadającymi intermediate i intonational phrases w ToBI. W warstwie pitch, poza oznaczeniem względnej wysokości tonu sylaby (H, L, E), opisuje się również relacje między tonami a prominencją, np. L+H* oznacza ton niski na sylabie nieakcentowanej (bez oznaczenia prominencji) poprzedzający ton wysoki zrealizowany na sylabie akcentowanej (z etykietą prominencji). Dodatkowo, w systemie RaP można anotować wielkość zmiany tonalnej (HL, LH, LHL), która w pewnych kontekstach może być dystynktywna, a także może oznaczać osiągniecie maksimum lub minimum zakresu głosu mówcy na sylabach o końcowej pozycji we frazie. System RaP był zastosowany do anotacji rytmu i intonacji w korpusie DiaGest, stworzonym na potrzeby badania wzajemnych zależności między gestami, leksykonem i prozodią w języku polskim (Jarmołowicz i in. 2007). Transkrypcja nagrań wypowiedzi w systemie RaP była również podstawą do badania realizacji zjawiska prominencji i struktury rytmicznej języka polskiego (Malisz, Wagner 2012; Malisz i in. 2013). Jak wcześniej wspomniano, w pewnych konkretnych zastosowaniach (np. analiza percepcji wybranych aspektów prozodii, takich jak prominencja), system RaP może stanowić alternatywę dla ToBI, gdyż transkrypcja w tym systemie opiera się na percepcji mowy i nie jest tak silnie umotywowana teoretycznie jak anotacja w ToBI, a także ze względu na rozdzielenie anotacji struktury rytmicznej i intonacyjnej wypowiedzi. Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 279 3.1.3. Krytyczna ocena systemów Przydatność danego systemu transkrypcji prozodii można ocenić badając zgodność anotacji wykonanych według jego specyfikacji, na tym samym materiale i co najmniej przez kilkoro słuchaczy. Wysoka zgodność świadczy o miarodajności takiego systemu. Wyniki badań zgodności anotacji w ToBI są rozbieżne z uwagi na typ materiału słownego (mowa spontaniczna vs. czytana) oraz transkrypcji (pełna vs. uproszczona). Jak pokazano w pracy Yoon i in. (2004) w mowie spontanicznej zgodność anotujących co do pozycji akcentów melodycznych (prominencji) wynosiła 86%, zaś w odniesieniu do granic fraz prozodycznych – 89%. Podobne badanie dla systemu RaP pokazało, że dla binarnej decyzji dotyczącej prominencji zgodność anotacji kształtuje się na poziomie 89%, a w przypadku granic fraz na poziomie 90% (Breen i in. 2012). W obu systemach transkrypcji zgodność istotnie spada wraz ze wzrostem dokładności anotacji (Pitrelli i in. 1994; Grice i in. 1996; Jun i in. 2000; Syrdal, McGory 2000; Yoon i in. 2004; Breen i in. 2012). Ograniczenie anotacji prozodycznej do warstwy nazwanej w systemie RaP rhythm, czyli oznaczania tylko siły/poziomu prominencji oraz siły/poziomu granic fraz i rezygnacja z opisu tonalnego, czyli typów akcentów (np. H+L*), tonów frazowych i granicznych (np. L-L%) wydaje się zasadne, gdyż w kontekście rozpoznawania mowy takie informacje mają mniejsze znaczenie, a jednocześnie obniżają one znacznie zgodności anotacji oraz spowalniają jej przebieg. Ogólnie rzecz biorąc, wyniki badań wskazują na konieczność ograniczenia liczby możliwych etykiet i rezygnacji z bardzo szczegółowej anotacji prozodii na rzecz anotacji bardziej miarodajnej i o charakterze ogólniejszym, ale wciąż uwzględniającej najistotniejsze informacje z punktu widzenia struktury prozodycznej wypowiedzi. Takie założenie stało się podstawą do stworzenia specyfikacji anotacji prozodii w korpusie mowy spontanicznej dla systemu ARM (por. rozdział 4.). 3.2. Czynniki pozaakustyczne wpływające na percepcję prozodii Percepcja struktury prozodycznej wypowiedzi pozostaje pod znacznym wpływem różnego rodzaju czynników językowych i pozajęzykowych i nie można jej w pełni opisać w oparciu o model uwzględniający wyłącznie cechy akustyczne sygnału mowy. W przypadku prominencji wskazówki akustyczne, które ją sygnalizują pozostają jednocześnie pod wpływem czynników związanych ze statusem informacyjnym słowa (leksemu) – jego przewidywalnością w danym kontekście dyskursowym, gęstością sąsiedztwa i częstością użycia (Aylett, Turk 2004; Watson i in. 2008), a także czynników pozajęzykowych takich jak tempo mowy (Fossler-Lussier, Morgan 1999). Jak pokazano w pracy Cole i in. (2010a) słuchacz może oznaczyć dane słowo/daną sylabę jako prominentne albo z uwagi na wyraźne 280 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko wskazówki akustyczne (m.in. wydłużenie iloczasu, charakterystyczną zmianę przebiegu wysokości tonu), albo z uwagi na wspomniane czynniki pozaakustyczne (nieznajomość słowa, niska frekwencja, niska przewidywalność), które powodują uruchomienie dodatkowych zasobów przetwarzania leksykalnego. W przypadku percepcyjnego podziału wypowiedzi na frazy prozodyczne najważniejszym czynnikiem językowym jest składnia. W relacji między granicami fraz syntaktycznych i prozodycznych pośredniczą częściowo wskazówki akustyczne, które są najsilniejsze w miejscach wskazanych przez podział syntaktyczny wypowiedzi. Jednocześnie wpływ kontekstu syntaktycznego na percepcję granic fraz prozodycznych jest silniejszy i częściowo niezależny od wpływu cech akustycznych (np. wydłużenia iloczasu wygłosowej samogłoski) (Cole i in. 2010b). Wyniki te mają ważne implikacje dla tworzenia specyfikacji percepcyjnej anotacji prozodii i wykorzystania informacji prozodycznej w systemach technologii mowy. 3.3. Problem liczby poziomów frazowania W literaturze przedmiotu brak jest zgodności odnośnie liczby poziomów frazowania. Choć istnieją prace, w których wykazano istnienie akustycznych wskazówek pozwalających na słuchowe rozróżnienie między czterema poziomami (Wightman i in. 1992), najczęściej przyjmuje się dwa poziomy, czyli frazę niższego poziomu (ip), która musi zawierać tylko jeden akcent nuklearny i frazę wyższego poziomu (IP), bardzo wyraźnie zasygnalizowaną percepcyjnie i zawierającą przynajmniej jeden element niższego poziomu (według oryginalnej terminologii: ip – intermediate phrase oraz IP – intonation phrase7). Rozróżnienie między dwoma poziomami frazowania opiera się m.in. na założeniu, że w ramach takiej struktury prozodycznej można skutecznie kontrolować zmiany zakresu tonu głosu mówcy. Pierrehumbert i Beckman (1986) definiują frazę ip jako fragment wypowiedzi zawierający ciąg akcentów (ang. pitch accents) oraz akcent frazowy (ang. phrase akcent), ale bez tonu granicznego (ang. boundary tone), frazę pełną IP natomiast jako nadrzędną strukturę zawierającą jedną lub więcej fraz pośrednich ip plus ton graniczny zrealizowany na ostatniej sylabie frazy. Tego rodzaju opis, w którym wyróżnia się jednostkę nadrzędną – frazę intonacyjną (IP) zawierającą sekwencje jednostek/fraz niższego rzędu (ip) wydaje się być adekwatny dla większości języków, w tym dla języka polskiego. Dla anotacji prozodycznej mowy spontanicznej dla języka polskiego należy jednak oprócz rozróżnienia między frazami pełnymi wyższego (IP) i pośrednimi niższego poziomu (ip) również wydzielić frazy ip o pozycji niekońcowej i końcowej we frazie pełnej, a także frazy IP pojedyncze (tj. zawierające jedną frazę) i złożone, czyli zawierające kilka fraz (Wagner 2008). http://prosodia.upf.edu/sp_tobi/en/labeling_system/prosodic_phrasing/BI3_vs_BI4.html 7 Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 281 4. Specyfikacje anotacji prozodii mowy spontanicznej na potrzeby rozwijania systemu ARM W tym rozdziale przedstawiamy głównie wyniki prac własnych prowadzonych w ramach projektu ARM, których celem było stworzenie specyfikacji dotyczących percepcyjnej anotacji prozodii na potrzeby dalszego wykorzystania informacji prozodycznych w celu poprawy jakości wyników automatycznego rozpoznawania mowy w języku polskim. 4.1. Uwagi ogólne W opisie zjawisk prozodycznych bierzemy pod uwagę: dwa poziomy uwydatnienia sylab – silne i słabe-średnie uwydatnienie/prominencja oraz trzy poziomy siły granicy frazy prozodycznej – granica słaba, średnia i silna. Dodatkowo w anotacji uwzględniamy elementy dyskursowe o istotnym wpływie na strukturę prozodyczną wypowiedzi. W anotacji prominencji i granic fraz kierujemy się zarówno znaczeniem, czyli wskazówkami syntaktycznymi, semantycznymi i dyskursowymi (por. sekcja 3.2), jak i cechami akustycznymi wypowiedzi. Aby pogodzić oba kryteria, wprowadzono oznaczenia słabych granic fraz (granice typu /) w miejscach, gdzie syntaktycznie i znaczeniowo taka granica przypada, ale wskazówki akustyczne są bardzo subtelne, oraz granic niegramatycznych, które są wyraźnie zaznaczone przez prozodię, ale pojawiają się w miejscach „niespodziewanych” z punktu widzenia struktury semantycznej, syntaktycznej lub/i dyskursowej wypowiedzi. Proponowany zestaw etykiet do percepcyjnej anotacji prozodii przedstawia poniższa tabela. Tab. 1. Podsumowanie specyfikacji percepcyjnej anotacji prozodii etykieta 2 3 1 / // /// % $ zastosowanie słabe uwydatnienie silne uwydatnienie trudno stwierdzić czy sylaba jest czy nie jest uwydatniona słaba granica frazy granica frazy o średniej sile silna granica frazy z pewnością występuje granica frazy, ale trudno określić jej siłę (/// czy //) z pewnością występuje granica frazy – gramatyczne zdanie (wypowiedź kompletna) kończy się, ale wskazówki prozodyczne nie są jednoznaczne (albo brak zmiany albo zmiana nietypowa) 282 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko etykieta \ ! {tekst} /.. /@ /~ ~/ zastosowanie granica niegramatyczna (mówca wstawia pauzę/oddech/fil wewnątrz wypowiedzi), nie ma żadnych wskazówek prozodycznych ani składniowych, aby taka przerwa w danym miejscy się pojawiła słowo lub fraza zrealizowane z wyraźną emfazą/ekspresją wydzielenie lub wtrącenie, którego struktura prozodyczna wyraźnie wskazuje, że nie stanowi on integralnej części wypowiedzi dopowiedzenie ang. backchannel wypowiedź niepełna, urwana na końcu (mechanicznie lub przez wejście kolejnego mówcy) wypowiedź niepełna, urwana na początku 4.2. Anotacja prominencji Jak już wspomniano w rozdziale 2. prominencja lub inaczej uwydatnienie odnosi się do percepcyjnej siły danej sylaby/wyrazu na tle innych sylab/wyrazów we frazie. Na poziomie akustycznym prominencja jest sygnalizowana poprzez wydłużenie iloczasu, wzrost intensywności/głośności, znaczną zmianę w przebiegu konturu intonacyjnego oraz jego kształt (także zmiany w strukturze widmowej związane z wysiłkiem głosowym i/lub ustawieniem krtani, zmiany w częstotliwościach formantów informujące o precyzji artykulacji). Oprócz wymienionych tutaj kryteriów akustycznych w percepcyjnej anotacji prominencji bierzemy również pod uwagę kryteria związane ze znaczeniem: prominencję zaznaczamy na sylabach należących do słów niosących informacje o kluczowym znaczeniu dla dalszego rozwoju dyskursu i istotne dla prawidłowej interpretacji komunikatu, który chce przekazać mówca. Oznaczenia prominencji umieszczamy za samogłoską sylaby związanej z głównym lub pobocznym akcentem wyrazowym, tak więc w jednym wyrazie mogą się pojawić maksymalnie dwa oznaczenia prominencji. Etykiety prominencji umieszczamy w wypowiedziach pełnych, niepełnych i wydzieleniach. W anotacji unikamy zaznaczania uwydatnienia na sąsiadujących ze sobą sylabach w ramach jednej frazy: preferujemy anotację, w której sylaby uwydatnione są oddzielone przynajmniej jedną sylabą nieuwydatnioną (bez oznaczenia prominencji), a jednocześnie sekwencje sylab nieuwydatnionych nie są zbyt długie (czyli unikamy tzw. clashes i lapses). Jednocześnie bierzemy pod uwagę fakt, że wraz ze wzrostem tempa wypowiedzi, coraz mniej sylab będzie uwydatnionych przez mówcę, więc tzw. lapses mogą być dłuższe (nawet do kilku sylab). Zakładamy, że w danej frazie tylko jedna sylaba (jeden wyraz) może być silnie uwydatniona, natomiast słabe uwydatnienie może być zrealizowane na kilku sylabach (wyrazach). Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 283 W wyrazach wielosylabowych preferujemy anotację, w której sylaby akcentowane otrzymują etykietę silnego lub średniego/słabego uwydatnienia (prominencji), a jednocześnie sylaby nieakcentowane nie są anotowane jako uwydatnione. W rezultacie w wyrazach 2- i 3-sylabowych będziemy mieli jedną etykietę uwydatnienia, a w wyrazach 4-sylabowych i dłuższych możliwe będą dwie etykiety: np. akcent główny – silne uwydatnienie (ozn. jako 3), akcent poboczny – słabe (ozn. jako 2). W przypadku emfazy uwydatnienie może być większe na sylabie z akcentem pobocznym, np. nie3samowi2te ///! (Dogil 1999). W wyrazach jednosylabowych preferujemy anotację, w której wyrazy samodzielne akcentowo, ortotoniczne (czasowniki, rzeczowniki, przymiotniki, przysłówki) otrzymują oznaczenie uwydatnienia, zaś wyrazy atoniczne (niektóre formy zaimków, przyimki, spójniki, partykuła nie) nie otrzymują takiego oznaczenia. 4.3. Hierarchia struktur frazowych Wyróżniamy trzy elementy tworzące hierarchię struktur frazowych: wypowiedź kompletną, frazę intonacyjną pełną oraz frazy pośrednie. Fraza pośrednia (ip) zawiera jedną lub kilka sylab, które posiadają tylko jeden akcent rdzenny/frazowy, związany z silną prominencją. Bazując na tradycjach szkoły brytyjskiej, można przyjąć następujący schemat dla frazy pojedynczej (Demenko 1999): ip = [anakruza] [[intonacja przedrdzenna [intonacja rdzenna]]] gdzie: anakruza jest sylabą lub ciągiem sylab początkowych, intonacja preiktyczna zawiera jeden lub więcej akcentów preiktycznych (-> słaba/średnia prominencja), intonacja rdzenna zawiera jeden (i tylko jeden) ictus (główny akcent intonacyjny – rdzenny, frazowy ->silna prominencja). Semantycznie frazy ip stanowią całość, tzn. ciąg sylab w ramach ip niesie konkretne znaczenie. Fraza pośrednia końcowa (ip’) zawiera jedną lub kilka sylab z tylko jednym akcentem rdzennym, który tworzy charakterystyczny wzorzec intonacyjno-rytmiczny, wyraźnie sygnalizujący koniec wypowiedzi (przeważnie wydłużeniem końcowych sylab, pauzą, zmianami wysokości tonu, amplitudy etc.): ip’= [anakruza] [[intonacja przedrdzenna [intonacja rdzenna’]]] Granice prozodyczne fraz pojedynczych niekońcowych są mniej wyraziste niż frazy pojedynczej końcowej, która poprzez swoją strukturę intonacyjno-rytmiczną wyraźnie sygnalizuje koniec wypowiedzi. Za frazę pośrednią niekońcową uznamy fragment mowy, który uważamy za niezupełnie zakończony (tj. spodziewamy się dalszego ciągu do interpretacji syntaktycznej lub pragmatycznej). Może on być określony strukturą składniową lub też związany z pragmatycznym grupowaniem wyrazów, np.: 284 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko Nauczyciel – powiedział uczeń – jest mądry (Frazę IP tworzą 3 frazy: ip, ip, ip’) Nauczyciel powiedział – uczeń jest mądry (Frazę IP tworzą 2 frazy: ip, ip’) Frazy pośrednie nie muszą tworzyć wypowiedzi kompletnej, np. wypowiedź zostaje przerwana, mówca nie kończy fragmentu wypowiedzi poprawnie gramatycznie, ale restartuje, poprawia, wtrąca nowy element. Fraza intonacyjna pełna (IP) stanowi wypowiedź kompletną i obejmuje fragment mowy, który uważamy za zakończony – nie spodziewamy się dalszego ciągu wypowiedzi i nie jest on konieczny do jej interpretacji. Wypowiedź kompletna może być określona strukturą składniową lub też związana z treścią ekspresywną (w tym przypadku muszą pojawić się bardzo wyraźne wzorce prozodyczne) i często jest ona definiowana gramatycznie jako zdanie. 4.4. Anotacja granic fraz Granica frazy prozodycznej określa miejsce w wypowiedzi, w którym zgodnie z percepcyjną oceną słuchacza znajduje się koniec frazy prozodycznej IP lub ip sygnalizowany na poziomie akustycznym przez przerwę, brak ciągłości lub rozłączenie w strumieniu wypowiedzi (o różnym stopniu nasilenia), wydłużenie iloczasu sylab o końcowej pozycji we frazie (którego stopień jest pozytywnie skorelowany z siłą granicy) oraz przebieg konturu intonacyjnego (np. charakterystyczny ton wznoszący sygnalizujący kontynuację lub ton opadający sygnalizujący zakończenie wypowiedzi, albo zmiana rejestru, tzw. pitch range reset)8. Na poziomie akustycznym różnica między granicą /// i // wiąże się z mniejszą wyrazistością granicy //, co może być spowodowane mniejszym stopniem zmiany parametrów akustycznych (np. krótsza pauza, mniej znaczne wydłużenie iloczasu) lub udziałem mniejszej ich ilości (np. sama intonacja). Granice ///, sygnalizujące koniec frazy IP9, są najczęściej sygnalizowane przez przynajmniej dwa czynniki akustyczne oraz obowiązkowo przez pitch range reset, natomiast granice //, tj. granice fraz ip niekońcowych, mogą być sygnalizowane przez jeden czynnik i rzadziej niż w przypadku /// będzie to pauza akustyczna. Słabe granice typu /, związane z frazami ip niekońcowymi, mogą być sygnalizowane przez pojedynczy czynnik akustyczny (z wykluczeniem pauzy), lub mogą wcale nie być realizowane akustycznie (wtedy o obecności granicy decydujemy na podstawie wskazówek znaczeniowych i stopnia spójności między wyrazami). Dodatkowo, po granicach // i / możemy umieścić jeden ze znaków interpunkcyjnych: : -, ; ( ) „ ” jeżeli mamy pewność, że w tym miejscu jest on odpowiedni. Po granicy /// może wystąpić: . … ! ? ?! Znaki interpunkcyjne odpowiednie Więcej na temat akustycznych korelatów granic fraz w sekcji 2.2.2. Podobnie w systemie ToBI granice fraz IP są związane z indeksem 4, a granice ip z indeksem 3: sekcja 3.1.1. 8 9 Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 285 w danym kontekście umieszczamy także za etykietą % oraz $. Wyznaczając granicę frazy bierzemy również pod uwagę kryteria związane ze znaczeniem wypowiedzi, czyli wskazówki syntaktyczne, semantyczne i dyskursowe: granice fraz przebiegają w miejscach, w których zakłócenie znaczenia wypowiedzi jest minimalne10. 5. Narzędzia zastosowane w celu wydobycia i ilościowej analizy danych będących wynikiem anotacji prozodycznej (i nie tylko) materiału słownego W celu stworzenia korpusu słownego, umożliwiającego przeprowadzenie badań nad wyznacznikami akustycznymi, fonetycznymi oraz percepcyjnymi granicy frazy oraz prominencji na potrzeby systemu ARM, przeprowadzono anotację nagrań na kilku poziomach analizy (suprasegmentalnych i segmentalnych). W pierwszym etapie skoncentrowano się na pozyskaniu informacji odnośnie percepcyjnej oceny umiejscowienia granic fraz oraz obecności (i siły) prominencji w poszczególnych realizacjach wypowiedzi. Anotacja została przeprowadzona w programie Transcriber (Barras i in. 2001) umożliwiającym przede wszystkim wygodny odsłuch nagrań lub ich wybranych fragmentów, transkrypcję na poziomie ortograficznym oraz segmentację sygnału mowy na jednostki suprasegmentalne (w tym przypadku frazy) na podstawie odsłuchu oraz wizualnej oceny obrazu fali głosowej. W wyniku tego etapu dla każdego z przedmiotowych nagrań pozyskano sześć wersji percepcyjnej anotacji prozodycznej (od sześciu anotujących osób (por. rozdział 6.). Aby umożliwić przeprowadzenie bardziej szczegółowych analiz fonetyczno-akustycznych z uwzględnieniem cech spektralnych oraz dokładniejszą analizę wyników anotacji, dla wszystkich badanych nagrań przeprowadzono automatyczną zamianę tekstu ortograficznego na zapis fonetyczny, wykorzystując w tym celu program Polphone (Demenko i in. 2003) w wersji uwzględniającej aktualizacje wprowadzone na potrzeby tworzenia leksykalnej bazy danych dla systemu ARM (Klessa i in. 2009/2010). Otrzymano w ten sposób transkrypcję fonetyczną w formacie SAMPA (Wells 1997), stanowiącym jeden z częściej wykorzystywanych standardów transkrypcji fonetycznej w wielu dziedzinach technologii mowy, m.in. ze względu na prostotę zapisu (np. brak specjalnych czcionek spoza podstawowego układu klawiatury) i idącą za tym stosunkową łatwość komputerowego przetwarzania znaków tego alfabetu fonetycznego. Na podstawie zapisu ortograficznego pozyskanego na etapie anotacji percepcyjnej przeprowadzono Więcej na temat czynników pozaakustycznych wpływających na percepcję prozodii w sekcji 3.2. 10 286 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko również automatyczną segmentację nagrań z podziałem na: (1) wyrazy, (2) sylaby, (3) głoski. W tym celu posłużono się programem Salian (Szymański, Grocholewski 2005). Uzyskany tą drogą zestaw etykiet transkrypcji wraz z informacją o ich znacznikach czasowych zaimportowano następnie do programu Annotation Pro (Klessa i in. 2013). Program ten umożliwia m.in. wielowarstwową anotację nagrań mowy, z praktycznie dowolną liczbą zsynchronizowanych warstw anotacji, przy czym dostępne są opcje wyświetlania tylko wybranej konfiguracji warstw (włączania i wyłączania widocznych warstw), co jest istotnym udogodnieniem praktycznym, zwłaszcza gdy anotacja każdego pliku składa się z dużej liczby warstw, co miało miejsce w przypadku obecnego materiału nagraniowego (por. też rozdział 6.). Rysunek 1. przedstawia fragment przykładowego pliku z anotacją, na którym wyświetlono trzy wybrane warstwy z wynikami automatycznej segmentacji i transkrypcji (warstwy z podziałem na głoski, sylaby i wyrazy, kolejno ang. phones, syllables, words) oraz wynikami percepcyjnej anotacji prozodycznej (warstwa perceptual). Ponadto dla każdego pliku dostępna była warstwa dla komentarzy (ang. comments), wykorzystywana przez osoby anotujące celem oznaczania sytuacji wątpliwych lub niejednoznacznych na kolejnym etapie pracy nad anotacją, a mianowicie podczas manualnej korekty transkrypcji i segmentacji wygenerowanej automatycznie. Rys. 1. Przykładowa wielowarstwowa anotacja nagrania w programie Annotation Pro Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 287 Manualna korekta została przeprowadzona przez dwie przeszkolone osoby (doktoranci z kilkuletnim doświadczeniem w anotacji różnego typu nagrań) pod nadzorem eksperta fonetyka. Znaczne zróżnicowanie zbioru nagrań pod względem jakości technicznej, stosunkowo wysokiego poziomu szumów otoczenia (nagrania w różnego rodzaju warunkach środowiskowych) oraz niejednorodność typów wypowiedzi (zarówno przez wzgląd na różne konteksty sytuacyjne, obecność lub brak interlokutorów, jak i różnice indywidualne szczególnie obecne w wypowiedziach spontanicznych), spowodowało wystąpienie większej liczby usterek w automatycznie generowanych wynikach, aniżeli miałoby to miejsce w przypadku nagrań studyjnych wysokiej jakości (por. też Szymański, Grocholewski 2005; Szymański i in. 2011). Z tych przyczyn za konieczne uznano przeprowadzenie ręcznej weryfikacji dla wszystkich granic segmentów dla każdego z nagrań. Poza obsługą wielowarstwowych plików anotacji oraz opcjami zarządzania zbiorami plików, program Annotation Pro daje możliwość precyzyjnej instrumentalnej analizy sygnału mowy na podstawie konfigurowalnego obrazu spektrograficznego (użytkownik ma możliwość dostosowania parametrów wyświetlanego spektrogramu w celu zapewnienia optymalnego odczytu informacji). Na potrzeby przeprowadzenia różnego rodzaju analiz w innych narzędziach (np. wstępna ekstrakcja F0 za pomocą skryptów programu Praat (Boersma, Weenink 2012)) wykorzystano opcje importu/eksportu plików programu Annotation Pro. Opcje eksportu danych obejmują m.in. eksport do formatów programu Praat, Transcriber, a także eksport indywidualnych plików bądź ich kolekcji do plików CSV, co z kolei daje możliwość szybkiego przejścia od plików anotacji do arkusza kalkulacyjnego (pliki CSV można zaimportować do większości współczesnych pakietów, umożliwiających prowadzenie analiz statystycznych, np. Statistica czy Excel). Przy eksporcie kolekcji plików z programu Annotation Pro dokonywany jest automatyczny pomiar czasu trwania wszystkich segmentów występujących na warstwach anotacji. Stąd dla obecnego materiału dostępne są informacje o czasie trwania wszystkich zrealizowanych głosek, sylab, wyrazów oraz fraz. W ramach przyszłych prac z wykorzystaniem wymienionych narzędzi zakłada się m.in. szczegółową analizę zjawisk czasowych, z uwzględnieniem zależności występujących zarówno na poziomie segmentalnym i suprasegmentalnym, m.in. analizę zmienności czasowej w obrębie badanych grup jednostek segmentacji (ang. Time Group Analysis) za pomocą funkcjonalności TGA wbudowanej w programie Annotation Pro (m.in. Klessa, Gibbon 2014). Omawiane narzędzie daje również możliwość przeprowadzenia testów percepcyjnych z udziałem osób nie mających doświadczenia w pracach fonetycznych, a w szczególności w transkrypcji czy segmentacji nagrań (np. Wagner 2011/2012). Ta funkcjonalność może stanowić wsparcie dla końcowej analizy wyników badań nad wyznacznikami granicy frazy, dając możliwość weryfikacji zdefiniowanych wyznaczników w ramach testów odsłuchowych z udziałem dużej liczby respondentów. 288 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko 6. Badanie zgodności anotacji prozodii W celu zweryfikowania zaproponowanego systemu anotacji prozodii przeprowadzono analizę zgodności anotacji prozodycznej na materiale obejmującym łącznie 70 minut nagrań, w tym 36-minut materiału wcześniej przetranskrybowanego (tj. materiału, w którym znajdował się już tekst ortograficzny oraz oznaczenia zakłóceń) oraz 34-minut materiału nowego (bez żadnego tekstu). Materiał pochodził z nagrań przemówień sejmowych, oględzin śledczych, konferencji oraz dialogów telefonicznych pochodzących z podsłuchów policyjnych. Cały materiał był anotowany prozodycznie jednocześnie przez sześć wyszkolonych osób. Poniższa tabela przedstawia przykład podsumowania anotacji krótkiego fragmentu nagrania dla 6 osób wraz z graficzną reprezentacją ilości różnic mierzonej odległością Levenshteina (Gibbon 2014). Tab. 2. Przykładowa anotacja fragmentu nagrania wykonana przez sześć osób osoba anotująca tekst nagrania wraz z anotacją A1 jest to po3dział / taki na2sz umo3wny / mo2żna powie3dzieć //, [spk=b] A2 jest to po2dział taki na1sz umo3wny /, mo1żna powie3dzieć //, [spk=b] A3 jest to po3dział ta1ki na1sz \ umo3wny /, można powiedzieć /, [spk=b] A4 jest to podzia3ł taki na2sz \ umo3wny można powie2dzieć /, A5 jest to po2dział taki nasz umo3wny //, mo2żna powie3dzieć //, A6 jest to po2gląd ta2ki nasz umo3wny / mo2żna powie3dzieć ///. [spk=b] Do wyznaczenia zgodności anotacji zastosowano trzy współczynniki zgodności: avg_Ao (Lippincott 2014), pi (Scott 1955; Siegel, Castellan 1988) oraz S (Bennett i in. 1954). Materiał po anotacji został wcześniej przetworzony, aby stworzyć dopasowane trójki: <kod_anotującego, numer_elementu, anotowany_element>. Tab. 3. Dopasowane trójki dla sześciu anotacji kod nr element kod nr element kod nr element A1 A2 1126 1126 enklawa enklawa A1 A2 1127 1127 i, i, A1 A2 1128 1128 ta ta 289 Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… kod nr element kod nr element kod nr element A3 A4 A5 A6 1126 1126 1126 1126 enklawa enklawa enklawa enklawa A3 A4 A5 A6 1127 1127 1127 1127 i, i i, A3 A4 A5 A6 1128 1128 1128 1128 ta ta ta ta Ponadto na tym etapie analizy z anotacji zostały usunięte oznaczenia prominencji sylaby, a etykiety granic prozodycznych zostały znormalizowane do jednego oznaczenia ‚i’ (zachowując przy tym znaki interpunkcyjne). Zgodność anotacji dla całego materiału – łącznie 70 min. 52 sec. (55 plików, średnia długość pliku 77 sec., 11226 elementów dla każdego anotującego) wynosi: avg_Ao – 0,809, pi – 0,804, S – 0,809, gdzie 1,000 oznacza pełną zgodność. Zgodność anotacji, w której anotujący mieli wprowadzony wcześniej tekst oraz oznaczenia zakłóceń jest wyższa o ok. 0,08 (por. tab. 4). Anotacja wykonana od początku (bez wcześniej wprowadzonego tekstu, por. tab. 5.) była najbardziej zgodna wśród nagrań sejmowych. Najwięcej różnic zaobserwowano w anotacji nagrań konferencyjnych. Tab. 4. Wyniki zgodności anotacji z podziałem na rodzaje nagrań, anotacja wykonana na materiale z tekstem. (*6) oznacza, że dla każdego anotującego porównywana była liczba elementów zaprezentowana w tabeli, tj. łącznie liczba_elementów * 6 Ilość plików/ elementy avg_Ao średni czas (*6) Sejm 15 min. 40 sec. 12/78 sec. 2585 0,858 Oględziny 5 min. 10 sec. 4/77 sec. 525 0,873 Dialog_telefon 13 min. 51 sec. 13/64 sec. 2311 0,829 Dialog_auto 1 min. 28 sec. 2/44 sec. 219 0,860 Ogółem 36 min. 8 sec. 31/70 sec. 5640 0,857 Czas pi S 0,853 0,867 0,824 0,855 0,843 0,857 0,872 0,829 0,859 0,847 Tab. 5. Wyniki zgodności anotacji z podziałem na rodzaje nagrań, anotacja wykonana od początku (transkrypcja tekstu + anotacja prozodii) Ilość plików/ elementy avg_Ao średni czas (*6) Sejm 15 min. 13 sec. 9/101 sec. 2253 0,861 Oględziny 5 min. 27 sec. 9/81 sec. 618 0,710 Dialog_telefon 12 min. 6 sec. 2/59 sec. 2357 0,711 Konferencja 1 min. 58 sec. 4/82 sec. 358 0,698 Ogółem 34 min. 43 sec. 24/87 sec. 5586 0,771 Czas pi S 0,858 0,697 0,699 0,684 0,764 0,861 0,709 0,711 0,697 0,771 290 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko Materiał po anotacji został również poddany analizom statystycznym opartym na frekwencji występowania poszczególnych oznaczeń. Rysunek 2. przestawia ilościowe zestawienie umieszczonych w tekście oznaczeń prominencji, natomiast rysunek 3. – statystyki dotyczące granic fraz z wyłączeniem interpunkcji dla granic /, //, /// oraz %. Rys. 2. Podsumowanie wyników anotacji prominencji: 3 – silna, 2 – średnia-słaba i 1 – trudno powiedzieć, czy sylaba jest czy nie jest uwydatniona Rys. 3. Podsumowanie wyników anotacji granic fraz Wyniki analizy zgodności anotacji pokazują duże różnice w wykorzystaniu różnego rodzaju etykiet przez osoby anotujące (np. liczba oznaczeń / między A4 i A6, por. rys. 3.), co wskazuje na dużą subiektywność w percepcji granic fraz i prominencji. Ponadto można zaobserwować, że niektóre etykiety np. { i % były używane tylko sporadycznie, w związku z czym należy rozważyć ich wykluczenie. Jednak ogólnie rzecz biorąc, zaprezentowane tutaj wstępne wyniki pokazują dużą zgodność słuchaczy co do ogólnego przebiegu kształtu struktury frazowej Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 291 wypowiedzi (pozycji granic fraz bez uwzględnienia ich siły) i są one porównywalne do wyników prezentowanych w literaturze (por. sekcja 3.1.3). 7. Dyskusja i wnioski Prozodia jest nośnikiem informacji o istotnym znaczeniu dla przetwarzania i rozumienia mowy. O kształcie struktury prozodycznej wypowiedzi decydują rozkład i siła prominencji, która związana jest z akcentem i zlokalizowana w tych miejscach w wypowiedzi, gdzie znajdują się informacje nowe lub o kluczowym znaczeniu dla przebiegu dyskursu, a także rozkład i siła granic fraz prozodycznych związanych głównie ze strukturą składniową wypowiedzi. Prominencja i frazowanie są realizowane przez mówców za pomocą różnych wskazówek akustycznych w dziedzinie iloczasu, wysokości tonu, intensywności, cech widmowych i jakości głosu, które słuchacze efektywnie wykorzystują, aby uzyskać reprezentację struktury prozodycznej. Jednakże na percepcję struktur prozodycznych, przede wszystkim zaś prominencji, wpływają także czynniki językowe i pozajęzykowe, które trzeba wziąć pod uwagę na etapie analizy wyników percepcyjnej anotacji prozodii. Od wielu lat prowadzone są badania w zakresie wykorzystania informacji prozodycznej w systemach technologii mowy. Wiadomo już, że efektywne modelowanie prozodii przekłada się na naturalność wypowiedzi generowanych w systemach syntezy mowy, zaś w automatycznym rozpoznawaniu mowy wykorzystanie informacji prozodycznych może istotnie wpłynąć na poprawność rozpoznawania. W obu przypadkach konieczne jest stworzenie korpusów mowy zawierających anotacje dostarczające spójnych i miarodajnych informacji na temat przebiegu struktury prozodycznej wypowiedzi, a także stworzenie narzędzi pozwalających na wydobywanie, przetwarzanie i dalsze wykorzystywanie tych informacji. W niniejszej pracy zaprezentowano system anotacji prozodii dla mowy spontanicznej na potrzeby rozwijania systemu ARM dla języka polskiego. W chwili obecnej posiadamy jedyny dla języka polskiego korpus mowy spontanicznej zawierający tak szczegółowe anotacje (nie tylko prozodyczne), a także dysponujemy autorskimi narzędziami (m.in. Annotation Pro) pozwalającymi na efektywną wielopoziomową anotację nagrań i przetwarzanie pochodzących z anotacji danych. Jak pokazały wstępne analizy zgodności anotacji przyjęte specyfikacje wymagają pewnych modyfikacji (np. scalenia niektórych etykiet i usunięcia innych), zaś ogólne wyniki dotyczące zgodności anotacji granic fraz nie odbiegają od prezentowanych w literaturze. Aby stwierdzić czy specyfikacje wymagają uproszczenia (w zakresie liczby poziomów prominencji i granic fraz) konieczne jest przeprowadzenie dalszych analiz. 292 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko Ogólnie rzecz biorąc, każda transkrypcja prozodyczna musi być weryfikowalna statystycznie w odniesieniu do postawionych założeń. Zasadnicze wymogi stawiane współczesnej transkrypcji prozodycznej muszą zostać jednoznacznie określone, na przykład według założeń umożliwiających implementację informacji prozodycznej w systemach technologii mowy, które narzucą określone formalizacje. 1. Reprezentacja prozodii powinna być obiektywna i spójna, dobrze ugruntowana teoretycznie, łatwa do interpretacji. Punktem wyjściowym mogą być badania percepcyjne odnoszące się do różnicowania zauważalnych zmian wysokości tonu. 2. Transkrypcję prozodyczną należy skorelować ze strukturą czasową sygnału (np. zmianami rytmu, układem pauz, pauz wypełnionych i innych elementów pozajęzykowych) oraz z widmową (np. zmianami jakości głosu, redukcjami, koartykulacjami) i również z segmentalną transkrypcją fonetyczną. 3. Transkrypcja powinna w sposób obiektywny oceniać struktury prozodyczne w dłuższych i krótszych wypowiedziach, niezależnie od mówcy oraz stylu wypowiedzi. 4. Pożądane byłoby, aby transkrypcja powiązana była z określonymi, powyżej wymienionymi, funkcjami intonacji w sposób jak najbardziej jednoznaczny. 5. Transkrypcja powinna uwzględniać aspekty charakterystyczne dla określonego języka oraz niezależne, uniwersalne przynajmniej dla określonej grupy językowej. 6. Wskazana byłaby automatyzacja transkrypcji w jak największym stopniu, zwłaszcza w przypadku dużych korpusów danych. Dotychczas żadne transkrypcje prozodii nie spełniają tych warunków, częściowo tylko niektóre z nich (Hart i in. 2006; Pierrehumbert 1980; Taylor 1994). Zapewne uwzględnienie wszystkich wymienionych założeń nie jest obecnie możliwe. Za najważniejszy obecny problem w modelowaniu struktur prozodycznych należy uznać sformułowanie akustycznych wyznaczników akcentu i taki opis, który umożliwi właściwą normalizację zmian częstotliwości podstawowej, a więc opis kontekstowy akcentu pozwalający na analizę różnorodnych funkcji intonacji. Bibliografia Aguilar, L., Bonafonte, A., Campillo, F., Mancebo, D.E. (2009). Determining intonational boundaries from the acoustic signal. W: R. Moore (red.), Proceedings of Interspeech 2009 (2447–2450). Brighton. Pozyskano z http://www.isca-speech.org/archive/archive_papers/interspeech_2009/papers/i09_2447.pdf Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 293 Andreeva, B., Barry, W.J., Steiner, I. (2007). Producing phrasal prominence in German. W: J. Trouvain, W.J. Barry (red.), Proceedings of the 16th International Congress of Phonetic Sciences (1209–1212). Saarbrücken: University of Saarbrücken. Pozyskano z: http://www.icphs2007.de/conference/Papers/1699/1699.pdf Aylett, M., Turk, A. (2004). The smooth signal redundancy hypothesis: A functional explanation for relationships between redundancy, prosodic prominence, and duration in spontaneous speech, Language and Speech, 47 (1), 31–56. Barras, C., Geoffrois, E., Wu, Z., Liberman, M. (2001). Transcriber: Development and use of a tool for assisting speech corpora production, Speech Communication, 33 (1–2), 5–22. Beckman, M., Ayers, G. (1997). Guidelines for ToBI labeling (Version 3.0). Manuscript and accompanying speech materials. Pozyskano z http://www.ling.ohio-state.edu/~tobi/ ame_tobi/labelling_guide_v3.pdf. Beckman, M.E., Edwards, J. (1994). Articulatory evidence for differentiating stress categories. W: P.A. Keating (red.), Phonological Structure and Phonetic Form: Papers in Laboratory Phonology III (7–33). Cambridge: Cambridge University Press. Beckman, M.E., Hirschberg, J. (1994). The ToBI annotation conventions. Pozyskano z www.cs.columbia.edu/~agus/tobi/tobi_convent.pdf Beckman, M.E., Hirschberg, J.B., Shattuck-Hufnagel, S. (2004). The original ToBI system and the evolution of the ToBI framework. W: Sun-Ah Jun (red.), Prosodic models and transcription: Towards prosodic typology (9–54). Oxford: Oxford University Press. Beckman, M., Pierrehumbert, J. (1986). Intonational structure in Japanese and English, Phonology Yearbook, 3, 255–309. Bennett, E.M., Alpert, R., Goldstein, A.C. (1954). Communications through limited response questioning, Public Opinion Quarterly, 18, 303–308. Boersma, P. Weenink, P. (2012). Praat – doing phonetics with a computer. Program komputerowy, wersja 5.3.39. Pozyskano z http://www.fon.hum.uva.nl/praat/. Botinis, A., Granström, B., Möbius, B. (2001). Developments and paradigms in intonation research, Speech Communication, 33 (4), 263–296. Breen, M., Dilley, L.C., Kraemer, J., Gibson, E. (2012). Inter-transcriber reliability for two systems of prosodic annotation: ToBI (Tones and Break Indices) and RaP (Rhythm and Pitch), Corpus Linguistics and Linguistic Theory, 8 (2), 277–312. Bulyko, I., Ostendorf, M. (2001). Joint prosody prediction and unit selection for concatenative speech synthesis, Acoustics, Speech, and Signal Processing, 2, 781–784. Carlson, R., Hirschberg, J., Swerts, M. (2005). Cues to upcoming Swedish prosodic boundaries: Subjective judgment studies and acoustic correlates, Speech communication, 46 (3), 326–333. Carlson, R., Swerts, M. (2003). Perceptually based prediction of upcoming prosodic breaks in spontaneous Swedish speech materials. W: W: M.J. Solé, D. Recasens, J. Romero 294 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko (red.), Proceedings of the 15th international congress of phonetic sciences (375–378). Barcelona. Pozyskano z http://www.speech.kth.se/prod/publications/files/913.pdf Clifton, C., Carlson, K., Frazier, L. (2002). Informative prosodic boundaries, Language and Speech, 45 (2), 87–114. Cole, J., Mo, Y., Baek, S. (2010b). The role of syntactic structure in guiding prosody perception with ordinary listeners and everyday speech, Language and Cognitive Processes, 25 (7–9), 1141–1177. Cole, J., Mo, Y., Hasegawa-Johnson, M. (2010a). Signal-based and expectation-based factors in the perception of prosodic prominence, Laboratory Phonology, 1 (2), 425–452. Collier, R. (1991). Multilanguage intonation synthesis, Journal of Phonetics, 19 (1), 61–73. Demenko, G. (1999). Analiza cech suprasegmentalnych na potrzeby technologii mowy. Poznań: Wydawnictwo UAM. Demenko G. (2000). Automatic analysis of phrase in Polish. Speech and Language Technology, 4, 13–22. Demenko, G., Baranowska, E., Wypych, M. (2003). A Grapheme-to-Phoneme Algorithm Based on SAMPA alphabet extension for the Polish language, Speech and Language Technology, 7, 2–17. De Pijper, J. R. (1983). Modelling British English Intonation (Vol. 3). Dordrecht: Walter de Gruyter. Dogil, G. (1999). The phonetic manifestation of word stress in Lithuanian, Polish and German and Spanish. W: H. van der Hulst (red.), Word prosodic systems in the languages of Europe (273–311). Berlin: Mouton de Gruyter. Fossler-Lussier, E., Morgan, N. (1999). Effects of speaking rate and word frequency on pronunciations in conventional speech, Speech Communication, 29 (2), 137–158. Francuzik K., Karpiński M. Kleśta J. (2002). A preliminary study of the intonational phrase, nuclear melody and pauses in Polish semi-spontaneous narration. W: Proceedings of Speech Prosody 2002 (303-306). Aix-en-Provence: ProSig and Universite de Provence. Pozyskano z http://www.isca-speech.org/archive/sp2002/papers/sp02_303.pdf Frazier, L., Clifton, C., Jr., Carlson, K. (2004). Don’t break or do: Prosodic boundary preferences, Lingua, 114, 3–27. Gibbon, D. (2014). Visualisation of distances in language quality spaces: DistGraph, a teaching tool for language typology data mining. Pozyskano z http://wwwhomes.unibielefeld.de/gibbon/DistGraph/. Grice, M., Reyelt, M., Benzmüller, R., Mayer, J., Batliner, A. (1996). Consistency in transcription and labelling of German intonation with GToBI. W: Proceedings of The Fourth International Conference on Spoken Language Processing (1716–1719). Philadelphia. Hart, J.T., Collier, R., Cohen, A. (2006). A perceptual study of intonation: an experimentalphonetic approach to speech melody. Cambridge: Cambridge University Press. Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 295 Hasegawa-Johnson, M., Chen, K., Cole, J., Borys, S., Kim, S.S., Cohen, A., Chavarria, S. (2005). Simultaneous recognition of words and prosody in the boston university radio speech corpus, Speech Communication, 46 (3), 418–439. Hayes, B. (1994). Metrical stress theory: principles and case studies. Chicago: University of Chicago Press. Horne, M., Strangert, E. Heldner, M. (1995.) Prosodic boundary strength in Swedish: final lengthening and silent interval duration. W: K. Elenius, P. Branderud (red.), Proceedings of the 13th International Congress of Phonetic Sciences (170–173). Stockholm. Jarmołowicz, E., Karpiński, M., Malisz, Z., Szczyszek, M. (2007). Gesture, prosody and lexicon in task-oriented dialogues: multimedia corpus recording and labelling. W: A. Esposito, M. Faundez-Zanuy, E. Keller, M. Marinaro (red.), Verbal and Nonverbal Communication Behaviours (99–110). Berlin Heidelberg: Springer Verlag. Jassem, W. 1962. Akcent języka polskiego. Wrocław: Ossolineum. Jassem, W., Hill, D., Witten, I.H. (1984). Isochrony in English speech: Its statistical validity and linguistic relevance. W: D. Gibbon, H. Richter. (red.). Intonation, accent and rhythm, Studies in Discourse Phonology, 8, 203–225. Jun, S.A., Lee, S.H., Kim, K., Lee, Y.J. (2000). Labeler agreement in transcribing Korean intonation with K-ToBI. W: Proceedings of Interspeech 2000 (211–214). Beijing. Kim, H., Yoon, T.J., Cole, J., Hasegawa-Johnson, M. (2006). Acoustic differentiation of L-and LL% in switchboard and radio news speech. W: Proceedings of Speech Prosody (214–217). Dresden. Klessa, K. (2006). Analiza iloczasu głoskowego na potrzeby syntezy mowy polskiej. (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im. Adama Mickiewicza, Poznań. Klessa, K., Gibbon, D. (2014). Annotation Pro + TGA: automation of speech timing analysis. W: Proceedings of the 9th Language Resources and Evaluation Conference (1499– 1505). Reykjavik. Klessa, K., Karpiński, M., Bałdys, O., Demenko, G. (2009/2010). Speechlabs ASR. Polish Lexical Database for Speech Technology: Design and Architecture, Speech and Language Technology, 12/13, 191–207. Klessa, K., Karpiński, M., Wagner, A. (2013). Annotation Pro – a new software tool for annotation of linguistic and paralinguistic features. W: D. Hirst, B. Bigi (red.). Proceedings of the Tools and Resources for the Analysis of Speech Prosody (TRASP) Workshop (51–54). Aix en Provence. Kochanski, G., Grabe, E., Coleman, J. Rosner, B. (2005). Loudness predicts prominence: Fundamental frequency lends little, Journal of the Acoustical Society of America, 118 (2), 1038–1054. Ladd, D.R. (1996). Intonational phonology. Cambridge: Cambridge University Press. Liberman, M., Prince, A. (1977). On stress and linguistic rhythm. Linguistic Inquiry, 8, 249–236. 296 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko Lippincott, T. Natural Language Toolkit: Agreement Metrics. Copyright (C) 2001–2014 NLTK Project. Pozyskano z http://www.nltk.org/_modules/nltk/metrics/agreement. html#AnnotationTask.avg_Ao Malisz, Z., Wagner, P. (2012). Acoustic-phonetic realisation of Polish syllable prominence: a corpus study, Speech and Language Technology, 14/15, 105–114. Malisz, Z., Żygis, M., Pompino-Marschall, B. (2013). Rhythmic structure effects on glottalisation: A study of different speech styles in Polish and German, Laboratory Phonology, 4 (1), 119–158. Minematsu, N., Tsuda, K., Hirose, K. (2001). Quantitative analysis of F0-induced variations of cepstrum coefficients. Pozyskano z http://www.isca-speech.org/archive_open/ archive_papers/prosody_2001/prsr_021.pdf. O’Connor J.D., Arnold G.F. (1973). Intonation of Colloquial English. London: Longman. Pierrehumbert, J.B. (1980). The phonology and phonetics of English intonation (niepublikowana rozprawa doktorska). Cambridge: Massachusetts Institute of Technology. Pitrelli, J.F., Beckman, M.E., Hirschberg, J. (1994). Evaluation of prosodic transcription labeling reliability in the ToBI framework. W: Proceedings of ICSLP (123–126). Tokyo. Scott, W. (1955). Reliability of content analysis: The case of nominal scale coding, Public Opinion Quarterly, 19 (3), 321–325. Selkirk, E.O. (1984). The relation between sound and structure. Cambridge: MIT Press. Selkirk, E. (1996). Sentence prosody: Intonation, stress and phrasing. W: J. Goldsmith (red.), The handbook of phonological theory (550–569). Cambridge, Mass.: Blackwell. Siegel, S., Castellan, J.N. (1988). Nonparametric statistics for the behavioral sciences. Boston: McGraw–Hill Book Company. Silverman, K., Beckman, M., Pitrelli J., Ostendorf, M., Wightman, C., Price, P., Pierrehumbert, J., Hirschberg, J. (1992). ToBI: A standard scheme for labeling prosody. W: Proceedings of the Second International Conference on Spoken Language Processing (867–879). Alberta. Pozyskano z http://www.isca-speech.org/archive/archive_papers/icslp_1992/i92_0867.pdf Sluijter, A., van Heuven, V. (1996). Spectral balance as an acoustic correlate of linguistic stress, Journal of the Acoustical Society of America, 100 (4), 2471–2485. Steffen-Batogowa, M. (2000). Struktura akcentowa języka polskiego. Warszawa-Poznań: Wydawnictwo Naukowe PWN. Syrdal, A.K., McGory, J.T. (2000). Inter-transcriber reliability of ToBI prosodic labeling. W: Proceedings of Interspeech 2000 (235–238). Beijing. Pozyskano z http://www.isca-speech.org/archive/archive_papers/icslp_2000/i00_3235.pdf Szymański, M., Grocholewski, S. (2005). Semi-Automatic Segmentation of Speech: Manual Segmentation Strategy. Problem Space Analysis. W: M. Kuzryński, E. Puchała, M. Woźniak, A. Żołnierek (red.), Advances in Soft Computing, Computer Recognition Systems (747–755). Berlin: Springer. Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby… 297 Szymański M., Klessa K., Breuer S. Demenko G. (2011). Optimization of unit selection speech synthesis. W: W.S. Lee, E. Zee (red.), Proceedings of the XVIIth International Congress of Phonetic Sciences (1930–1933). Hong Kong: City University of Hong Kong. Tamburini, F. (2005). Automatic prominence identification and prosodic typology. W: Proceedings of Interspeech 2005 (1813–1816). Lisbon. Taylor, P. (1995), The rise/fall connection model of intonation, Speech Comunication, 15 (1–2), 169–185. Trim, J. (1959). Major and minor tone groups in English, Le Maitre Phonetique, 112, 26–29. Turk, A., White, L. (1999). Structural influences on accentual lengthening in English, Journal of Phonetics, 27 (2), 171–206. Wagner, A. (2008). Comprehensive model of intonation for application in speech synthesis. (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im. Adama Mickiewicza, Poznań. Wagner, A. (2009) Analysis and recognition of accentual patterns. W: : R. Moore (red.), Proceedings of Interspeech 2009 (2427-2430). Brighton. Pozyskano z http://www.iscaspeech.org/archive/archive_papers/interspeech_2009/papers/i09_2427.pdf Wagner, A. (2010). Acoustic cues for automatic determination of phrasing. W: Proceedings of Speech Prosody 2010 (paper 100196). Pozyskano z http://speechprosody2010. illinois.edu/papers/100196.pdf. Wagner, A. (2011/2012). Emotional speech production and perception in Polish: A framework of analysis, Speech and Language Technology, 14/15, 163–183. Wagner, A. (2014). Rhythmic structure of utterances in native and non-native Polish. W: N. Campbell, D. Gibbon, D. Hirst (red.), Proceedings of Speech Prosody (337–341). Dublin: Trinity College Dublin. Watson, D.G., Arnold, J.E., Tanenhaus, M.K. (2008). Tic Tac TOE: Effects of predictability and importance on acoustic prominence in language production, Cognition, 106 (3), 1548–1557. Watson, D., Gibson, E. (2004). The relationship between intonational phrasing and syntactic structure in language production, Language and Cognitive Processes, 19 (6), 713–755. Wells, J.C. (1997). SAMPA: computer readable phonetic alphabet. W: D. Gibbon, R. Moore, R. Winski (red.), Handbook of Standards and Resources for Spoken Language Systems (Part IV, section B). Berlin and New York: Mouton de Gruyter. Pozyskano z www.phon.ucl.ac.uk/home/sampa Wightman, C.W., Shattuck-Hufnagel, S., Ostendorf, M., Price, P.J. (1992). Segmental durations in the vicinity of prosodic phrase boundaries, Journal of the Acoustical Society of America, 91, 1707–1717. Yoon, T., Chavarria, S., Cole, J., Hasegawa-Johnson, M. (2004). Intertranscriber reliability of prosodic labeling on telephone conversation using ToBI. W: Proceedings of 298 Agnieszka Wagner, Jolanta Bachan, Katarzyna Klessa, Grażyna Demenko Interspeech 2004 (2729–2732). Jeju Island. Pozyskano z http://www.isca-speech.org/ archive/archive_papers/interspeech_2004/i04_2729.pdf Yoon, T-J., Cole, J., Hasegawa-Johnson, M. (2007). On the edge: Acoustic cues to layered prosodic domains. W: J. Trouvain, W. J. Barry (red.), Proceedings of the 16th International Congress of Phonetic Sciences (1017–1020). Saarbrücken. The overview of selected aspects of speech prosody analysis for the purpose of speech technology summary The paper overviews the state-of-the-art literature on speech prosody and on the use of prosodic information in speech technology systems, in particular in automatic speech recognition (ASR). For many years now, the authors of the paper have addressed such research topics as e.g. problems related to prosodic annotation of spontaneous speech (including the issue of the number of levels of phrasing, the role of non-acoustic features in the perception of prosody), acoustic correlates of prosodic prominence and boundaries, specifications of the perceptual description of prosodic structure of spontaneous speech and the consistency of the perceptual annotation of prosody. The article discusses the above-mentioned issues, taking into account the practical experience gained by the authors in numerous research and research-developmental projects which resulted in the creation of speech recognition and synthesis systems for Polish and computer-assisted pronunciation training for Polish as a foreign language.