korpusy językowe – jak mogą pomóc w nauce języka obcego?

Transkrypt

korpusy językowe – jak mogą pomóc w nauce języka obcego?
Mirosława PODHAJECKA, Instytut Filologii Angielskiej, Uniwersytet Opolski, Opole
KORPUSY JĘZYKOWE – JAK MOGĄ POMÓC W NAUCE JĘZYKA
OBCEGO?
Streszczenie. Korpusy językowe stanowią ogromne zbiory tekstów, które mają
dziś szerokie zastosowanie m.in. w leksykografii i językoznawstwie stosowanym.
Mimo swoich niewątpliwych zalet dydaktycznych korpusy wciąŜ nie są jednak
powszechnie wykorzystywane przez osoby uczące się języków obcych. W
niniejszym referacie omówię cechy jednego z najwaŜniejszych korpusów
anglojęzycznych ― Brytyjskiego Korpusu Narodowego (BNC), a następnie na
wybranych przykładach pokaŜę proste sposoby rozwiązywania problemów
językowych przy jego uŜyciu.
1. WPROWADZENIE
Korpusy językowe, dzięki dynamicznemu rozwojowi językoznawstwa korpusowego oraz
technologii komputerowych, stały się waŜnym materiałem badawczym, wykorzystywanym m.
in. w leksykografii (zob. Ooi 1998) czy językoznawstwie stosowanym (zob. Hunston 2002).
Są to dziś jednak takŜe zasoby tekstowe dostępne zwykłym uŜytkownikom. Choć istnieją
pewne ograniczenia (np. konieczność zakupu płyty CD lub opłacenia subskrypcji za dostęp
online do całego korpusu), często uŜytkownikom zapewnia się darmowy dostęp do próbki
korpusu lub umoŜliwia proste wyszukiwanie ze strony internetowej. Aby pokazać
podstawowe moŜliwości korpusu, jakie wykorzystać moŜna w dydaktyce języków obcych,
przedstawione tu przykłady zaczerpnęłam z pełnej wersji jednego z najwaŜniejszych
korpusów anglojęzycznych – Brytyjskiego Korpusu Narodowego (ang. the British National
Corpus).
2. BRYTYSKI KORPUS NARODOWY – OGÓLNA CHARAKTERYSTYKA
2.1. Definicja korpusu
Piotrowski (2003: 146) definiuje korpus jako „zbiór tekstów zapisanych w postaci cyfrowej
i stanowiących reprezentatywną próbkę danego języka. Korpus róŜni się od dowolnego zbioru
tekstów tym, Ŝe stanowi pewną przemyślaną całość. Cechą wyróŜniającą korpusów
komputerowych jest teŜ ich rozmiar”. Oznacza to, po pierwsze, Ŝe korpusy istnieją wyłącznie
w postaci elektronicznej (teksty przetwarzane są komputerowo), a po drugie, Ŝe zasadniczą
cechą korpusów jest reprezentatywność. Choć moŜna przyjąć, Ŝe korpusem nazwać moŜna
właściwie kaŜdy zbiór tekstów (zob. McEnery i Wilson 1996: 21, Podhajecka 2006: 338339), z punktu widzenia osób uczących się języka obcego reprezentatywność jako kryterium
projektowe ma jednak ogromne znaczenie. Innymi słowy, podstawowym celem tworzenia
korpusów powinno być moŜliwie najbardziej reprezentatywne odwzorowanie danego obszaru
językowego, np. języka ogólnego czy specjalistycznego, w naturalnych proporcjach
Korpusy językowe – jak mogą pomóc w nauce języka obcego?
163
(Lewandowska-Tomaszczyk 2005: 28), dzięki czemu uŜytkownicy otrzymują wiarygodną
informację o częstości i zakresie uŜycia danego elementu językowego.
NaleŜy dodać, Ŝe zasadniczym narzędziem do analizy materiału korpusowego są programy
konkordancyjne, zwane potocznie konkordancerami, które umoŜliwiają tworzenie
konkordancji (zestawień słów kluczowych w kontekście). Konkordancje pozwalają określić
pewne stałe wzorce leksykalne i występują najczęściej w formacie KWiC (ang. Key Word in
Context), w którym słowo kluczowe znajduje się w pozycji centralnej z kontekstem prawo i
lewostronnym. Programy konkordancyjne projektowane są przy tym w taki sposób, by
umoŜliwić dostosowanie wielkości kontekstu do potrzeb uŜytkownika (kontekst moŜna
dowolnie poszerzać), a takŜe sortowanie konkordancji (np. według porządku alfabetycznego,
według form fleksyjnych danego leksemu itd.).
PoniewaŜ korpusy są równieŜ znakowane morfosyntaktycznie (wyrazom przyporządkowuje
się określone kategorie gramatyczne, np. trybu, liczby czy przypadka), narzędzia
konkordancyjne umoŜliwiają takŜe wyszukiwanie określonych wzorców gramatycznych (np.
związków wyrazowych składających się z przyimka i rzeczownika, np. on evidence, at noon,
in numbers). PoniewaŜ wykorzystanie informacji morfosyntaktycznej wymaga jednak od
uŜytkownika pewnej wiedzy metajęzykowej oraz praktycznych umiejętności w posługiwaniu
się oprogramowaniem obsługującym korpus, w niniejszej pracy pominę bardziej
zaawansowane techniki wyszukiwania.
2.2. Struktura Brytyjskiego Korpusu Narodowego
Brytyjski Korpus Narodowy (http://www.natcorp.ox.ac.uk) to korpus synchroniczny
obejmujący ponad 100 milionów wyrazów, przygotowany w oparciu o teksty pochodzące z
roku 1975 lub okresu późniejszego. Zawiera on 4124 próbki tekstowe równej długości, które
tworzą ściśle określoną strukturę.
Tabela 1. Struktura Brytyjskiego Korpusu Narodowego
Typ tekstów w BNC
Gatunek i styl tekstów w BNC
90% tekstów pisanych
• 75% tekstów publicystycznych
• 25% tekstów literackich
• 60% ksiąŜek
• 35% czasopism
• 5% materiałów niepublikowanych
• 30% stylu literackiego
• 45% stylu potocznego
• 25% stylu nieformalnego
10% tekstów mówionych • 2,000 godzin nagrań (w formie transkrypcji),
przeprowadzonych przez 124 ochotników z 38 regionów
Wielkiej Brytanii
Jak moŜna zauwaŜyć, korpus obejmuje nie tylko teksty pisane, ale takŜe wybór tekstów
mówionych. Nagrania uzyskane z większość regionów Wielkiej Brytanii reprezentują
angielszczyznę 4 grup społeczno-ekonomicznych, zarówno kobiet, jak i męŜczyzn, w wieku
do 15 do ponad 60 lat. Podobnie jak w przypadku tekstów pisanych, celem zróŜnicowania
regionalnego i społecznego próbek języka mówionego jest podniesienie reprezentatywności, a
stąd i uŜyteczności, korpusu.
Oprócz Brytyjskiego Korpusu Narodowego istnieje dziś kilka megakorpusów języka
angielskiego (zob. Kennedy 1998: 45-57). Do najwaŜniejszych z nich naleŜy korpus
164
M. Podhajecka
monitorujący zwany Bankiem Języka Angielskiego (ang. the Bank of English), stworzony z
inicjatywy Johna Sinclaira, który obejmuje juŜ dziś ponad 500 milionów wyrazów
(http://www.collins.co.uk/Corpus/CorpusSearch.aspx). W odróŜnieniu od korpusu
referencyjnego, który stanowi zamkniętą całość, korpus monitorujący cały czas dynamicznie
zwiększa swoją objętość, aby odpowiednio dokumentować zmiany zachodzące w języku.
Bank Języka Angielskiego ma jednak jedną wadę – jest to korpus oportunistyczny, tj.
obejmuje on teksty odpowiadające róŜnorodnym stylom i gatunkom języka, ale ich struktura
jest przypadkowa i jednolita, poniewaŜ niektóre typy tekstu występują w nadmiarze. Mówiąc
inaczej, nie jest to korpus w pełni zrównowaŜony.
Oprócz korpusów języka ogólnego, istnieją liczne korpusy języków specjalistycznych, np.
języka biznesu (zob. McEnery, Xiao, Tono 2006: 60-61), translatoryczne korpusy dwu- i
wielojęzyczne, korpusy uczniowskie i wiele innych. Aktualny przegląd korpusów oraz
technik korpusowych znaleźć moŜna w opracowaniu pod redakcją LewandowskiejTomaszczyk (2005).
3. WYKORZYSTANIE KORPUSU
3.1. Wyszukiwanie pojedynczych wyrazów
Jak juŜ wspomniałam, materiał korpusowy mogą z powodzeniem wykorzystywać osoby
uczące się języka obcego, poniewaŜ pozwala on na rozwiązywanie problemów natury
leksykalnej czy gramatycznej w oparciu o obiektywne dane tekstowe. UŜytkownicy mogą
oczywiście korzystać ze słowników, zwłaszcza jednojęzycznych, ale nawet najobszerniejsze
słowniki nie zapewnią odpowiednio duŜej ilości przykładów tekstowych (cytatów), aby
zilustrować uŜycie kaŜdego wyrazu i znaczenia, choć to dzięki nim tworzy się naturalnie
brzmiące, autentyczne teksty w języku obcym. Gdy opis słownikowy okaŜe się niejasny czy
niewystarczający, warto skorzystać z materiału korpusowego.
Rys. 1. Wyniki wyszukiwania dla słowoformy knowledge
Podstawowym narzędziem korpusowym – jak pokazano powyŜej – jest opcja wyszukiwania
pojedynczych wyrazów (ang. word query). Po wpisaniu w okienko poszukiwanej
słowoformy, a raczej odpowiedniego ciągu znaków, oprogramowanie wyszukuje daną formę
Korpusy językowe – jak mogą pomóc w nauce języka obcego?
165
wraz z częstością wystąpień (frekwencją, określaną tutaj skrótem F). Dla rzeczownika
knowledge oprogramowanie wyodrębni takŜe róŜnorodne formy pochodne, m.in. przymiotniki
knowledge-based czy knowledgeable.
Po wybraniu słowoformy knowledge, która ma w BNC bardzo wysoką frekwencję (F
14359), mamy do dyspozycji trzy róŜne tryby postępowania: (1) udostępnienie wszystkich
wystąpień, (2) udostępnienie próbki wybranej losowo lub (3) udostępnienie próbki
pochodzącej z pierwszych typów tekstu. PoniewaŜ uzyskanie wszystkich wyników zajmuje
duŜo czasu i jest tym samym niepraktyczne, zaleca się korzystanie z próbek, najlepiej z
próbki losowej.
Po wybraniu określonej procedury, program pokazuje linie konkordancyjne ze słowem
kluczowym w pozycji centralnej. Konkordancje moŜemy następnie przejrzeć, szukając wśród
nich interesującego nas wystąpienia kontekstowego czy wzorca leksykalnego (np. human
knowledge, clear-cut knowledge czy exchange of knowledge). Co ciekawe, choć w
słownikach znaleźć moŜna informację, Ŝe knowledge jest rzeczownikiem niepoliczalnym,
wśród przykładów korpusowych pojawiają się wystąpienia z przedimkiem nieokreślonym
wskazujące na rzeczownik policzalny (np. a knowledge of what has been accepted lub a
knowledge of the body structure). W BNC moŜna się takŜe natknąć na równie nietypową
formę liczby mnogiej tego rzeczownika (knowledges).
Rys. 2. Konkordancje dla słowoformy knowledge
W razie potrzeby, stosunkowo wąski kontekst moŜna teŜ rozszerzyć do tekstu długości
paragrafu wybierając opcję na pasku narzędzi. MoŜna takŜe m.in. sprawdzić źródło, z którego
pochodzi dana próbka tekstowa. Jest to opcja niezwykle uŜyteczna, gdy zaleŜy nam na
określeniu gatunku czy stylu tekstu, z którego pochodzi dana forma.
3.2. Wyszukiwanie fraz
166
M. Podhajecka
Innym sposobem wykorzystania materiału korpusowego jest wyszukiwanie fraz (ang.
phrase query) oraz kolokacji (ang. collocation query). Przy związkach wyrazowych warto
pamiętać, iŜ program traktuje spację jako znak, więc moŜe nie wyszukać frazy laughing stock,
jeśli napiszemy ją razem.
Co moŜe nam dać wyszukiwanie fraz czy kolokacji w korpusie? Spójrzmy na jeden prosty
przykład. ZałóŜmy, Ŝe chcemy znaleźć angielskie ekwiwalenty wyraŜenia mieć wielką
nadzieję. Longman Dictionary of Contemporary English (2003), dla przykładu, proponuje
takie konstrukcje rzeczownikowe, jak be full of hope oraz have high/great hopes, a takŜe
konstrukcję czasownikową I’m hoping. Gdy jednak wyszukamy słowoformę hope w korpusie,
okazuje się, iŜ znajdziemy tu nie tylko konstrukcję have great hope (z rzeczownikiem hope w
liczbie pojedynczej, nie mnogiej), ale teŜ dość często stosowaną konstrukcję (to) sincerely
hope (F 63), której nie odnotowano w słowniku. Przykład konkordancji przedstawia rysunek
3 poniŜej.
Rys. 3. Konkordancje dla wyraŜenia to sincerely hope
RóŜnica między opcją wyszukiwania fraz i kolokacji polega na tym, Ŝe w pierwszym
przypadku program wyszukuje wyłącznie określony ciąg znaków (np. on the coast), natomiast
w przypadku kolokacji uzyskujemy wyniki, w których pojawiają się wszystkie elementy
kolokacji (np. elementy on oraz coast, często nie następujące po sobie linearnie, jak w
przypadku wyraŜenia on the Pacific Coast). Dzięki opcji wyszukiwania kolokacji moŜemy
więc stwierdzić, Ŝe w korpusie najwyŜszą frekwencję ma public backlash (F 10), niŜszą
natomiast political backlash (F 5); Ŝe w angielszczyźnie współczesnej uŜywa się wyraŜenia
illegal abortion (F 15), ale nie legal abortion (F 0) itd.
Korpusy umoŜliwiają takŜe m.in. porównanie środków synonimicznych i antonimicznych.
Przykładowo, as far as I know (F 216) ma podobny zakres znaczeniowy, co wyraŜenie to my
knowledge (F 85), injured (F 3170) traktuje się tradycyjnie jako synonim wounded (F 1627), a
antonimem victory (F 5548) jest defeat (F 3585). Warto przy tym pamiętać, Ŝe niektóre
słowoformy mogą funkcjonować jako róŜne części mowy, co mogą odzwierciedlać dane
frekwencyjne. Przykładowo, defeat moŜe w niektórych kontekstach oznaczać rzeczownik, a w
Korpusy językowe – jak mogą pomóc w nauce języka obcego?
167
innych – czasownik. W oparciu o materiał korpusowy moŜna sprawdzić zarówno konteksty,
jak i frekwencję paralelnych wyrazów i wyraŜeń, które często wykazują spore rozbieŜności.
Okazuje się bowiem, Ŝe wyrazów bliskoznacznych wcale nie cechuje ani pełna
wymienialność kontekstowa, ani identyczna dystrybucja w tekście.
Jak juŜ wspomniałam, korpusy umoŜliwiają takŜe rozwiązanie problemów językowych i
weryfikację hipotez. ZałóŜmy więc, Ŝe chcemy sprawdzić, czy częstszym ekwiwalentem dla
polskiej frazy specjalistyczna wiedza jest w angielszczyźnie specialist knowledge, czy
specialised knowledge. Okazuje się, Ŝe wyraŜenie specialist knowledge (F 83) ma znacznie
wyŜszą frekwencję niŜ specialized knowledge (F 13) lub specialised knowledge (F 29), dzięki
czemu uzyskujemy informację o uŜyciu konkretnego wzorca leksykalnego.
Rys. 4. Konkordancje dla wyraŜenia specialist knowledge
Praca z korpusem wyraźnie rozwija nasze umiejętności analityczne, co z kolei przyczynia
się do podniesienia naszej kompetencji w zakresie języka obcego. Wszystko to zawdzięczamy
programom konkordancyjnym, które – według Tribble’a (1990: 11) – „make the invisible
visible”. Bez zaawansowanych technologii komputerowych umoŜliwiających automatyczne
przetwarzanie tekstu wyszukiwanie elementów językowych byłoby znacznie mniej
efektywne.
3.3. Ocena wyników
Jak wynika z przedstawionych powyŜej przykładów, dla osób uczących się języka obcego
korpus moŜe stanowić uŜyteczny materiał dydaktyczny, poniewaŜ jest on komplementarny
wobec źródeł słownikowych. Jak wiadomo, uŜycie wyrazów hasłowych w słownikach
tradycyjnie ilustrują przykłady uŜycia, które pokazują dany wyraz w środowisku tekstowym.
Z tej perspektywy moŜna więc postrzegać korpus jako wielotysięczny zbiór cytatów, które
zapewniają nam ogląd rzeczywistego uŜycia języka. Choć nie wszystkie konteksty w
materiałach korpusowych okaŜą się typowe czy choćby interesujące z punktu widzenia
wariancji języka, analiza konkordancji pozwoli nam z całą pewnością określić, czy dane
168
M. Podhajecka
konstrukcje leksykalne i składniowe istnieją we współczesnym języku angielskim, czy są one
nienaturalne, czy teŜ nie występują wcale.
4. ZAKOŃCZENIE
Podsumowując naleŜy stwierdzić, Ŝe korpusy językowe pozwalają nie tylko określić
parametry statystyczne, zwłaszcza częstość wystąpień wyrazów lub wyraŜeń w tekstach, ale
pokazują takŜe bezpośrednie konteksty językowe, wskazujące na typowe sposoby uŜycia.
Dlatego teŜ wzbogacają one niejako materiał słownikowy, który jest z konieczności
ograniczony do najczęstszych cytatów lub ilustracji tekstowych, nierzadko wciąŜ tworzonych
w oparciu o intuicję leksykografa. Choć słowniki ma chyba kaŜda osoba ucząca się języka
obcego, wiedza na temat wykorzystania korpusów jest zbyt mała, a i sam dostęp do nich jest
ograniczony. PoniewaŜ jednak korpusy językowe zawierają niezwykle cenny z punktu
widzenia dydaktyki języka obcego autentyczny materiał językowy, którego przeszukiwanie
rozwija umiejętności analityczne, warto uświadamiać zalety korpusów zarówno dorosłym, jak
nastoletnim uŜytkownikom języka. Wydaje się, Ŝe przyniesie to w przyszłości wymierne
efekty.
LITERATURA
1. Hunston S. Corpora in Applied Linguistics. Cambridge University Press 2002.
2. Kennedy G. An Introduction to Corpus Linguistics. Longman 1998.
3. Lewandowska-Tomaszczyk B (red.). Podstawy językoznawstwa korpusowego.
Wydawnictwo Uniwersytetu Łódzkiego 2005.
4. McEnery T, Wilson A. Corpus Linguistics. Edinburgh University Press 1996.
5. McEnery T, Xiao R, Tono Y. Corpus-Based Language Studies. An Advanced Resource
Book. Routledge 2006.
6. Ooi V. Computer Corpus Lexicography. Edinburgh University Press 1998.
7. Piotrowski T. Językoznawstwo korpusowe – wstęp do problematyki. W: Gajda S.
Językoznawstwo w Polsce. Stan i perspektywy. Wydawnictwo Uniwersytetu Opolskiego
2003.
8. Podhajecka M. Kilka uwag o wykorzystaniu zasobów internetowych do analiz
korpusowych języka. Język Polski, vol. 86(5) 2006, s. 338-347.
9. Sinclair J. Corpus, Concordance, Collocation. Oxford University Press 1991.
10. Summers D (red.). Longman Dictionary of Contemporary English. Longman 2003.
11. Tribble C. Concordancing and an EAP Writing Programme. CAELL Journal, vol. 1(2)
1990, s. 10-15.
LANGUAGE CORPORA – HOW CAN THEY HELP IN
FOREIGN LANGUAGE TEACHING?
Summary. Language corpora are huge collections of text, which are today used
widely, for instance, in lexicography and applied linguistics. Despite some
obvious didactic advantages that they offer, language corpora are not popular
among foreign language learners. In the present paper I therefore discuss the
features of one of the most significant corpora of English, the British National
Corpus, and by using selected examples I show simple ways of solving linguistic
problems by drawing on the corpus resources.