|
Vyučující
|
-
Radimský Jan, prof. PhDr. Ph.D.
|
|
Obsah předmětu
|
1. Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Povaha korpusových dat: co lze a nelze v korpusu nalézt a proč. 2. Projekt Českého národního korpusu: typy korpusů v rámci ČNK, základní nástroje ČNK, význam a využití. Základní vyhledávání (word, phrase). 3. Vyhledávání v korpusovém manažeru KonText (korpusy psané češtiny), dotazy v CQL - regulární výrazy. 4. Lemmatizace a značkování ČNK, struktura tagu. 5. Základy deskriptivní korpusové statistiky, četnost (frekvence) absolutní a relativní, srovnání četnosti. Zipfovy zákony. Reprezentativnost korpusu; pojem reprezentativnosti jazykových dat (vzorek, populace). 6. Souvýskyty slov v korpusu, práce s frekvenčními seznamy. Měření souvýskytu jednotek (MI-score, T-score a další míry). Pojem "kolokace". Tzv. "statistické" a "funkční" pojetí kolokací. 7. Paralelní korpus Intercorp: popis projektu, principy paralelního korpusu, zarovnání textů (alignment), aktuální stav, možnosti využití. Srovnatelné webové korpusy Wacky a Aranea. 8. Strojový překlad a komputační nástroje pro překladatele 9. Základní problémy zpracování přirozeného jazyka (NLP): východiska, meze, možnosti. Velké jazykové modely, generativní AI. 10. Mluvené korpusy češtiny a práce s nimi (jazyková kreativita, posun ve významech slov, pragmatické užívání jazykových prostředků, kontaktové výrazy, nářeční prvky, varianty závislé na sociolingvistických kritériích). 11. Diachronní korpusy.
|
|
Studijní aktivity a metody výuky
|
|
Monologická (výklad, přednáška, instruktáž), Práce s multimediálními zdroji (texty, internet, IT technologie)
|
|
Výstupy z učení
|
Předmět seznamuje studenty se základními pojmy, metodami a problémy korpusové a komputační lingvistiky a s možnostmi, které tato disciplína nabízí zejména pro řešení aplikovaných jazykovědných otázek. Studenti se naučí používat řadu aplikací, zejm. korpusové manažery pro češtinu i jiné jazyky a seznámí se s principy tvorby regulárních výrazů.
Absolvent zná základní pojmy a metody korpusové lingvistiky, umí ovládat korpusový manažer a umí vytvářet regulární výrazy pro vyhledávání pomocí CQL.
|
|
Předpoklady
|
Předmět uvádí do dané problematiky, nepředpokládá specifické vstupní znalosti.
|
|
Hodnoticí metody a kritéria
|
Písemná zkouška
Písemná zkouška, průběžné plnění zadaných úkolů v semináři.
|
|
Doporučená literatura
|
-
ČERMÁK - KLÍMOVÁ - PETKEVIČ (2000). Studie z korpusové lingvistiky. Praha..
-
ČERMÁK, F. - BLATNÁ, R. (eds.), (2005). Jak využívat Český národní korpus. Praha..
-
ČERMÁK, F. - BLATNÁ, R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha..
-
ČERMÁK, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s. 119 - 140..
-
Čermák, František. Korpus a korpusová lingvistika. Vydání první. Praha : Univerzita Karlova, nakladatelství Karolinum: Univerzita Karlova, nakladatelství Karolinum, 2017. ISBN 978-80-246-3710-5.
-
KOLEKTIV AUTORŮ (2000). Český národní korpus. Úvod a příručka uživatele. Praha..
-
RADIMSKÝ, JAN (2005). Des méthodes de vérification en linguistique. In: Čermák Petr, Tláskal Jaromír (editores): Las lenguas románicas: su unidad y diversidad, Praha, Univerzita Karlova v Praze, Filozofická fakulta, s. 178-184..
-
RADIMSKÝ, JAN (2007). Projet et construction d'un corpus des textes européens (CORTE). Etudes romanes de Brno, Sborník prací FF MU, L 28, Brno, s. 207-216..
-
ŠTÍCHA, FRANTIŠEK (1994). Čas korpusové lingvistiky. Slovo a slovesnost, 55, s. 141-145..
-
ŠULC, MICHAL (1999). Korpusová lingvistika (první vstup). Praha..
-
TEUBERT, WOLFGANG (ed.), (2007). Text Corpora and Multilingual Lexicography. John Benjamins..
-
WILLIAMS, G. (2005). La linguistique de corpus. Rennes, Presses universitaires de Rennes..
|