Předmět: Korpusová a komputační lingvistika I

« Zpět
Název předmětu Korpusová a komputační lingvistika I
Kód předmětu URO/7KKL1
Organizační forma výuky Přednáška + Seminář
Úroveň předmětu Bakalářský
Rok studia 2
Semestr Zimní
Počet ECTS kreditů 4
Vyučovací jazyk čeština
Statut předmětu Povinný
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Dostupnost předmětu Předmět je nabízen přijíždějícím studentům
Vyučující
  • Radimský Jan, prof. PhDr. Ph.D.
Obsah předmětu
1. Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Povaha korpusových dat: co lze a nelze v korpusu nalézt a proč. 2. Projekt Českého národního korpusu: typy korpusů v rámci ČNK, základní nástroje ČNK, význam a využití. Základní vyhledávání (word, phrase). 3. Vyhledávání v korpusovém manažeru KonText (korpusy psané češtiny), dotazy v CQL - regulární výrazy. 4. Lemmatizace a značkování ČNK, struktura tagu. 5. Základy deskriptivní korpusové statistiky, četnost (frekvence) absolutní a relativní, srovnání četnosti. Zipfovy zákony. Reprezentativnost korpusu; pojem reprezentativnosti jazykových dat (vzorek, populace). 6. Souvýskyty slov v korpusu, práce s frekvenčními seznamy. Měření souvýskytu jednotek (MI-score, T-score a další míry). Pojem "kolokace". Tzv. "statistické" a "funkční" pojetí kolokací. 7. Paralelní korpus Intercorp: popis projektu, principy paralelního korpusu, zarovnání textů (alignment), aktuální stav, možnosti využití. Srovnatelné webové korpusy Wacky a Aranea. 8. Strojový překlad a komputační nástroje pro překladatele 9. Základní problémy zpracování přirozeného jazyka (NLP): východiska, meze, možnosti. Velké jazykové modely, generativní AI. 10. Mluvené korpusy češtiny a práce s nimi (jazyková kreativita, posun ve významech slov, pragmatické užívání jazykových prostředků, kontaktové výrazy, nářeční prvky, varianty závislé na sociolingvistických kritériích). 11. Diachronní korpusy.

Studijní aktivity a metody výuky
Monologická (výklad, přednáška, instruktáž), Práce s multimediálními zdroji (texty, internet, IT technologie)
Výstupy z učení
Předmět seznamuje studenty se základními pojmy, metodami a problémy korpusové a komputační lingvistiky a s možnostmi, které tato disciplína nabízí zejména pro řešení aplikovaných jazykovědných otázek. Studenti se naučí používat řadu aplikací, zejm. korpusové manažery pro češtinu i jiné jazyky a seznámí se s principy tvorby regulárních výrazů.
Absolvent zná základní pojmy a metody korpusové lingvistiky, umí ovládat korpusový manažer a umí vytvářet regulární výrazy pro vyhledávání pomocí CQL.
Předpoklady
Předmět uvádí do dané problematiky, nepředpokládá specifické vstupní znalosti.

Hodnoticí metody a kritéria
Písemná zkouška

Písemná zkouška, průběžné plnění zadaných úkolů v semináři.
Doporučená literatura
  • ČERMÁK - KLÍMOVÁ - PETKEVIČ (2000). Studie z korpusové lingvistiky. Praha..
  • ČERMÁK, F. - BLATNÁ, R. (eds.), (2005). Jak využívat Český národní korpus. Praha..
  • ČERMÁK, F. - BLATNÁ, R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha..
  • ČERMÁK, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s. 119 - 140..
  • Čermák, František. Korpus a korpusová lingvistika. Vydání první. Praha : Univerzita Karlova, nakladatelství Karolinum: Univerzita Karlova, nakladatelství Karolinum, 2017. ISBN 978-80-246-3710-5.
  • KOLEKTIV AUTORŮ (2000). Český národní korpus. Úvod a příručka uživatele. Praha..
  • RADIMSKÝ, JAN (2005). Des méthodes de vérification en linguistique. In: Čermák Petr, Tláskal Jaromír (editores): Las lenguas románicas: su unidad y diversidad, Praha, Univerzita Karlova v Praze, Filozofická fakulta, s. 178-184..
  • RADIMSKÝ, JAN (2007). Projet et construction d'un corpus des textes européens (CORTE). Etudes romanes de Brno, Sborník prací FF MU, L 28, Brno, s. 207-216..
  • ŠTÍCHA, FRANTIŠEK (1994). Čas korpusové lingvistiky. Slovo a slovesnost, 55, s. 141-145..
  • ŠULC, MICHAL (1999). Korpusová lingvistika (první vstup). Praha..
  • TEUBERT, WOLFGANG (ed.), (2007). Text Corpora and Multilingual Lexicography. John Benjamins..
  • WILLIAMS, G. (2005). La linguistique de corpus. Rennes, Presses universitaires de Rennes..


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr