|
Vyučující
|
-
Radimský Jan, prof. PhDr. Ph.D.
|
|
Obsah předmětu
|
1. Úvod do korpusové lingvistiky (korpus, typy korpusů, technické otázky a metodologická východiska, povaha korpusových dat: co lze a nelze v korpusu nalézt a proč) 2. Projekt Českého národního korpusu (typy korpusů v rámci ČNK, základní nástroje ČNK, význam a využití, základní vyhledávání v korpusu), další významné pracoviště NLP v ČR a jejich komputační nástroje 3. Základní a pokročilé vyhledávání slov v neanotovaném korpusu s využitím tzv. regulárních výrazů 4. Značkování korpusů (metainformace v korpusu a jejich využití při tvorbě dotazů, principy anotace korpusu, tokenizace, lemmatizace, tagování) 5. Základy deskriptivní korpusové statistiky (absolutní a relativní četnost, frekvenční seznam a jeho analýza, Zipfovy zákony, type a token frequency, redukovaná četnost a ARF). 6. Souvýskyty slov v korpusu (kombinace slov v textu z pohledu lingvisty a komputačního lingvisty, kolokace - omezení syntaktická, sémantická, idiomaticita; word embeddings; pravidlová a statistická identifikace souvýskytu slov) 7. Vícejazyčné korpusy srovnatelné a paralelní. Využití paralelního korpusu Intercorp pro překladatelskou praxi. 8. Vybrané národní korpusy (francouzština: Frantext, Le Monde; italština: La Repubblica, CORIS/CODIS, ITWAC; španělština: CRAE, Ancora, Coser, Cluvi). Korpusy ve službě SketchEngine. 9. Základní problémy zpracování přirozeného jazyka (NLP): východiska, meze, možnosti (přirozený jazyk a formální jazyky, Turingův test, aplikované problémů NLP a jejich řešení - pravidlové systémy, statistické strojové učení, neuronové sítě; sémantické vektory, velké jazykové modely a základní principy AI). 10. Strojový překlad a komputační nástroje pro překladatele (elektronické slovníky, CAT systémy) 11. - 13. Aktuality z oblasti korpusové a komputační lingvistiky; řešení konkrétních problémů s pomocí korpusu a nástrojů strojového překladu.
|
|
Studijní aktivity a metody výuky
|
|
Monologická (výklad, přednáška, instruktáž), Dialogická (diskuze, rozhovor, brainstorming), Demonstrace, Aktivizující (simulace, hry, dramatizace), Práce s multimediálními zdroji (texty, internet, IT technologie)
|
|
Výstupy z učení
|
Předmět seznamuje se základními pojmy, metodami a problémy korpusové a komputační lingvistiky a s možnostmi, které tato disciplína nabízí zejména pro řešení aplikovaných jazykovědných otázek. Frekventanti se seznámí s principy tvorby a analýzy jazykových korpusů, naučí se efektivně pracovat s dostupnými korpusovými nástroji a osvojí si metody vyhledávání a interpretace jazykových dat. Pozornost bude věnována i aplikacím v oblasti strojového překladu, výuky gramatiky a slovní zásoby či práce s velkými jazykovými modely (AI). Kurz rozvíjí kritické myšlení při práci s jazykovými daty a pomáhá studentům lépe porozumět strukturám a fungování jazyka, což mohou využít při překladatelské praxi.
- Student(ka) vysvětlí základní pojmy, metody a principy korpusové a komputační lingvistiky a na konkrétních příkladech ukáže jejich využití v překladatelské praxi (např. při řešení překladatelských problémů, volbě ekvivalentů či analýze kontextu a úzu). - Student(ka) efektivně pracuje s jazykovými korpusy (včetně Českého národního korpusu a dalších nástrojů) a aplikuje různé metody vyhledávání a analýzy jazykových dat pro oporu a zdůvodnění překladatelských rozhodnutí. - Student(ka) rozumí vztahu mezi kvantitativními vlastnostmi jazyka a překladatelským procesem (např. frekvence, kolokace, frazeologie) a využívá tyto poznatky k tvorbě přirozenějších a idiomatických překladů. - Student(ka) rozpozná, kriticky zhodnotí a efektivně využívá nástroje pro práci s vícejazyčnými daty (elektronické slovníky, CAT nástroje, strojový překlad aj.) a volí vhodné postupy pro konkrétní překladatelské úlohy. - Student(ka) vysvětlí základní principy pravidlových a statistických metod i metod strojového učení (včetně neuronových sítí a velkých jazykových modelů) a využívá tyto znalosti ke kritickému a efektivnímu používání nástrojů pro překlad podporovaný AI.
|
|
Předpoklady
|
Kurz je vyučován v angličtině a určen primárně pro studenty, kteří v rámci svého předchozího studia podobně zaměřený kurz neabsolvovali (na FF JU typicky URO/8KKL).
|
|
Hodnoticí metody a kritéria
|
Ústní zkouška, Analýza výkonů studenta
Ústní zkouška, průběžné plnění zadaných úkolů v semináři.
|
|
Doporučená literatura
|
-
Barth, Danielle; Schnell, Stefan. Understanding corpus linguistics. First published. London ; New York: Routledge, 2022. ISBN 978-0-367-21962-8.
-
Li, Defeng; Corbett John. The Routledge handbook of corpus translation studies. Abingdon: Oxon, 2025.
-
Lüdeling, Anke,; Kytö, Merja. Corpus linguistics : an international handbook. Volume 1. Berlin: Walter de Gruyter, 2008. ISBN 978-3-11-018043-5.
-
McEnery, Tony; Hardie, Andrew. Corpus linguistics : method, theory and practice. First published. Cambridge: Cambridge University Press, 2012. ISBN 978-0-521-54736-9.
-
Mitkov, Ruslan. The Oxford handbook of computational linguistics. Second edition. Oxford: Oxford University Press, 2022. ISBN 978-0-19-957369-1.
-
Stefanowitsch, Anatol. Corpus linguistics: A guide to the methodology. Berlin. 2020.
-
Teubert, Wolfgang (ed.). Text Corpora and Multilingual Lexicography. Amsterdam: John Benjamins, 2007. ISBN 9789027239655.
|