Předmět: Korpusová a komputační lingvistika pro překladatele (v angličtině)

» Seznam fakult » FFI » URO
Název předmětu Korpusová a komputační lingvistika pro překladatele (v angličtině)
Kód předmětu URO/0KLPA
Organizační forma výuky Přednáška + Seminář
Úroveň předmětu Magisterský
Rok studia nespecifikován
Semestr Zimní
Počet ECTS kreditů 4
Vyučovací jazyk angličtina
Statut předmětu nespecifikováno
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Dostupnost předmětu Předmět je nabízen přijíždějícím studentům
Vyučující
  • Radimský Jan, prof. PhDr. Ph.D.
Obsah předmětu
1. Úvod do korpusové lingvistiky (korpus, typy korpusů, technické otázky a metodologická východiska, povaha korpusových dat: co lze a nelze v korpusu nalézt a proč) 2. Projekt Českého národního korpusu (typy korpusů v rámci ČNK, základní nástroje ČNK, význam a využití, základní vyhledávání v korpusu), další významné pracoviště NLP v ČR a jejich komputační nástroje 3. Základní a pokročilé vyhledávání slov v neanotovaném korpusu s využitím tzv. regulárních výrazů 4. Značkování korpusů (metainformace v korpusu a jejich využití při tvorbě dotazů, principy anotace korpusu, tokenizace, lemmatizace, tagování) 5. Základy deskriptivní korpusové statistiky (absolutní a relativní četnost, frekvenční seznam a jeho analýza, Zipfovy zákony, type a token frequency, redukovaná četnost a ARF). 6. Souvýskyty slov v korpusu (kombinace slov v textu z pohledu lingvisty a komputačního lingvisty, kolokace - omezení syntaktická, sémantická, idiomaticita; word embeddings; pravidlová a statistická identifikace souvýskytu slov) 7. Vícejazyčné korpusy srovnatelné a paralelní. Využití paralelního korpusu Intercorp pro překladatelskou praxi. 8. Vybrané národní korpusy (francouzština: Frantext, Le Monde; italština: La Repubblica, CORIS/CODIS, ITWAC; španělština: CRAE, Ancora, Coser, Cluvi). Korpusy ve službě SketchEngine. 9. Základní problémy zpracování přirozeného jazyka (NLP): východiska, meze, možnosti (přirozený jazyk a formální jazyky, Turingův test, aplikované problémů NLP a jejich řešení - pravidlové systémy, statistické strojové učení, neuronové sítě; sémantické vektory, velké jazykové modely a základní principy AI). 10. Strojový překlad a komputační nástroje pro překladatele (elektronické slovníky, CAT systémy) 11. - 13. Aktuality z oblasti korpusové a komputační lingvistiky; řešení konkrétních problémů s pomocí korpusu a nástrojů strojového překladu.

Studijní aktivity a metody výuky
Monologická (výklad, přednáška, instruktáž), Dialogická (diskuze, rozhovor, brainstorming), Demonstrace, Aktivizující (simulace, hry, dramatizace), Práce s multimediálními zdroji (texty, internet, IT technologie)
Výstupy z učení
Předmět seznamuje se základními pojmy, metodami a problémy korpusové a komputační lingvistiky a s možnostmi, které tato disciplína nabízí zejména pro řešení aplikovaných jazykovědných otázek. Frekventanti se seznámí s principy tvorby a analýzy jazykových korpusů, naučí se efektivně pracovat s dostupnými korpusovými nástroji a osvojí si metody vyhledávání a interpretace jazykových dat. Pozornost bude věnována i aplikacím v oblasti strojového překladu, výuky gramatiky a slovní zásoby či práce s velkými jazykovými modely (AI). Kurz rozvíjí kritické myšlení při práci s jazykovými daty a pomáhá studentům lépe porozumět strukturám a fungování jazyka, což mohou využít při překladatelské praxi.
- Student(ka) vysvětlí základní pojmy, metody a principy korpusové a komputační lingvistiky a na konkrétních příkladech ukáže jejich využití v překladatelské praxi (např. při řešení překladatelských problémů, volbě ekvivalentů či analýze kontextu a úzu). - Student(ka) efektivně pracuje s jazykovými korpusy (včetně Českého národního korpusu a dalších nástrojů) a aplikuje různé metody vyhledávání a analýzy jazykových dat pro oporu a zdůvodnění překladatelských rozhodnutí. - Student(ka) rozumí vztahu mezi kvantitativními vlastnostmi jazyka a překladatelským procesem (např. frekvence, kolokace, frazeologie) a využívá tyto poznatky k tvorbě přirozenějších a idiomatických překladů. - Student(ka) rozpozná, kriticky zhodnotí a efektivně využívá nástroje pro práci s vícejazyčnými daty (elektronické slovníky, CAT nástroje, strojový překlad aj.) a volí vhodné postupy pro konkrétní překladatelské úlohy. - Student(ka) vysvětlí základní principy pravidlových a statistických metod i metod strojového učení (včetně neuronových sítí a velkých jazykových modelů) a využívá tyto znalosti ke kritickému a efektivnímu používání nástrojů pro překlad podporovaný AI.
Předpoklady
Kurz je vyučován v angličtině a určen primárně pro studenty, kteří v rámci svého předchozího studia podobně zaměřený kurz neabsolvovali (na FF JU typicky URO/8KKL).

Hodnoticí metody a kritéria
Ústní zkouška, Analýza výkonů studenta

Ústní zkouška, průběžné plnění zadaných úkolů v semináři.
Doporučená literatura
  • Barth, Danielle; Schnell, Stefan. Understanding corpus linguistics. First published. London ; New York: Routledge, 2022. ISBN 978-0-367-21962-8.
  • Li, Defeng; Corbett John. The Routledge handbook of corpus translation studies. Abingdon: Oxon, 2025.
  • Lüdeling, Anke,; Kytö, Merja. Corpus linguistics : an international handbook. Volume 1. Berlin: Walter de Gruyter, 2008. ISBN 978-3-11-018043-5.
  • McEnery, Tony; Hardie, Andrew. Corpus linguistics : method, theory and practice. First published. Cambridge: Cambridge University Press, 2012. ISBN 978-0-521-54736-9.
  • Mitkov, Ruslan. The Oxford handbook of computational linguistics. Second edition. Oxford: Oxford University Press, 2022. ISBN 978-0-19-957369-1.
  • Stefanowitsch, Anatol. Corpus linguistics: A guide to the methodology. Berlin. 2020.
  • Teubert, Wolfgang (ed.). Text Corpora and Multilingual Lexicography. Amsterdam: John Benjamins, 2007. ISBN 9789027239655.


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr