Wstęp do przetwarzania języka naturalnego 2518-s2LP1Z-WDPJN
Przetwarzanie języka naturalnego to dziedzina na intersekcji językoznawstwa, informatyki oraz sztucznej inteligencji. Celem zajęć jest zapoznanie studentów z podstawowymi pojęciami z zakresu przetwarzania języka naturalnego oraz zaznajomienie ich z praktycznym i naukowym zastosowaniem przetwarzania języka naturalnego. Studenci uzyskają wiedzę o technikach analizy danych tekstowych od najprostszych metod, czyli od tokenizacji tekstu, przez automatyczną analizę składniową (parsing) aż po najnowsze metody w przetwarzaniu języka naturalnego, czyli wielkie modele językowe.
Tematy zajęć:
1. Wstęp: czym jest przetwarzanie języka naturalnego? Przykłady zastosowania.
2. Dane nieustrukturyzowane, tokenizacja, lematyzacja tekstu. Rozpoznawanie jednostek nazewniczych (named entity recognition, NER).
3. Proste modele językowe: obliczanie prawdopodobieństwa współwystępowania słów oraz n-gramy.
4. Słowosieć.
5. Sieci neuronowe.
6. Przekształcanie słów na liczby: wektoryzacja tekstu oraz miary podobieństwa słów.
7. Klasyfikacja tekstu na podstawie słów: nadzorowane i nienadzorowane uczenie maszynowe na przykładzie klasyfikatorów oraz modelowania tematu (LDA, NMF)
8. Wstęp do analizy składni: hierarchia Chomsky’ego, gramatyki bezkontekstowe, gramatyka zależności.
9. Zastosowanie analizatorów składniowych na przykładzie języka polskiego i języka angielskiego.
10. Automatyczne wyodrębnianie informacji z tekstu.
11. Wielkie modele językowe: wstęp, omówienie zasady działania.
12. Wielkie modele językowe: BERT, RoBERTa, PolBERT
13. Wielkie modele językowe: fine-tuning, przykłady zastosowania.
|
W cyklu 2025/26Z:
Jak w części A. |
Całkowity nakład pracy studenta
Efekty uczenia się - wiedza
Efekty uczenia się - umiejętności
Efekty uczenia się - kompetencje społeczne
Metody dydaktyczne eksponujące
- symulacyjna (gier symulacyjnych)
Metody dydaktyczne podające
- wykład informacyjny (konwencjonalny)
- wykład konwersatoryjny
Metody dydaktyczne poszukujące
- studium przypadku
Wymagania wstępne
Koordynatorzy przedmiotu
Kryteria oceniania
Aktywny udział w zajęciach (40%): U2, K1, K2
zaliczenie końcowe (60%): W1, W2, U1, U2, K1
Praktyki zawodowe
Nie dotyczy
Literatura
Bird, S., Klein, E. & E. Loper. 2009. "Natural Language Processing with Python", https://www.nltk.org/book/
Chomsky, Noam (1956). "Three models for the description of language". IRE Transactions on Information Theory 2 (3), 113–24.
Goldberg, Y., & Levy, O. (2014). word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. ArXiv, abs/1402.3722.
Jurafsky, D. & J.H. Martin. "Speech and Language Processing", https://web.stanford.edu/~jurafsky/slp3/
Marie-Catherine de Marneffe, Christopher D. Manning, Joakim Nivre, and Daniel Zeman. 2021. Universal Dependencies. Computational Linguistics, 47(2):255–308.
Woliński, Marcin. (2019). Automatyczna analiza składniowa języka polskiego. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego
Artykuły wybrane przez studentów.
Teksty uzupełniające:
Kłeczek, D. (2020). „Polbert: Attacking Polish NLP Tasks with Transformers”. Proceedings of the PolEval 2020 Workshop, 79–88.
Okulska, I. (2020). „O wiele więcej niż Google Translate, czyli komputerowe przetwarzanie języka naturalnego (NLP) w translatoryce i translatologii”. Porównania 26 (1), 283–97.
|
W cyklu 2025/26Z:
Jak w części A. |
Uwagi
|
W cyklu 2025/26Z:
Brak. |
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: