Przetwarzanie języka naturalnego 1000-I2PJN

Wykład
Program wykładu obejmuje wprowadzenie w tematykę eksploracji danych tekstowych, przedstawienie podstawowych źródeł tych danych oraz omówienie konieczności wstępnego przetwarzania tekstu. Głównym punktem wykładu jest przedstawienie współczesnych metod służących analizie języka naturalnego, w tym małych i dużych modeli językowych, oraz zestawienie ich z tradycyjnymi metodami NLP, wraz z zastosowaniami w analizie tekstu.

Laboratorium
Program zajęć laboratoryjnych obejmuje przedstawienie możliwości języka programowania Python w zakresie analizy danych tekstowych. Treści i algorytmy omawiane na wykładzie zostaną wykorzystane do analizy rzeczywistych danych tekstowych.

Całkowity nakład pracy studenta

1. Godziny realizowane z udziałem nauczycieli: a) wykład - 30 godzin b) laboratorium – 30 godzin c) bieżące przygotowanie do zajęć, w tym rozwiązywanie zadań zleconych przez prowadzących, zapoznanie się z informacją zwrotną dotyczącą rozwiązanych zadań oraz konsultacje z prowadzącymi zajęcia – 30 godzin 2. Czas poświęcony na pracę indywidualną studenta potrzebny do zaliczenia przedmiotu: a) studiowanie literatury – 15 godzin b) przygotowywanie projektów zaliczeniowych – 30 godzin. 3. Czas wymagany do przygotowania się do uczestnictwa w procesie oceniania: a) przygotowanie do egzaminu – 15 godzin RAZEM: 150 godzin (6 punktów ECTS)

Efekty uczenia się - wiedza

W1. Dostrzega różnice między danymi ustrukturyzowanymi i nieustrukturyzowanymi, rozumie specyficzne problemy i trudności związane z przetwarzaniem i analizowaniem danych nieustrukturyzowanych (K_W07). W2. Ma wiedzę na temat metod statystycznych przydatnych w analizie danych nieustrukturyzowanych oraz zna ich przykładowe zastosowania prowadzące do znalezienia zależności pomiędzy tymi danymi (K_W01, K_W07). W3. Zna współczesne modele językowe i ich zastosowania(K_W01, K_W04, K_W02, K_W_03) W4. Zna najważniejsze narzędzia i biblioteki programistyczne przeznaczone do przetwarzania i analizy danych nieustrukturyzowanych (K_W03). W5. Zna zagadnienia dotyczące tradycyjnych metod przetwarzania tekstu (np. klasyfikacja) (K_W01, K_W04).

Efekty uczenia się - umiejętności

Po ukończeniu kursu student osiąga następujące efekty (kody odnoszą się do efektów dla studiów II stopnia na kierunku informatyka): U1. Umie pobrać dane tekstowe z ogólnodostępnych zasobów (K_U02, K_U03). U2. Potrafi wyodrębnić kluczowe cechy dokumentów tekstowych i przekształcić je do postaci wektorowej, nadającej się do analiz (K_U03). U3.Umie dokonać klasyfikacji lub grupowania zbiorów dokumentów tekstowych z wykorzystaniem odpowiednich algorytmów i narzędzi (K_U01, K_U02, K_U03).

Efekty uczenia się - kompetencje społeczne

K1. Potrafi sformułować problem eksploracji danych tekstowych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków (K_K01, K_K06). K2. Ma świadomość etycznych i prawnych ograniczeń związanych z pobieraniem, przechowywaniem i analizą danych tekstowych (K_K03). K3. Rozumie potrzebę ciągłego poszerzania i aktualizowania wiedzy z zakresu analizy danych tekstowych (K_K01, K_K02).

Koordynatorzy przedmiotu

Łukasz Górski

Metody dydaktyczne

Wykład informacyjny (konwencjonalny), wykład konwersatoryjny, studium przypadku

Rodzaj przedmiotu

przedmiot obligatoryjny

Wymagania wstępne

Znajomość podstaw algebry liniowej, rachunku prawdopodobieństwa oraz statystyki opisowej. Znajomość przynajmniej jednego języka programowania (zalecany Python). Znajomość podstaw uczenia maszynowego.

Kryteria oceniania

Egzamin - W1, W2, W3, K1, K3
Projekt programistyczny – W1, W2, W4, W5, U1, U2, U3, K1, K2
Aktywność na zajęciach – K1

Literatura

Literatura podstawowa:
- H. Lane, C. Howard, H. M. Hapke - Przetwarzanie języka naturalnego w akcji, PWN, 2021,
- S. M. Weiss, N. Indurkhya, T. Zhang - Fundamentals of Predictive Text Mining, Second Edition, Springer, 2015,
- Ch. Zong, R. Xia, J. Zhang – Text Data Mining, Springer 2021,
- L. Gazir, M. Ghaffari, Mastering NLP – from Foundations to LLMs, packt 2024,
- J. Alammar & M. Grootendorst, Hands-On Large Language Models. Language Understanding and Generation, O’Reilly 2024
Literatura uzupełniająca:
- S. Vajjala, B. Majumder, A. Gupta, H. Surana Przetwarzanie języka naturalnego w praktyce. Przewodnik po budowie rzeczywistych systemów NLP, Helion 2023.
- B. Liu - Sentiment Analysis, Cambridge University Press, 2015
- S. Raschka, Stwórz własne AI. Jak od podstaw zbudować duży model językowy, wyd. Helion 2025

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 1000-I2PJN w USOSweb