Text mining
1000-AD-TextMin
Wykład
Program wykładu obejmuje wprowadzenie w tematykę eksploracji danych tekstowych, przedstawienie podstawowych źródeł tych danych oraz omówienie konieczności wstępnego przetwarzania tekstu. Głównym punktem wykładu będzie prezentacja podstawowych algorytmów z zakresu wyszukiwania informacji, klasyfikacji i grupowania dokumentów, wydobywania informacji z tekstu oraz modelowania tematycznego.
Laboratorium
Program zajęć laboratoryjnych obejmuje przedstawienie możliwości języka programowania Python w zakresie analizy danych tekstowych. Treści i algorytmy omawiane na wykładzie zostaną wykorzystane do analizy rzeczywistych danych tekstowych.
Całkowity nakład pracy studenta
1. Godziny realizowane z udziałem nauczycieli
a) wykład - 30 godzin
b) laboratorium – 30 godzin
c) bieżące przygotowanie do zajęć, w tym rozwiązywanie zadań zleconych przez prowadzących, zapoznanie się z informacją zwrotną dotyczącą rozwiązanych zadań oraz konsultacje z prowadzącymi zajęcia – 30 godzin.
2. Czas poświęcony na pracę indywidualną studenta potrzebny do pomyślnego zaliczenia przedmiotu:
a) studiowanie literatury) - 15 godzin
b) przygotowywanie projektów zaliczeniowych - 30 godzin
3. Czas wymagany do przygotowania się do uczestnictwa w procesie oceniania (np. w egzaminach):
a) przygotowanie do egzaminu – 15 godzin
RAZEM: 150 godzin (6 punktów ECTS)
Efekty uczenia się - wiedza
W1. Dostrzega różnice między danymi ustrukturyzowanymi i nieustrukturyzowanymi, rozumie specyficzne problemy i trudności związane z przetwarzaniem i analizowaniem danych nieustrukturyzowanych (K_W02, K_W03).
W2. Ma wiedzę na temat metod statystycznych przydatnych w analizie danych nieustrukturyzowanych oraz zna ich przykładowe zastosowania prowadzące do znalezienia zależności pomiędzy tymi danymi (K_W05).
W3. Zna główne zagadnienia eksploracji tekstu (klasyfikacja, grupowanie, wyszukiwanie informacji, wydobywanie informacji, analiza sentymentu) oraz podstawowe algorytmy stosowane do ich rozwiązania (K_W08).
W4. Zna najważniejsze narzędzia i biblioteki programistyczne przeznaczone do przetwarzania i analizy danych nieustrukturyzowanych (K_W10-K_W12).
Efekty uczenia się - umiejętności
U1. Umie pobrać dane tekstowe z ogólnodostępnych zasobów, w tym serwisów internetowych i platform mediów społecznościowych (K_U03).
U2. Potrafi wyodrębnić kluczowe cechy dokumentów tekstowych i przekształcić je do postaci wektorowej, nadającej się do analiz (K_U04).
U3.Umie dokonać klasyfikacji i grupowania zbiorów dokumentów tekstowych z wykorzystaniem odpowiednich algorytmów i narzędzi (K_U07, K_U10, K_U13, K_U16).
Efekty uczenia się - kompetencje społeczne
K1. Potrafi sformułować problem eksploracji danych tekstowych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków (K_K05).
K2. Ma świadomość etycznych i prawnych ograniczeń związanych z pobieraniem, przechowywaniem i analizą danych tekstowych (K_K07).
K3. Rozumie potrzebę ciągłego poszerzania i aktualizowania wiedzy z zakresu analizy danych tekstowych (K_K02).
Metody dydaktyczne podające
- wykład konwersatoryjny
- wykład informacyjny (konwencjonalny)
Metody dydaktyczne poszukujące
- studium przypadku
Rodzaj przedmiotu
przedmiot obligatoryjny
Wymagania wstępne
Znajomość podstaw algebry liniowej, rachunku prawdopodobieństwa oraz statystyki opisowej. Znajomość przynajmniej jednego języka programowania (zalecany Python).
Koordynatorzy przedmiotu
Kryteria oceniania
Egzamin ustny - W1, W2, W3, K1, K3
Zadania o charakterze analitycznym i programistycznym – W4, U1, U2, U3,U4, K1, K2
Aktywność na zajęciach – K1
Praktyki zawodowe
Literatura
Literatura podstawowa:
- H. Lane, C. Howard, H. M. Hapke - Przetwarzanie języka naturalnego w akcji, PWN, 2021.
- S. M. Weiss, N. Indurkhya, T. Zhang - Fundamentals of Predictive Text Mining, Second Edition, Springer, 2015.
- S. Vajjala, B. Majumder, A. Gupta, H. Surana - Przetwarzanie języka naturalnego w praktyce, Helion 2023.
- J. Albrecht, S. Ramachandran, Ch. Winkler - Blueprints for Text Analytics Using Python, O'Reilly 2020
Literatura uzupełniająca:
- Ch. D. Manning, P. Raghavan, H. Schutze - Introduction to Information Retrieval, Cambridge University Press, 2009.
- Ch. Aggarwal - Machine Learning for Text, Springer, 2018.
- J. Perkins - Python 3 Text Processing with NLTK Cookbook, Packt Publishing, 2014.
- B. Liu - Sentiment Analysis, Cambridge University Press, 2015
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i
terminach zajęć) mogą być dostępne w serwisie USOSweb: