Eksploracja danych
1000-I2ED
W czasie zajęć realizowane będą następujące zagadnienia: pozyskiwanie danych i ich wstępna obróbka, statystyka opisowa, eksploracyjna analiza danych, klasyfikacja i algorytmy klasyfikacyjne (k-nn, drzewa decyzyjne i lasy losowe, sieci neuronowe), regresja i algorytmy szacowania (k-nn, drzewa CRT, sieci neuronowe), grupowanie (metodami k średnich, hierarchiczną, dwustopniową analizą skupień, sieciami Kohonena), analiza koszykowa oraz metody redukcji wymiaru.
Wszystkie zagadnienia omówione na wykładzie będą następnie ilustrowane ćwiczeniami praktycznymi na zajęciach laboratoryjnych z użyciem środowiska R oraz języka programowania Python.
Całkowity nakład pracy studenta
1. Godziny realizowane z udziałem nauczycieli:
a. wykład – 30 godzin,
b. laboratorium – 30 godzin,
c. bieżące przygotowanie do zajęć, w tym rozwiązywanie zadań zleconych przez prowadzących, zapoznanie się z informacją zwrotną dotyczącą rozwiązanych zadań oraz konsultacje z prowadzącymi zajęcia – 40 godzin.
2. Czas poświęcony na pracę indywidualną studenta/słuchacza/uczestnika kursu potrzebny do pomyślnego zaliczenia przedmiotu:
a. studiowanie literatury – 10 godzin,
b. zapoznanie się z materiałami dodatkowymi, m.in. dokumentacją bibliotek i pakietów – 10 godzin,
c. wykonanie projektu zaliczeniowego – 15 godzin.
3. Czas wymagany do przygotowania się do uczestnictwa w procesie oceniania (np. w egzaminach):
a. przygotowanie się do egzaminu – 15 godzin.
RAZEM: 150 godzin (6 punktów ECTS)
Efekty uczenia się - wiedza
Kody odnoszą się do efektów uczenia się dla kierunku Informatyka, studia I stopnia, inżynierskie.
W1 - Wie jak definiuje się najważniejsze zadania eksploracji danych tj. klasyfikację, szacowanie (regresję), grupowanie i odkrywanie reguł (K_W01, K_W09).
W2 - Dla każdego z podstawowych problemów eksploracji danych zna przynajmniej jeden algorytm stosowany do jego rozwiązania (K_W09).
W3 - Orientuje się w dostępnych na rynku narzędziach informatycznych stosowanych do eksploracji danych, zna w stopniu podstawowym przynajmniej jedno takie narzędzie (K_W10).
Efekty uczenia się - umiejętności
Kody odnoszą się do efektów uczenia się dla kierunku Informatyka, studia I stopnia, inżynierskie.
U1 - Potrafi znaleźć potrzebne dane w zbiorach danych ogólnie dostępnych, umie pobrać dane i poddać je analizie (K_U02, K_U08).
U2 - Umie zaproponować odpowiednie algorytmy eksploracji danych do konkretnego zagadnienia, w tym klasyfikacji, grupowania, szacowania i budowania reguł, oraz wyselekcjonować z ich użyciem najlepszy model (K_U02, K_U18).
U3 - Umie posługiwać się w stopniu podstawowym przynajmniej jednym narzędziem informatycznym do eksploracji danych (K_U23).
U4 - Potrafi przygotować raport z wynikami swoich analiz oraz zastosować zbudowany model do klasyfikacji, szacowania lub grupowania w oparciu o nowy zbiór danych (K_U02, K_U03, K_U04).
Efekty uczenia się - kompetencje społeczne
Kody odnoszą się do efektów uczenia się dla kierunku Informatyka, studia I stopnia, inżynierskie.
K1 - Potrafi sformułować problem eksploracji danych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków (K_K02, K_K04).
K2 - Potrafi czerpać wiedzę z danych i na tej podstawie formułować propozycje rozwiązania sytuacji problemowych (K_K02).
Metody dydaktyczne
Pokaz, wykład informacyjny (konwencjonalny), laboratoryjna, projektu, studium przypadku.
Metody dydaktyczne eksponujące
- pokaz
Metody dydaktyczne podające
- wykład informacyjny (konwencjonalny)
Metody dydaktyczne poszukujące
- projektu
- studium przypadku
- laboratoryjna
Rodzaj przedmiotu
przedmiot obligatoryjny
Wymagania wstępne
- Podstawowa umiejętność posługiwania się komputerem.
- Podstawowa umiejętność programowania.
- Znajomość podstawowych pojęć statystyki opisowej.
Koordynatorzy przedmiotu
Kryteria oceniania
Egzamin ustny – uzyskanie oceny pozytywnej z egzaminu zgodnie z kryterium określonym przez prowadzącego zajęcia - W1, W2, U2, K2.
Sprawdziany pisemne (testowe) – kryterium zaliczenia ustala prowadzący na początkowych zajęciach – W2, K2.
Zadania o charakterze analitycznym – kryterium zaliczenia ustala prowadzący na początkowych zajęciach - W3, U1, U2, U3, U4, K1.
Projekt końcowy – kryterium zaliczenia ustala prowadzący na początkowych zajęciach – W3, U2, U3, U4, K1.
Praktyki zawodowe
Literatura
Literatura podstawowa:
1. Daniel T. Larose: ,,Odkrywanie wiedzy z danych''. Wydawnictwo Naukowe PWN, Warszawa, 2006.
2. Daniel T. Larose: ,,Metody i modele eksploracji danych''. Wydawnictwo Naukowe PWN, Warszawa, 2012.
3. Ch. D. Larose, D. T. Larose: ,,Data Science Using Python and R''. Wiley, 2019.
4. Aktualna dokumentacja narzędzi informatycznych wykorzystywanych na laboratoriach.
Literatura uzupełniająca:
5. Tadeusz Morzy: ,,Eksploracja danych. Metody i algorytmy’’. Wydawnictwo Naukowe PWN, Warszawa, 2013.
6. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani: ,,An Introduction to Statistical Learning with Applications in R''. IV Edition. Springer, 2014 (dostępne na stronie http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf).
7. Trevor Hastie, Robert Tibshirani, Jerome Friedman: ,,The Elements of Statistical Learning''. Springer, 2009 (dostępne na stronie http://statweb.stanford.edu/~tibs/ElemStatLearn/).
8. Paweł Cichosz: ,,Data Mining Algorithms Explained Using R’’. Wiley, 2015.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i
terminach zajęć) mogą być dostępne w serwisie USOSweb: