Wstęp do data mining
0800-BK-WDAM
Eksploracja danych, czyli Data Mining, to proces odkrywania
wiedzy i ogólnych reguł w danych, które zgromadzone są w
bazach danych, również tych bardzo rozbudowanych.
Wykorzystuje on w tym celu techniki sztucznej inteligencji,
uczenia maszynowego i metody statystyczne. Eksplorację danych
wykorzystuje się tam, gdzie danych jest dużo i niepożądana jest
ingerencja człowieka w proces pozyskania zależności. Jest to więc
narzędzie do analizy danych, generowania raportów i znajdowania
pewnych prawidłowości, które wykorzystane mogą zostać do
podjęcia dalszych działań.
Zajęcia stanowią dwudziestogodzinny kurs wprowadzający do
zagadnień eksploracji danych. W trakcie zajęć studenci poznają
najważniejsze metody stosowane do rozwiązywania problemów
regresji, klasyfikacji i analizy skupień, poznają techniki wstępnej
obróbki danych, redukcji wymiarowości i wykrywania amonali w
danych. Kurs skupia się na praktycznych aspektach wykorzystania
narzędzi analizy danych. Laboratoria realizowane są w języku
Python z wykorzystaniem pakietu z narzędziami uczenia
maszynowego scikit-learn.
Treść kursu:
1. Wstęp do języka Python i notatnika Jupyter
2. Biblioteki NumPy, pandas i Matplotlib, scikit-learn
3. Wstępna obróbka danych
4. Wizualizacja i eksploracja danych
5. Regresja i klasyfikacja
6. Ocena jakości modeli regresji i klasyfikacji
7. Analiza skupień
8. Redukcja wymiarowości danych
9. Analiza obrazów
10. Eksploracja tekstu
Całkowity nakład pracy studenta
Godziny realizowane z udziałem nauczycieli ( 20 godz.):
- udział w laboratoriach 20 godz.
Czas poświęcony na pracę indywidualną studenta ( 30 godz.):
- przygotowanie do laboratorium i sprawdzianów 10 godz.
- realizacja zadań i projektów zaliczeniowych 20 godz.
Łącznie: 50 godz. (2 ECTS)
Efekty uczenia się - wiedza
W1. Student posiada wiedzę z zakresu matematyki i statystyki
przydatną do formułowania i rozwiązywania zadań analizy i
eksploracji danych (efekty kierunkowe Informatyka Stosowana:
K_W01)
W2. Student zna podstawowe algorytmy uczenia maszynowego
wykorzystywane przy analizie danych (efekty kierunkowe
Informatyka Stosowana K_W04, K_W05, K_W08)
W3. Student zna narzędzia wykorzystywane przy analizie danych
(efekty kierunkowe Informatyka Stosowana: K_W06)
W4. Student zna kryteria wyboru metod eksploracji danych w
zależności od potrzeb i dobiera stosowne narzędzia do
optymalnego rozwiązania problemu (efekty kierunkowe
Informatyka Stosowana: K_W06, K_W07, K_W08)
W5. Student zna mocne i słabe strony wykorzystywanych metod
analizy danych (efekty kierunkowe Informatyka Stosowana:
K_W12)
Efekty uczenia się - umiejętności
U1. Student wykorzystuje nabytą wiedzę z zakresu matematyki do
znalezienia prawidłowości w danych (efekty kierunkowe
2
Informatyka Stosowana: K_U01, K_U02)
U2. Student potrafi pozyskiwać kluczowe informacje z dużych
zbiorów danych (efekty kierunkowe Informatyka Stosowana:
K_U04, K_U06)
U3. Student potrafi wykorzystywać algorytmy eksploracji danych
do rozwiązywania problemów informatycznych (efekty
kierunkowe Informatyka Stosowana: K_U08, K_U09)
U4. Student korzysta z odpowiednich metod do analizy danych i
potrafi wskazać najbardziej efektywną metodę (efekty kierunkowe
Informatyka Stosowana: K_U012)
U5. Student tworzy skrypty do analizy danych z wykorzystaniem
przeznaczonych do tego narzędzi i bibliotek (efekty kierunkowe
Informatyka Stosowana: K_U013)
U6. Student analizuje dane pochodzące z systemów bazodanowych
różnego pochodzenia (efekty kierunkowe Informatyka Stosowana:
K_U016)
U7. Student dokonuje krytycznej selekcji metod eksploracji danych
i potrafi wskazać różnice pomiędzy nimi (efekty kierunkowe
Informatyka Stosowana: K_U021)
U8. Student potrafi ocenić poprawność metod eksploracji danych,
wykorzystanych w realizacji zadania (efekty kierunkowe
Informatyka Stosowana: K_U022)
U9. Student poszukuje metod, które są bardziej optymalne, na
podstawie wyników analizy danych (efekty kierunkowe
Informatyka Stosowana: K_U023)
U10. Student potrafi współpracować w zespole, oszacować czas
potrzebny na realizację zadania i odpowiednio przydzielać zasoby
niezbędne do realizacji zadania (efekty kierunkowe Informatyka
Stosowana: K_U024)
Efekty uczenia się - kompetencje społeczne
K1. Student ma świadomość skutków, jakie niesie ze sobą
korzystanie z metod eksploracji danych (efekty kierunkowe
Informatyka Stosowana: K_K01)
K2. Student rozumie problemy etyczne związane z działaniem
metod eksploracji danych (efekty kierunkowe Informatyka
Stosowana: K_K02)
K3. Student wykazuje się skutecznością w rozwiązywaniu
problemów o charakterze naukowo-badawczym i programistyczno-
wdrożeniowym z wykorzystaniem metod informatycznych (efekty
kierunkowe Informatyka Stosowana: K_K03)
K4. Student potrafi przekazywać informacje na temat
zastosowanych technik informatycznych w sposób zrozumiały dla
innych osób (efekty kierunkowe Informatyka Stosowana: K_K04)
K5. Student zna ograniczenia związane z metodami eksploracji
danych (efekty kierunkowe Informatyka Stosowana: K_K06)
Metody dydaktyczne
- wykład informacyjny, wykład problemowy
- demonstracje i symulacje
- analiza problemów, studium przypadku
- metoda projektu
Metody dydaktyczne podające
- pogadanka
- wykład konwersatoryjny
- opowiadanie
- opis
Metody dydaktyczne poszukujące
- giełda pomysłów
- referatu
- laboratoryjna
- doświadczeń
- ćwiczeniowa
- projektu
Rodzaj przedmiotu
przedmiot obligatoryjny
Wymagania wstępne
- umiejętność programowania strukturalnego oraz obiektowego
- podstawowa znajomość analizy matematycznej, algebry i
statystyki
- podstawowa znajomość obsługi systemów kontroli wersji
- znajomość j. angielskiego w stopniu umożliwiającym korzystanie
z dokumentacji technicznej
Koordynatorzy przedmiotu
Kryteria oceniania
Zaliczenie laboratorium odbywa się na podstawie:
- zadań realizowanych w ramach kursu weryfikujących osiągnięcie
efektów U1-U10 i K3
- projektu zaliczeniowego weryfikujących osiągnięcie efektów U1-
U10 oraz K3
- testów, sprawdzianów lub kolokwiów weryfikujących osiągnięcie
efektów W1-W5, K1, K2, K4 i K5
Literatura
Literatura podstawowa:
- P-N. Tan, M. Steinbach, A, Karpatne, V. Kumar, Introduction to
Data Mining – Second edition, 2019, Peaerson
- R. Layton, Learning Data Mining with Python, 2015, Packt
Publishing
- Ch. C. Aggarwal, Data mining: the textbook, 2015, Springer
4
- N. Ye, Data mining: theories, algorithms and examples, 2014,
CRC Press/Taylor & Francis Group
- N. Ye, The Handbook of Data Mining, 2003, Lawrence Erlbaum
Associates, Publishers
Literatura uzupełniająca:
- W. J. Frawley, G. Piatetsky-Shapiro, Ch. J. Matheus, Knowledge
Discovery in Databases: An Overview, AI Magazine, vol. 13 no 3:
Fall 1992
- Sebastian Raschka, Machine Learning with PyTorch and Scikit-
Learn, Packt Publishing, 2022
Wykorzystywane e-materiały:
- Kody źródłowe z zajęć w postaci zeszytów Jupyter Notebook w
języku Python udostępniane przez prowadzącego kurs
- Otwatoźródłowe zbiory danych dostępne w serwisie
http://kaggle.com oraz z repozytorium UC Irvine Machine
Learning Repository https://archive.ics.uci.edu/
- Testowe zbiory danych dostępne w bibliotece scikit-learn -
https://scikit-learn.org/stable/datasets/index.html
- Dokumentacja techniczna biblioteki scikit-learn - https://scikit-
learn.org/stable/index.html
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i
terminach zajęć) mogą być dostępne w serwisie USOSweb: