Prowadzony w cyklu: 2025/26L

Kod ISCED: 0613

Punkty ECTS: 2

Język: polski

Organizowany przez: Wydział Fizyki, Astronomii i Informatyki Stosowanej

Wstęp do data mining 0800-BK-WDAM

Eksploracja danych, czyli Data Mining, to proces odkrywania

wiedzy i ogólnych reguł w danych, które zgromadzone są w

bazach danych, również tych bardzo rozbudowanych.

Wykorzystuje on w tym celu techniki sztucznej inteligencji,

uczenia maszynowego i metody statystyczne. Eksplorację danych

wykorzystuje się tam, gdzie danych jest dużo i niepożądana jest

ingerencja człowieka w proces pozyskania zależności. Jest to więc

narzędzie do analizy danych, generowania raportów i znajdowania

pewnych prawidłowości, które wykorzystane mogą zostać do

podjęcia dalszych działań.

Zajęcia stanowią dwudziestogodzinny kurs wprowadzający do

zagadnień eksploracji danych. W trakcie zajęć studenci poznają

najważniejsze metody stosowane do rozwiązywania problemów

regresji, klasyfikacji i analizy skupień, poznają techniki wstępnej

obróbki danych, redukcji wymiarowości i wykrywania anomalii w

danych. Kurs skupia się na praktycznych aspektach wykorzystania

narzędzi analizy danych. Laboratoria realizowane są w języku

Python z wykorzystaniem pakietu z narzędziami uczenia

maszynowego scikit-learn.

Treść kursu:

1. Wstęp do języka Python i notatnika Jupyter

2. Biblioteki NumPy, pandas i Matplotlib, scikit-learn

3. Wstępna obróbka danych

4. Wizualizacja i eksploracja danych

5. Regresja i klasyfikacja

6. Ocena jakości modeli regresji i klasyfikacji

7. Analiza skupień

8. Redukcja wymiarowości danych

9. Analiza obrazów

10. Eksploracja tekstu

Całkowity nakład pracy studenta

Godziny realizowane z udziałem nauczycieli ( 20 godz.): - udział w laboratoriach 20 godz. Czas poświęcony na pracę indywidualną studenta ( 30 godz.): - przygotowanie do laboratorium i sprawdzianów 10 godz. - realizacja zadań i projektów zaliczeniowych 20 godz. Łącznie: 50 godz. (2 ECTS)

Efekty uczenia się - wiedza

W1. Student posiada wiedzę z zakresu matematyki i statystyki przydatną do formułowania i rozwiązywania zadań analizy i eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_W01) W2. Student zna podstawowe algorytmy uczenia maszynowego wykorzystywane przy analizie danych (efekty kierunkowe Informatyka Stosowana K_W04, K_W05, K_W08) W3. Student zna narzędzia wykorzystywane przy analizie danych (efekty kierunkowe Informatyka Stosowana: K_W06) W4. Student zna kryteria wyboru metod eksploracji danych w zależności od potrzeb i dobiera stosowne narzędzia do optymalnego rozwiązania problemu (efekty kierunkowe Informatyka Stosowana: K_W06, K_W07, K_W08) W5. Student zna mocne i słabe strony wykorzystywanych metod analizy danych (efekty kierunkowe Informatyka Stosowana: K_W12)

Efekty uczenia się - umiejętności

U1. Student wykorzystuje nabytą wiedzę z zakresu matematyki do znalezienia prawidłowości w danych (efekty kierunkowe 2 Informatyka Stosowana: K_U01, K_U02) U2. Student potrafi pozyskiwać kluczowe informacje z dużych zbiorów danych (efekty kierunkowe Informatyka Stosowana: K_U04, K_U06) U3. Student potrafi wykorzystywać algorytmy eksploracji danych do rozwiązywania problemów informatycznych (efekty kierunkowe Informatyka Stosowana: K_U08, K_U09) U4. Student korzysta z odpowiednich metod do analizy danych i potrafi wskazać najbardziej efektywną metodę (efekty kierunkowe Informatyka Stosowana: K_U012) U5. Student tworzy skrypty do analizy danych z wykorzystaniem przeznaczonych do tego narzędzi i bibliotek (efekty kierunkowe Informatyka Stosowana: K_U013) U6. Student analizuje dane pochodzące z systemów bazodanowych różnego pochodzenia (efekty kierunkowe Informatyka Stosowana: K_U016) U7. Student dokonuje krytycznej selekcji metod eksploracji danych i potrafi wskazać różnice pomiędzy nimi (efekty kierunkowe Informatyka Stosowana: K_U021) U8. Student potrafi ocenić poprawność metod eksploracji danych, wykorzystanych w realizacji zadania (efekty kierunkowe Informatyka Stosowana: K_U022) U9. Student poszukuje metod, które są bardziej optymalne, na podstawie wyników analizy danych (efekty kierunkowe Informatyka Stosowana: K_U023) U10. Student potrafi współpracować w zespole, oszacować czas potrzebny na realizację zadania i odpowiednio przydzielać zasoby niezbędne do realizacji zadania (efekty kierunkowe Informatyka Stosowana: K_U024)

Efekty uczenia się - kompetencje społeczne

K1. Student ma świadomość skutków, jakie niesie ze sobą korzystanie z metod eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_K01) K2. Student rozumie problemy etyczne związane z działaniem metod eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_K02) K3. Student wykazuje się skutecznością w rozwiązywaniu problemów o charakterze naukowo-badawczym i programistyczno- wdrożeniowym z wykorzystaniem metod informatycznych (efekty kierunkowe Informatyka Stosowana: K_K03) K4. Student potrafi przekazywać informacje na temat zastosowanych technik informatycznych w sposób zrozumiały dla innych osób (efekty kierunkowe Informatyka Stosowana: K_K04) K5. Student zna ograniczenia związane z metodami eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_K06)

Koordynatorzy przedmiotu

Tomasz Górski

Metody dydaktyczne

- wykład informacyjny, wykład problemowy - demonstracje i symulacje - analiza problemów, studium przypadku - metoda projektu

Metody dydaktyczne podające

- pogadanka
- wykład konwersatoryjny
- opowiadanie
- opis

Metody dydaktyczne poszukujące

- giełda pomysłów
- referatu
- laboratoryjna
- doświadczeń
- ćwiczeniowa
- projektu

Rodzaj przedmiotu

przedmiot obligatoryjny

Wymagania wstępne

- umiejętność programowania strukturalnego oraz obiektowego - podstawowa znajomość analizy matematycznej, algebry i statystyki - podstawowa znajomość obsługi systemów kontroli wersji - znajomość j. angielskiego w stopniu umożliwiającym korzystanie z dokumentacji technicznej

Kryteria oceniania

Zaliczenie laboratorium odbywa się na podstawie:

- zadań realizowanych w ramach kursu weryfikujących osiągnięcie

efektów U1-U10 i K3

- projektu zaliczeniowego weryfikujących osiągnięcie efektów U1-

U10 oraz K3

- testów, sprawdzianów lub kolokwiów weryfikujących osiągnięcie

efektów W1-W5, K1, K2, K4 i K5

Literatura

Literatura podstawowa:

- P-N. Tan, M. Steinbach, A, Karpatne, V. Kumar, Introduction to

Data Mining – Second edition, 2019, Peaerson

- R. Layton, Learning Data Mining with Python, 2015, Packt

Publishing

- Ch. C. Aggarwal, Data mining: the textbook, 2015, Springer

- N. Ye, Data mining: theories, algorithms and examples, 2014,

CRC Press/Taylor & Francis Group

- N. Ye, The Handbook of Data Mining, 2003, Lawrence Erlbaum

Associates, Publishers

Literatura uzupełniająca:

- W. J. Frawley, G. Piatetsky-Shapiro, Ch. J. Matheus, Knowledge

Discovery in Databases: An Overview, AI Magazine, vol. 13 no 3:

Fall 1992

- Sebastian Raschka, Machine Learning with PyTorch and Scikit-

Learn, Packt Publishing, 2022

Wykorzystywane e-materiały:

- Kody źródłowe z zajęć w postaci zeszytów Jupyter Notebook w

języku Python udostępniane przez prowadzącego kurs

- Otwatoźródłowe zbiory danych dostępne w serwisie

http://kaggle.com oraz z repozytorium UC Irvine Machine

Learning Repository https://archive.ics.uci.edu/

- Testowe zbiory danych dostępne w bibliotece scikit-learn -

https://scikit-learn.org/stable/datasets/index.html

- Dokumentacja techniczna biblioteki scikit-learn - https://scikit-

learn.org/stable/index.html

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 0800-BK-WDAM w USOSweb