Eksploracja masywnych zbiorów danych 1000-AD-EkspMasZD
Wykład
Popularność sieci Web i biznesu w internecie (tzw. e-commerce) spowodowała powstanie wielu zbiorów danych, z których informacje mogą być pozyskiwane za pomocą metod eksploracji danych. Tym co odróżnia ten wykład od innych o podobnej tematyce jest to, że skupia się on na eksploracji danych ze zbiorów o bardzo dużej wielkości, czyli danych tak dużych, że nie mieszczą się swobodnie w pamięci operacyjnej czy wręcz dysku pojedynczego węzła obliczeniowego. Opiszemy i podamy motywacje technik w eksploracji dużych zbiorów danych.
Skoncentrujemy się na praktycznych aspektach algorytmów, które zostały wykorzystane w celu rozwiązania kluczowych problemów w eksploracji danych, a które mogą być wykorzystane na nawet największych zbiorach danych. Dział ten w literaturze był dotąd potraktowany tylko powierzchownie i nie ma jeszcze kompleksowego przeglądu istniejących metod.
Co ważne, w tym wykładzie będziemy mówić o tym jak rozwiązać konkretne problemy eksploracji danych w kontekście ogromnego rozmiaru danych. Ponadto, celem tego wykładu jest także wyrobienie intuicji programistycznych dotyczących rozwiązywania standardowych problemów związanych z przetwarzaniem danych typu "big data".
Wykład zaczyna się od przypomnienia podstawowych zagadnień eksploracji danych, następnie krótkiej dyskusji na temat Map Reduce’a, który jest ważnym modelem skalowalnego przetwarzania danych. Dalej wyjaśnimy tajniki poszukiwania podobnych obiektów z szczególnym uwzględnieniem technik hashwania. Następnie zajmiemy się algorytmami eksploracji i przetwarzania strumieni danych, które pojawiają się zbyt szybko i jest ich zbyt dużo by dokonać wyczerpującej analizy. Kolejnym z omówionych tematów będą metody analizy połączeń w sieci Web, pojawi się idea Page Ranku oraz inne metody. Pozostałe tematy dotyczą problemów ze znalezieniem zbiorów częstych i klastrowania. Ponadto rozpatrzymy dwa zastosowania: systemy rekomendacyjne oraz reklamę internetową, obydwie niezbędne w ebiznesie. Wykład z założenia zamierza być interesujący zarówno dla teoretyków jak i praktyków.
Przedmiot będzie zrealizowany w dwóch częściach: wykład oraz laboratorium. Wykład będzie obejmował teoretyczne i praktyczne aspekty przetwarzania i eksploracji dużych zbiorów danych. W ramach wykładu zamierzamy przedstawić modele eksploracji danych w paradygmacie rozproszonym. Materiały wykładu zostaną udostępnione w formie slajdów.
Laboratorium
Praca w laboratorium będzie polegać przede wszystkim na samodzielnym wykonaniu przez studentów zadań związanych z prezentowanymi na wykładzie zagadnieniami. Ćwiczenia będą prowadzone w formie zachęcającej uczestników do intensywnej pracy w trakcie zajęć, jak i samodzielnej pracy domowej. W ramach laboratorium przewidujemy implementację i eksperymentowanie z otwartymi implementacjami przedstawionych algorytmów. Treści zadań (wraz z opisem ich realizacji) będą udostępnione w formie materiałów z laboratorium publikowanych w systemie Moodle.
Całkowity nakład pracy studenta
Efekty uczenia się - wiedza
Efekty uczenia się - umiejętności
Efekty uczenia się - kompetencje społeczne
Metody dydaktyczne
Metody dydaktyczne eksponujące
Metody dydaktyczne podające
- wykład informacyjny (konwencjonalny)
- wykład problemowy
Metody dydaktyczne poszukujące
Metody dydaktyczne w kształceniu online
- metody ewaluacyjne
- metody integracyjne
Wymagania wstępne
Koordynatorzy przedmiotu
Kryteria oceniania
Zaliczenie laboratorium odbywa się na podstawie 2 kolokwiów oraz zadań zaliczeniowych wykonywanych częściowo w trakcie laboratoriów i częściowo samodzielnie (U01-U04, K01-K03, K05, W02, W04).
Zaliczenie wykładu na podstawie oceny z ćwiczeń i indywidualnego projektu (prezentacja + pytania do projektu) (W01-W04, U01-U04, K01-K04).
Praktyki zawodowe
Nie dotyczy
Literatura
Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press, 2014. (http://www.mmds.org/)
Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. The Morgan Kaufmann Series in Data Management Systems, 2000.
Tadeusz Morzy. Eksploracja danych Metody i algorytmy. PWN, 2013.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: