Algorytmy skalowane 1000-MS1-AlgSkal

Teoria informatyki obejmuje wiedzę o algorytmach rozwiązujących problemy o dowolnej złożoności obliczeniowej i przy dowolnych poziome równoległości. Praktyczna implementacja tych algorytmów napotykała przez wiele lat trudności, wydawałoby się, nie do pokonania. Zmiana tego stanu rzeczy dokonała się w 2004 wraz z opublikowanie informacji o modelu obliczeniowym Map-Reduce i jego praktycznej implementacji. Rok 2010 to pierwsza publikacja o Pregelu, tj. modelu i implementacji obliczeń na ogromnych grafach. Choć oba te modele są dość proste i można by rzec, że znane w literaturze, jednak ich przełomowość wynika, z tego, że udało się je zaimplementować w wielkiej skali, tj, na danych o wielkości rzędu 10^12 rekordów/obiektów i na tysiącach komputerów. Do tej pory, teoretycy potrafili zbudować algorytm na dowolnego n, ale praktycy potrafili je zaimplementować jedynie dla n nie większego niż 10^9. Map-Reduce i Pregel przesuwają te granicę o kilka rzędów wielkości.
Celem zajęć jest przedstawienie wybranych zagadnień przetwarzania danych z wykorzystaniem algorytmów skalowalnych we wspomnianych modelach oraz projektów Big Data. Przedstawione zostaną najnowsze wyniki badań nad wspomnianymi modelami oraz nad analizą dużych repozytoriów danych
W ramach laboratorium studenci pod kierownictwem prowadzącego zajęcia przeprowadzą eksperymenty na wybranej platformie obliczeń skalowalnych. Zaimplementują wybrane algorytmy Map-Reduce w celu przeprowadzenia kontrolowanej analizy wskazanego dużego repozytorium danych

Całkowity nakład pracy studenta

Godziny realizowane z udziałem nauczycieli: 40h (w tym 10h konsultacji) Czas poświęcony na pracę indywidualną studenta: 30h Czas wymagany do przygotowania się do uczestnictwa w procesie oceniania: 10h Razem: 80h (3p. ECTS)

Efekty uczenia się - wiedza

W1. zna zaawansowane metody projektowania i analizowania algorytmów i programów równoległych i rozproszonych; zna wybrane modele programowania skalowalnego (np. Map-Reduce) -K_W04, K_W06 W2. ma podstawową wiedzę o metodach, narzędziach i technikach badawczych w zakresie Big Data i wizualizacji informacji - K_W05, K_W06 W3. zna na poziomie podstawowym przynajmniej jedną platformę do obliczeń skalowalnych - K_W05, K_W06

Efekty uczenia się - umiejętności

U1. projektuje i analizuje algorytmy rozproszone w oparciu o model Map-Reduce; potrafi uzasadnić ich poprawność i przeanalizować złożoność - K_U17 U2. umie znajdować niezbędne informacje w literaturze fachowej, bazach danych i innych źródłach, zna podstawowe czasopisma i konferencje naukowe w swojej specjalności - K_U21 U3. potrafi wykorzystać przynajmniej jedną platformę implementującą algorytmy skalowalne do analizy dużych repozytoriów danych (Big Data) - K_U01, K_U17, K_U19 U4. potrafi opisywać algorytmy i struktury danych w sposób zrozumiały dla nie-informatyków - K_U04

Efekty uczenia się - kompetencje społeczne

1. Myśli twórczo w celu udoskonalenia istniejących bądź stworzenia nowych rozwiązań. - K_K01 2. Zna ograniczenia własnej wiedzy i rozumie potrzebę dalszego kształcenia - K_K04 3. Potrafi samodzielnie wyszukiwać informacje w literaturze, także w językach obcych; umie zintegrować zdobytą wiedzę i umiejętności; - K_K04 4. rozumie znaczenie matematyki i informatyki w różnych sferach życia i gospodarki - K_K05

Koordynatorzy przedmiotu

Grzegorz Pastuszak

Metody dydaktyczne podające

- wykład konwersatoryjny

Metody dydaktyczne poszukujące

- studium przypadku
- giełda pomysłów
- projektu
- klasyczna metoda problemowa

Rodzaj przedmiotu

przedmiot obligatoryjny

Kryteria oceniania

Zaliczenie wykładu odbywa się na podstawie 2-3 projektów zaliczeniowych wykonywanych częściowo na laboratoriach i częściowo samodzielnie.

Praktyki zawodowe

nie dotyczy

Literatura

[1] N. Marz, "Big data : najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym", Helion, 2016.
[2] H. Lee, "Big Data w przemyśle : jak wykorzystać analizę danych do optymalizacji kosztów procesów?", Wydawnictwo Naukowe PWN SA, 2016.
[3] S. Ryza, "Spark : zaawansowana analiza danych", Helion/ O'Reilly, 2016.
[4] H. Karau, "Poznajemy Sparka", Wydawnictwo Naukowe PWN, 2016.

Literatura uzupełniająca:
[5] J. Dean, S. Ghemawat "MapReduce: simplified data processing on large clusters". OSDI 2004, Vol. 6. USENIX Association, Berkeley, USA, 2004, p10-10.
[6] G. Malewicz, M. H. Austern, A. J.C Bik, J. C. Dehnert, I. Horn, N. Leiser, G. Czajkowski. "Pregel: a system for large-scale graph processing". SIGMOD 2010. ACM, NY, USA, 2010 p.135-146.
[7] Y. Tao, W. Lin, X. Xiao. "Minimal MapReduce algorithms." ACM SIGMOD '13. ACM, NY, USA, 2013, p529-540.
[8] K. Czaplicki i in., "Internet : publiczne bazy danych i Big data", Wydawnictwo C.H. Beck, 2014.

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 1000-MS1-AlgSkal w USOSweb