Algorytmy skalowane 1000-MS1-AlgSkal
Teoria informatyki obejmuje wiedzę o algorytmach rozwiązujących problemy o dowolnej złożoności obliczeniowej i przy dowolnych poziome równoległości. Praktyczna implementacja tych algorytmów napotykała przez wiele lat trudności, wydawałoby się, nie do pokonania. Zmiana tego stanu rzeczy dokonała się w 2004 wraz z opublikowanie informacji o modelu obliczeniowym Map-Reduce i jego praktycznej implementacji. Rok 2010 to pierwsza publikacja o Pregelu, tj. modelu i implementacji obliczeń na ogromnych grafach. Choć oba te modele są dość proste i można by rzec, że znane w literaturze, jednak ich przełomowość wynika, z tego, że udało się je zaimplementować w wielkiej skali, tj, na danych o wielkości rzędu 10^12 rekordów/obiektów i na tysiącach komputerów. Do tej pory, teoretycy potrafili zbudować algorytm na dowolnego n, ale praktycy potrafili je zaimplementować jedynie dla n nie większego niż 10^9. Map-Reduce i Pregel przesuwają te granicę o kilka rzędów wielkości.
Celem zajęć jest przedstawienie wybranych zagadnień przetwarzania danych z wykorzystaniem algorytmów skalowalnych we wspomnianych modelach oraz projektów Big Data. Przedstawione zostaną najnowsze wyniki badań nad wspomnianymi modelami oraz nad analizą dużych repozytoriów danych
W ramach laboratorium studenci pod kierownictwem prowadzącego zajęcia przeprowadzą eksperymenty na wybranej platformie obliczeń skalowalnych. Zaimplementują wybrane algorytmy Map-Reduce w celu przeprowadzenia kontrolowanej analizy wskazanego dużego repozytorium danych
Całkowity nakład pracy studenta
Efekty uczenia się - wiedza
Efekty uczenia się - umiejętności
Efekty uczenia się - kompetencje społeczne
Metody dydaktyczne podające
Metody dydaktyczne poszukujące
- giełda pomysłów
- projektu
- klasyczna metoda problemowa
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Kryteria oceniania
Zaliczenie wykładu odbywa się na podstawie 2-3 projektów zaliczeniowych wykonywanych częściowo na laboratoriach i częściowo samodzielnie.
Praktyki zawodowe
nie dotyczy
Literatura
[1] N. Marz, "Big data : najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym", Helion, 2016.
[2] H. Lee, "Big Data w przemyśle : jak wykorzystać analizę danych do optymalizacji kosztów procesów?", Wydawnictwo Naukowe PWN SA, 2016.
[3] S. Ryza, "Spark : zaawansowana analiza danych", Helion/ O'Reilly, 2016.
[4] H. Karau, "Poznajemy Sparka", Wydawnictwo Naukowe PWN, 2016.
Literatura uzupełniająca:
[5] J. Dean, S. Ghemawat "MapReduce: simplified data processing on large clusters". OSDI 2004, Vol. 6. USENIX Association, Berkeley, USA, 2004, p10-10.
[6] G. Malewicz, M. H. Austern, A. J.C Bik, J. C. Dehnert, I. Horn, N. Leiser, G. Czajkowski. "Pregel: a system for large-scale graph processing". SIGMOD 2010. ACM, NY, USA, 2010 p.135-146.
[7] Y. Tao, W. Lin, X. Xiao. "Minimal MapReduce algorithms." ACM SIGMOD '13. ACM, NY, USA, 2013, p529-540.
[8] K. Czaplicki i in., "Internet : publiczne bazy danych i Big data", Wydawnictwo C.H. Beck, 2014.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: