Методи і засоби обробки великих даних - Робоча програма навчальної дисципліни (Силабус)

Реквізити навчальної дисципліни

Рівень вищої освіти Другий (магістерський)
Галузь знань 12 Інформаційні технології
Спеціальність 126 Інформаційні системи та технології
Освітня програма Інформаційні управляючі системи та технології
Статус дисципліни Нормативна
Форма навчання очна(денна)/заочна/дистанційна
Рік підготовки, семестр 1 курс, осінній семестр
Обсяг дисципліни 135 годин (денна: 36 годин – лекції, 36 годин – лабораторні, 63 години – СРС; заочна: 10 годин – лекції, 10 годин – лабораторні, 115 годин – СРС)
Семестровий контроль/ контрольні заходи Екзамен
Розклад занять http://rozklad.kpi.ua
Мова викладання Українська
Інформація про керівника курсу / викладачів

ст. викладач Тимофєєва Юлія Сергіївна

yulia.s.timofeeva@gmail.com

моб. +38(097)492-57-27

Розміщення курсу https://campus.kpi.ua

Програма навчальної дисципліни

Опис навчальної дисципліни, її мета, предмет вивчання та результати навчання

Опис дисципліни

Під час навчання студенти отримають теоретичні знання та практичні навички роботи з великими даними, ознайомляться з основними поняттями, методами та засобами обробки великих даних. Навчаться збирати, зберігати, оперувати великими даними, враховуючи їхні особливості. Передбачено контроль якості отриманих знань у вигляді модульної контрольної роботи.

Предмет навчальної дисципліни

великі дані, методи та засоби їх аналізу та обробки.

Міждисциплінарні зв’язки

Дисципліна Методи і засоби обробки великих даних базується на дисциплінах:

Мета навчальної дисципліни

Метою навчальної дисципліни є формування у студентів теоретичних знань і практичних здатностей застосовувати методи і засоби збирання, зберігання, аналізу та обробки великих даних.

Основні завдання навчальної дисципліни

Знання
  • методів та засобів агрегації та інтегрування великих даних різних типів;
  • методів та засобів проектування сховищ для зберігання великих даних;
  • методів, засобів та інструментів інтелектуальної обробки великих даних;
  • методів та засобів візуалізації великих даних;
  • методів та засобів отримання знання з великих даних.
Уміння
  • використовувати інструментальні засоби інтеграції різнотипових великих даних;
  • правильно обирати та використовувати методи та алгоритми для фільтрації, валідації та зберігання великих даних;
  • правильно обирати найбільш інформативні способи візуалізації великих даних;
  • отримувати знання шляхом аналізу великих даних;
  • проєктувати та розробляти прикладні інформаційні програми для аналізу великих даних та прийняття рішень на основі отриманої інформації.

Пререквізити та постреквізити дисципліни (місце в структурно-логічній схемі навчання за відповідною освітньою програмою)

Пререквізити

мати знання з програмування, структур даних та алгоритмів, вищої математики, теорії ймовірностей та математичної статистики, статистичних методів аналізу даних, штучного інтелекту.

Постреквізити

після проходження дисципліни студенти матимуть теоретичні знання та практичні навички, які необхідні для провадження інженерної та наукової діяльності в області аналізу великих даних, їх інтелектуальної обробки і створення відповідних прикладних інформаційних програм.

Зміст навчальної дисципліни

Лекційні заняття
  • Розділ 1. Загальні поняття та особливості великих даних
  • Розділ 2. Фреймворк Hadoop
  • Розділ 3. Методи машинного навчання для обробки великих даних
  • Розділ 4. Обробка великих даних в реальному часі
  • Розділ 5. Основні проблеми обробки великих даних
Лабораторні заняття
  1. Встановлення та налаштування Hadoop.
  2. Виконання базових завдань в MapReduce.
  3. Попередня обробка даних.
  4. Обробка запитів.
  5. Статистична обробка даних.
  6. Алгоритми класифікації в Mahout.
  7. Алгоритми регресії в Mahout.
  8. Алгоритми кластеризації в Mahout.
  9. Глибинне навчання для великих даних.
  10. Обробка великих даних в реальному часі
  11. Обробка даних в фреймворку Spark
  12. Візуалізація великих даних

Навчальні матеріали та ресурси

Базова література

  1. Zgurovsky M.Z., Zaychenko Y.P. Big Data: Conceptual Analysis and Applications. Springer, 2020. – 298 p.
  2. Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. – СПб.: Питер, 2017. – 336 с.
  3. Олійник А. О. Інтелектуальний аналіз даних : навчальний посібник. — Запоріжжя : ЗНТУ, 2012. — 278 с.
  4. Ситник В.Ф., Краснюк М.Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. пос. — К:КНЕУ,2007 — 376 с.
  5. Tom White. Hadoop: The Definitive Guide. — O’Reilly, 2016. – 805p.
  6. Rajkumar Buyya. Big Data. Principles and Paradigms. — Elsevier, 2016. – 496p.

Допоміжна література

  1. Thomas Erl. Big Data Fundamentals. Concepts, Drivers & Techniques. — Prentice Hall, 2016. — 235p.
  2. Robert Slane. Big Data Essentials. — 2018. — 356p.
  3. Phil Simon. Too Big to Ignore: The Business Case for Big Data. — Wiley, 2019. — 257p.
  4. Себастьян Рашка, Вахид Мирджалили. Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn, TensorFlow. — К.: Диалектика, 2020. – 656 с.

Навчальний контент

Методика опанування навчальної дисципліни (освітнього компонента)

Очна форма

Лекційні заняття

Назва теми лекції та перелік основних питань (перелік дидактичних засобів, посилання на літературу та завдання на СРС)
1 Лекція 1. Основні поняття обробки даних.
Структура дисципліни та РСО. Поняття даних, основні завдання обробки даних, особливості обробки даних. Класифікація та загальний огляд етапів та методів обробки даних.
Література: ( 2,4 )
Завдання на СРС. Аналіз даних в бізнесі.
2 Лекція 2. Етапи процесу обробки великих даних.
Основні етапи процесу роботи з великими даними: постановка задачі, визначення даних, фільтрація, видобування, валідація та підготовка, аналіз, візуалізація. Види систем для роботи з великими даними.
Література: (2,4,6)
Завдання на СРС. Застосування великих даних в бізнесі та в аналітиці ринку.
3 Лекція 3. Методи та засоби збирання та зберігання даних.
Джерела великих даних, питання приватності та безпеки. Засоби збереження великих даних. Хмарні сховища, розподілені сховища. Складові фреймворку для роботи з великими даними.
Література: (2,6)
Завдання на СРС. Етичні питання при збиранні великих даних.
4 Лекція 4. Фреймворк Hadoop.
Основні особливості Hadoop, переваги та недоліки. Задачі, які вирішує Hadoop. Складові фреймворку Hadoop. Структура HDFS(Hadoop Distributed File System).
Література: (5)
Завдання для СРС. Види метрик великих даних.
5 Лекція 5. Базові складові Hadoop.
Файлова система Hadoop, операції читання та збереження файлів. Map Reduce, його функції, основні операції. Завдання та планування завдань в Map Reduce. Менеджер ресурсів YARN.
Література: (2,5)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
6 Лекція 6. Додаткові компоненти Hadoop.
Інструменти для написання запитів Pig та Hive. Інструменти для реалізації алгоритмів машинного навчання Mahout. Інструмент для роботи з графами Giraph.
Література: (5)
Завдання для СРС. Поглиблене вивчення матеріалів лекції. Підготовка до першої частини модульної контрольної роботи.
7 Лекція 7. Методи машинного навчання для обробки великих даних.
Перша частина модульної контрольної роботи. Основні види машинного навчання. Етапи аналізу даних методами машинного навчання. Масштабування ознак. Вибір моделі та способу її навчання. Методи оцінки моделей.
Література: ( 2,3,5)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
8 Лекція 8. Методи класифікації для роботи з великими даними.
Види методів класифікації, їх особливості, переваги та недоліки. Сфери застосування методів класифікації.
Література: (3,6 )
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
9 Лекція 9. Методи регресії для роботи з великими даними
Лінійна, нелінійна та логістична регресії. Критерії вибору та перевірки регресійної моделі. Додаткові регресійні моделі.
Література: (1,5)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
10 Лекція 10. Методи кластеризації для роботи з великими даними.
Класифікація алгоритмів кластерного аналізу. Ієрархічні алгоритми. Метод k-середніх. Нечіткі методи кластерного аналізу.
Література: (1,5)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
11 Лекція 11. Глибинне навчання та його паралелізація.
Концепції та категорії глибинного навчання. Основні моделі глибинного навчання. Паралельна оптимізація для глибинного навчання.
Література: (1,3,4,6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
12 Лекція 12. Системи для аналізу великих даних в реальному часі.
Основні концепції, характеристики та платформи для обробки великих даних в реальному часі. Поняття події, потоку подій, потокової обробки.
Література: (6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції. Підготовка до другої частини модульної контрольної роботи.
13 Лекція 13. Платформи для потокової обробки даних
Друга частина модульної контрольної роботи. Основні платформи для потокової обробки даних, їх особливості. Фреймворк Spark. Особливості платформ Storm та Kafka, їх інтеграція з Hadoop.
Література: (5,6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
14 Лекція 14. Аналітика великих даних в соціальних мережах.
Основні задачі, пов’язані з аналітикою даних в соціальних мережах. Методи визначення мови. Інтелектуальний аналіз тексту. Визначення трендових тем. Побудова рекомендаційних систем. Виявлення аномалій.
Література: (6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
15 Лекція 15. Управління ресурсами в системах обробки великих даних.
Типи ресурсів. Основні методи та платформи для управління ресурсами. Управління ресурсами з одного та з багатьох джерел в хмарі.
Література: (1,6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
16 Лекція 16. Методи та засоби візуалізації великих даних.
Методи візуального аналізу даних. Графіки числових рядів. Представлення мережі у вигляді графа. Обробка графів. Аналіз просторових даних для задачі таргетування.
Література: (2, 6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
17 Лекція 17. Пакетна обробка даних.
Недоліки пакетної обробки даних в Hadoop. Метод повтору. Організація завдань в методі повтору. Алгоритми пакетної обробки. Аналіз продуктивності алгоритмів.
Література: (6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.
18 Лекція 18. Безпека та приватність великих даних.
Приватність даних з соціальних мереж. Політики диференційованої приватності. Безпека великих даних. Шифрування великих даних.
Література: (1,6)
Завдання для СРС. Поглиблене вивчення матеріалів лекції.

Лабораторні заняття

Назва лабораторної роботи Кількість ауд. годин
1 Встановлення та налаштування Hadoop. 2
2 Виконання базових завдань в MapReduce. 2
3 Попередня обробка даних. 4
4 Обробка запитів. 2
5 Статистична обробка даних. 2
6 Алгоритми класифікації в Mahout. 4
7 Алгоритми регресії в Mahout. 4
8 Алгоритми кластеризації в Mahout. 4
9 Глибинне навчання для великих даних. 4
10 Обробка великих даних в реальному часі. 2
11 Обробка даних в фреймворку Spark. 4
12 Візуалізація великих даних. 2

Заочна форма

Лекційні заняття

Назва теми лекції та перелік основних питань (перелік дидактичних засобів, посилання на літературу та завдання на СРС)
1 Лекція 1. Основні поняття великих даних
Структура дисципліни та РСО. Поняття великих даних, їхні особливості та проблеми зберігання та обробки. Основні характеристики великих даних. Типи даних. Основні етапи процесу роботи з великими даними: постановка задачі, визначення даних, фільтрація, видобування, валідація та підготовка, аналіз, візуалізація. Види систем для роботи з великими даними.
Література: ( 2,4,6 )
Завдання на СРС. Застосування великих даних в бізнесі та в аналітиці ринку.
2 Лекція 2. Фреймворк Hadoop.
Основні особливості Hadoop, переваги та недоліки. Задачі, які вирішує Hadoop. Складові фреймворку Hadoop. Структура HDFS(Hadoop Distributed File System). Файлова система Hadoop, операції читання та збереження файлів. Map Reduce, його функції, основні операції. Завдання та планування завдань в Map Reduce. Менеджер ресурсів YARN.
Література: (2,5)
Завдання для СРС. Методи та засоби збирання та зберігання даних. Додаткові компоненти Hadoop.
3 Лекція 3. Методи машинного навчання для обробки великих даних.
Основні види машинного навчання. Етапи аналізу даних методами машинного навчання. Масштабування ознак. Вибір моделі та способу її навчання. Методи оцінки моделей. Види методів класифікації, їх особливості, переваги та недоліки. Сфери застосування методів класифікації. Класифікація алгоритмів кластерного аналізу. Ієрархічні алгоритми. Метод k-середніх. Нечіткі методи кластерного аналізу.
Література: (2,3,5)
Завдання для СРС. Методи регресії для роботи з великими даними.
4 Лекція 4. Системи для аналізу великих даних в реальному часі.
Основні концепції, характеристики та платформи для обробки великих даних в реальному часі. Поняття події, потоку подій, потокової обробки. Основні платформи для потокової обробки даних, їх особливості. Фреймворк Spark. Особливості платформ Storm та Kafka, їх інтеграція з Hadoop.
Література: (5,6)
Завдання для СРС. Глибинне навчання та його паралелізація.
5 Лекція 5. Аналітика великих даних в соціальних мережах.
Основні задачі, пов’язані з аналітикою даних в соціальних мережах. Методи визначення мови. Інтелектуальний аналіз тексту. Визначення трендових тем. Побудова рекомендаційних систем. Виявлення аномалій.
Література: (6)
Завдання для СРС. Управління ресурсами в системах обробки великих даних. Методи та засоби візуалізації великих даних.

Лабораторні заняття

Назва лабораторної роботи Кількість ауд. годин
1 Встановлення та налаштування Hadoop. 2
2 Виконання базових завдань в MapReduce. 2
3 Попередня обробка даних. 2
4 Обробка запитів. 2
5 Алгоритми класифікації в Mahout. 2

Самостійна робота студента/аспіранта

Очна форма

Назва теми, що виноситься на самостійне опрацювання Кількість годин СРС
1 Аналіз даних в бізнесі. 3
2 Застосування великих даних в бізнесі та в аналітиці ринку 4
3 Етичні питання при збиранні великих даних 3
4 Види метрик великих даних 2
5 Базові складові Hadoop 5
6 Підготовка до першої частини модульної контрольної роботи 4
7 Методи машинного навчання для обробки великих даних 4
8 Методи класифікації для роботи з великими даними 4
9 Методи регресії для роботи з великими даними 5
10 Методи кластеризації для роботи з великими даними 4
11 Глибинне навчання та його паралелізація 3
12 Підготовка до другої частини модульної контрольної роботи 4
13 Платформи для потокової обробки даних 4
14 Аналітика великих даних в соціальних мережах 3
15 Управління ресурсами в системах обробки великих даних 3
16 Методи та засоби візуалізації великих даних 4
17 Пакетна обробка даних 3

Заочна форма

Назва теми, що виноситься на самостійне опрацювання Кількість годин СРС
1 Методи та засоби збирання та зберігання даних 4
2 Фреймворк Hadoop. 8
3 Додаткові компоненти Hadoop. 8
4 Методи машинного навчання для обробки великих даних. 8
5 Методи класифікації для роботи з великими даними. 10
6 Методи регресії для роботи з великими даними. 10
7 Методи кластеризації для роботи з великими даними. 8
8 Глибинне навчання та його паралелізація. 8
9 Системи для аналізу великих даних в реальному часі. 7
10 Платформи для потокової обробки даних. 8
11 Аналітика великих даних в соціальних мережах. 8
12 Управління ресурсами в системах обробки великих даних. 8
13 Методи та засоби візуалізації великих даних. 8
14 Підготовка до модульної контрольної роботи 4

Політика та контроль

Політика навчальної дисципліни (освітнього компонента)

Система вимог, які ставляться перед студентом:

  • відвідування лекційних та лабораторних занять є обов’язковою складовою вивчення матеріалу;
  • на лекції викладач користується власним презентаційним матеріалом; використовує гугл-диск для викладання матеріалу поточної лекції, додаткової інформації, завдань до лабораторних робіт та інше;
  • питання на лекції задаються у відведений для цього час;
  • звіти з лабораторних робіт завантажуються напередодні захисту; для захисту лабораторної роботи необхідно продемонструвати роботу відповідної завданню програми та відповісти на питання щодо програми та контрольні питання;
  • модульні контрольні роботи пишуться на лекційних заняттях без застосування допоміжних засобів (мобільні телефони, планшети та ін.); результат завантажується у файлі через гугл-форму до відповідної директорії гугл-диску;
  • заохочувальні бали виставляються за: участь у факультетських та інститутських олімпіадах з навчальних дисциплін, участь у конкурсах робіт, підготовка оглядів наукових праць тощо. Кількість заохочуваних балів не більше 10;
  • штрафні бали виставляються за: несвоєчасну здачу лабораторних робіт без поважних причин; переписування модульної контрольної роботи. Кількість штрафних балів не більше 10.

Види контролю та рейтингова система оцінювання результатів навчання (РСО)

Рейтинг студента складається з балів, що він отримує за:

  1. виконання та захист лабораторних робіт;
  2. виконання модульної контрольної роботи;
  3. заохочувальні та штрафні бали.

Система рейтингових балів та критерії оцінювання

Денна форма навчання:
Лабораторні завдання
  • «відмінно», пповна відповідь на питання під час захисту (не менш ніж 90% потрібної інформації), повне виконання завдання лабораторної роботи – 3 бали;
  • «добре», достатньо повна відповідь на питання під час захисту (не менш ніж 75% потрібної інформації), повне виконання завдання лабораторної роботи – 2 бали;
  • «задовільно», неповна відповідь на питання під час захисту (не менш ніж 60% потрібної інформації), незначні помилки у виконанні завдання лабораторної роботи – 1 бал;
  • «незадовільно», незадовільна відповідь та/або значні помилки у виконання завдання лабораторної роботи – 0 балів.

За запізнення з поданням лабораторної роботи до захисту від встановленого терміну оцінка знижується на 1 бал.

Модульні контрольні роботи
  • «відмінно», повна відповідь (не менш ніж 90% потрібної інформації), завдання виконано без помилок, дії обґрунтовано – 7 балів;
  • «добре», достатньо повна відповідь (не менш ніж 75% потрібної інформації), завдання виконано без значних помилок – 5-6 балів;
  • «задовільно», неповна відповідь, в деяких завданнях можуть бути присутні значні помилки, але не менше 60% виконано правильно – 3-4 балів;
  • «незадовільно», незадовільна відповідь (неправильне виконання завдань), потребує обов’язкового повторного написання в кінці семестру – 0 балів.
Заохочувальні бали

за виконання творчих робіт з кредитного модуля (наприклад, участь у факультетських та інститутських олімпіадах з навчальних дисциплін, участь у конкурсах робіт, підготовка оглядів наукових праць тощо) 1-2 бали, але в сумі не більше 10.

Міжсесійна атестація

За результатами навчальної роботи за перші 7 тижнів максимально можлива кількість балів – 19 балів (4 лабораторних завдання, перша частина модульної контрольної роботи). На першій атестації (8-й тиждень) студент отримує «зараховано», якщо його поточний рейтинг не менший ніж 8 балів.

За результатами 13 тижнів навчання максимально можлива кількість балів – 41 бал (9 лабораторних завдань, модульна контрольна робота). На другій атестації (14-й тиждень) студент отримує «зараховано», якщо його поточний рейтинг не менший ніж 16 балів.

Максимальна сума вагових балів контрольних заходів протягом семестру складає:

RD = 12*rл.р.+2*rмкр+ (rз - rш)=12*3+2*7+(rз - rш)=50 + (rз - rш), де rл.р. – бал за лабораторну роботу (0…3); rмкр – бал за написання МКР (0…7); rз – заохочувальні бали (0…10); rзш – штрафні бали (0…10);.

Заочна форма навчання:
Лабораторні завдання
  • «відмінно», пповна відповідь на питання під час захисту (не менш ніж 90% потрібної інформації), повне виконання завдання лабораторної роботи – 7 балів;
  • «добре», достатньо повна відповідь на питання під час захисту (не менш ніж 75% потрібної інформації), повне виконання завдання лабораторної роботи – 5-6 балів;
  • «задовільно», неповна відповідь на питання під час захисту (не менш ніж 60% потрібної інформації), незначні помилки у виконанні завдання лабораторної роботи – 3-4 балів;
  • «незадовільно», незадовільна відповідь та/або значні помилки у виконання завдання лабораторної роботи – 0 балів.

За запізнення з поданням лабораторної роботи до захисту від встановленого терміну оцінка знижується на 1 бал.

Модульна контрольна робота
  • «відмінно», повна відповідь (не менш ніж 90% потрібної інформації), завдання виконано без помилок, дії обґрунтовано – 15 балів;
  • «добре», достатньо повна відповідь (не менш ніж 75% потрібної інформації), завдання виконано без значних помилок – 12-14 балів;
  • «задовільно», неповна відповідь, в деяких завданнях можуть бути присутні значні помилки, але не менше 60% виконано правильно – 9-11 балів;
  • «незадовільно», незадовільна відповідь (неправильне виконання завдань), потребує обов’язкового повторного написання в кінці семестру – 0 балів.
Заохочувальні бали

за виконання творчих робіт з кредитного модуля (наприклад, участь у факультетських та інститутських олімпіадах з навчальних дисциплін, участь у конкурсах робіт, підготовка оглядів наукових праць тощо) 1-2 бали, але в сумі не більше 10.

Максимальна сума вагових балів контрольних заходів протягом семестру складає:

RD = 5*rл.р.+rмкр+ (rз - rш)=5*7+15+(rз - rш)=50 + (rз - rш), де rл.р. – бал за лабораторну роботу (0…7); rмкр – бал за написання МКР (0…15); rз – заохочувальні бали (0…10); rзш – штрафні бали (0…10);

Екзамен

Максимальна сума балів стартової складової дорівнює 50 балів. Необхідною умовою допуску до екзамену є виконання та захист всіх лабораторних робіт, написання модульних контрольних і стартовий рейтинг не менше 25 балів. На екзамені студенти готуються до усного екзамену. Кожний білет містить два питання.

Система оцінювання питань
  • «відмінно», повна відповідь (не менше 90% потрібної інформації) – 24-25 балів;
  • «добре», достатньо повна відповідь (не менше 75% потрібної інформації, або незначні неточності) – 19-23 балів;
  • «задовільно», неповна відповідь (не менше 60% потрібної інформації та деякі помилки) – 15-18 балів;
  • «незадовільно», незадовільна відповідь – 0-14 балів.

Сума набраних балів, набраних за семестрову роботу та за екзамен переводиться до підсумкової оцінки згідно з таблицею:

Таблиця 1. Переведення рейтингових балів до оцінок за університетською шкалою
Кількість балів Оцінка
100-95 Відмінно
94-85 Дуже добре
84-75 Добре
74-65 Задовільно
64-60 Достатньо
Менше 60 Незадовільно
Не виконані умови допуску Не допущено

Додаткова інформація з дисципліни (освітнього компонента)

Робочу програму навчальної дисципліни (Силабус): Складено ст. викладач, Тимофєєва Юлія Сергіївна Ухвалено кафедрою ІСТ (протокол № 1 від 30.08.2021 р.) Погоджено Методичною комісією факультету[1] (протокол № 1 від 30.08.2021 р.)