ІНЖЕНЕРІЯ ДАНИХ - СИЛАБУС НАВЧАЛЬНОЇ ДИСЦИПЛІНИ

Силабус освітнього компонента

Реквізити навчальної дисципліни

Рівень вищої освіти Другий (магістерський)
Галузь знань 12 Інформаційні технології
Спеціальність 126 Інформаційні системи та технології
Освітня програма Інтегровані інформаційні системи
Статус дисципліни Обов’язкова (нормативна)
Форма навчання очна(денна)/заочна/дистанційна
Рік підготовки, семестр 1 курс, осінній семестр
Обсяг дисципліни 3,5 кредити ECTS /105 годин (36 годин лекцій, 36 годин лабораторних робіт, 33 години – СРС)
Семестровий контроль/ контрольні заходи Залік, МКР, захист лабораторних робіт
Розклад занять 1 лекція (2 години) 1 раз на тиждень; 1 лабораторна робота (2 години) 1 раз на тиждень
Мова викладання Українська
Інформація про керівника курсу / викладачів к.т.н., доцент Писаренко Андрій Володимирович Telegram: https://t.me/DataEngineering2023
Розміщення курсу https://www.sikorsky-distance.org/g-suite-for-education/%D1%84%D1%96%D0%BE%D1%82/|

Програма навчальної дисципліни

1. Опис навчальної дисципліни, її мета, предмет вивчання та результати навчання

Відповідно до стандарту вищої освіти зі спеціальності 126 Інформаційні системи та технології галузі знань 12 Інформаційні технології для другого (магістерського) рівня вищої освіти та освітньо-професійної програми другого (магістерського) рівня вищої освіти дисципліна «Інженерія даних» формує (ЗК01) здатність до до абстрактного мислення, аналізу та синтезу, (СК04) здатність розробляти математичні, інформаційні та комп’ютерні моделі об’єктів і процесів інформатизації, (СК05) здатність використовувати сучасні технології аналізу даних для оптимізації процесів в інформаційних системах, (СК08) здатність перетворювати, очищувати, профілювати та агрегувати великі набори даних, управляти даними, будувати та вилучати спеціальні запити до даних та (РН09) розробляти і використовувати сховища даних, здійснювати аналіз даних для підтримки прийняття рішень.

Дисципліна "Інженерія даних" надає студентам повне розуміння принципів, методів та інструментів інженерії даних. Курс призначений для того, щоб оволодіти компетентностями для управління великомасштабними системами обробки даних, проєктування ефективних конвеєрів даних та оптимізації зберігання та пошуку даних. Завдяки поєднанню лекцій і лабораторних робіт студенти отримають практичний досвід побудови надійної інфраструктури даних і освоєння основних концепцій інженерії даних.

Предмет навчальної дисципліни

Предмет - методи та принципи моделювання даних, інтеграції даних, процеси ETL (Extract, Transform, Load), основи великих даних, обробка даних у реальному часі, якість даних та управління, безпека та конфіденційність даних і масштабовані рішення для зберігання даних.

Мета навчальної дисципліни

Метою є надання студентам передових знань і практичних навичок з інженерії даних, що дозволить їм ефективно проектувати, впроваджувати та керувати системами та інфраструктурою даних, які підтримують обробку, зберігання та аналіз великомасштабних і різноманітних наборів даних.

Завдання навчальної дисципліни

Завдання вивчення дисципліни - підготувати студентів до кар’єри в галузі обробки даних, де вони можуть сприяти розробленню керованих даними рішень і приймати обґрунтовані рішення на основі високоякісних і добре організованих даних.

2. Пререквізити та постреквізити дисципліни

Пререквізити

Для успішного засвоєння дисципліни студент повинен володіти освітніми компонентами "Програмування. Частина 1. Основи програмування", "Програмування. Частина 2. Структури даних та алгоритми", Бази даних", "Теорія ймовірності та математична статистика", "Технології машинного навчання".

Постреквізити

Компетенції, знання та уміння, одержані в процесі вивчення освітнього компонента є необхідними для подальших освітніх компонентів "Практика" та "Виконання магістерської дисертації"

3. Зміст навчальної дисципліни

Розділ 1. Основи та складові інженерії даних Тема 1.1. Вступ до інженерії даних Тема 1.2. Моделювання даних і проектування баз даних Тема 1.3. Інтеграція даних і ETL Тема 1.4. Основи великих даних Тема 1.5. Сховища даних

Розділ 2. Робота з даними Тема 2.1. Обробка даних у реальному часі Тема 2.2. Якість даних і управління Тема 2.3. Безпека даних і конфіденційність Тема 2.4. Озера даних і конвеєри даних Тема 2.5. Візуалізація даних і звітність

Розділ 3. Прикладні задачі інженерії даних Тема 3.1. Інженерія даних у хмарних середовищах Тема 3.2. Передовий досвід і оптимізація в інженерії даних Тема 3.3. Передові методи обробки даних Тема 3.4. Інженерія даних для аналітики в реальному часі Тема 3.5. Інженерія даних для машинного навчання Тема 3.6. Інженерія даних для обробки природної мови (NLP) Тема 3.7. Інженерія даних для Інтернету речей (IoT) Тема 3.8. Інженерія даних для управління даними та відповідності

4. Навчальні матеріали та ресурси

Базова література

  1. Дистанційний курс «Інженерія даних» для магістрів 1-го курсу спеціальності 126 «Інформаційні системи та технології».
  2. Wijaya, A. Data Engineering with Google Cloud Platform. Packt, 2022.
  3. Chan, Yupo, John Talburt, and Terry M. Talley, eds. Data engineering: mining, information and intelligence. Vol. 132. Springer Science & Business Media, 2009.
  4. Reis, Joe, and Matt Housley. Fundamentals of Data Engineering. " O'Reilly Media, Inc.", 2022.
  5. Silverston, Len. The data model resource book, Volume 1: A library of universal data models for all enterprises. John Wiley & Sons, 2011.
  6. Hernandez, Michael James. Database design for mere mortals: a hands-on guide to relational database design. Pearson Education, 2013.
  7. Genesereth, Michael. Data integration: The relational logic approach. Springer Nature, 2022.

Допоміжна література

  1. Giordano, Anthony David. Data integration blueprint and modeling: techniques for a scalable and sustainable architecture. Pearson Education, 2010.
  2. Holmes, Dawn E. Big data: a very short introduction. Oxford University Press, 2017.
  3. Krishnan, Krish. Data warehousing in the age of big data. Newnes, 2013.
  4. Inmon, William H. Building the data warehouse. John wiley & sons, 2005.

5. Методика опанування навчальної дисципліни (освітнього компонента)

Лекційні заняття

№ з/п Назва теми лекції та перелік основних питань
1 Тема 1.1. Вступ до інженерії даних
Основні питання: огляд інженерії даних, життєвий цикл інженерії даних
2 Тема 1.2. Моделювання даних і проектування баз даних
Основні питання: концепції моделювання даних, реляційні та нереляційні бази даних, принципи проектування баз даних
3 Тема 1.3. Інтеграція даних і ETL
Основні питання: процеси видобування, перетворення, завантаження (ETL), методи інтеграції даних, знайомство з інструментами ETL
4 Тема 1.4. Основи великих даних
Основні питання: вступ до концепцій великих даних, фреймворки розподілених обчислень, системи зберігання великих даних
5 Тема 1.5. Сховища даних і розмірне моделювання
Основні питання: концепції та архітектури сховищ даних, методика просторового моделювання, створення вітрин даних і кубів OLAP
6 Тема 2.1. Обробка даних у реальному часі
Основні питання: вступ до обробки даних у реальному часі, фреймворки потокової обробки, побудова конвеєрів даних у реальному часі
7 Тема 2.2.Якість даних і управління
Основні питання: методи забезпечення якості даних, принципи управління даними та найкращі практики, впровадження перевірок якості даних
8 Тема 2.3. Безпека даних і конфіденційність
Основні питання: огляд правил безпеки даних і конфіденційності, методи захисту інфраструктури даних, методи анонімізації та шифрування
9 Тема 2.4. Озера даних і конвеєри даних
Основні питання: знайомство з озерами даних, створення масштабованих і ефективних конвеєрів даних, приймання та зберігання даних в озерах даних
10 Тема 2.5. Візуалізація даних і звітність
Основні питання: принципи та засоби візуалізації даних, створення інтерактивних панелей, звітування та оповідання даних
11 Тема 3.1. Інженерія даних у хмарних середовищах
Основні питання: хмарні платформи обробки даних, використання хмарних сервісів для обробки даних, масштабованість та еластичність
12 Тема 3.2. Передовий досвід і оптимізація в інженерії даних
Основні питання: кращі практики для ефективної обробки даних, методи оптимізації продуктивності, моніторинг і усунення несправностей конвеєрів даних
13 Тема 3.3. Передові методи обробки даних
Основні питання: розширені концепції обробки даних, стратегії оптимізації для складних робочих процесів даних, вступ до передових фреймворків обробки даних
14 Тема 3.4. Інженерія даних для аналітики в реальному часі
Основні питання: концепції та варіанти використання аналітики в реальному часі, побудова систем аналітики в реальному часі, вступ до фреймворків потокової обробки
15 Тема 3.5. Інженерія даних для машинного навчання
Основні питання: методи та підходи інженерії даних щодо проектів машинного навчання, храктеристики інженерних прийомів, управління великими навчальними наборами даних
16 Тема 3.6. Інженерія даних для обробки природної мови (NLP)
Основні питання: вступ до обробки природної мови, обробка та попередня обробка текстових даних, конвеєри та техніки NLP
17 Тема 3.7. Інженерія даних для Інтернету речей (IoT)
Основні питання: огляд задач інженерії даних для IoT, керування потоками даних датчиків, архітектури зберігання та обробки даних IoT
18 Тема 3.8. Інженерія даних для управління даними та відповідності
Основні питання: передові практики управління даними, відповідність даних нормативним вимогам, впровадження механізмів походження даних і аудиту

Лабораторні роботи

№ з/п Перелік лабораторних робіт
1-3 Лабораторна робота 1-3. Вступ до інструментів Google Cloud Platform (GCP)
Дослідження та використання основних інструментів обробки даних Google Cloud Platform (GCP), таких як Google Cloud Storage, BigQuery, Dataflow і Pub/Sub. Налаштування проєкту GCP і необхідних API та служб для обробки даних. Виконання базових завданнь обробки та аналізу даних за допомогою інструментів GCP
4-6 Лабораторна робота 4-6. Моделювання даних і проектування бази даних на GCP
Створення схеми бази даних на основі заданого сценарію або використання, використовуючи Google Cloud Spanner або Google Cloud Firestore як систему керування базами даних. Впровадження схеми бази даних за допомогою вибраної системи керування базою даних на GCP. Моделювання даних, включаючи визначення сутностей, атрибутів, зв’язків і стратегій індексування, специфічних для GCP
7-9 Лабораторна робота 7-9. Приймання та обробка даних на GCP
Мета: Налаштування каналів прийому даних за допомогою Google Cloud Dataflow або Apache Beam на GCP. Отримання даних з різних джерел і перетворювати їх для подальшої обробки на GCP. Завантаження перетворених даних в Google Cloud Storage, BigQuery або інші відповідні системи зберігання даних GCP
10-12 Лабораторна робота 10-12. Обробка даних у реальному часі на GCP
Створення конвеєрів обробки даних у реальному часі за допомогою Google Cloud Pub/Sub, Dataflow або Apache Kafka на GCP. Перетворення потокових даних, фільтрація та агрегація в режимі реального часу за допомогою вибраних інструментів на GCP. Відстеження та оптимізація продуктивності конвеєрів обробки даних у реальному часі за допомогою інструментів моніторингу та профілювання GCP
13-15 Лабораторна робота 13-15. Аналітика великих даних і машинне навчання на GCP
Використання інструментів GCP для аналізу великих даних, таких як BigQuery, Cloud Dataproc або Cloud Dataflow для масштабного аналізу даних. Застосовання алгоритмів машинного навчання за допомогою сервісів машинного навчання GCP, таких як Cloud AutoML, AI Platform або TensorFlow на GCP. Оцінка та інтерпретація результатів моделей аналітики та машинного навчання за допомогою інструментів візуалізації та оцінки GCP
16-18 Лабораторна робота 16-18. Якість даних і управління GCP
Розроблення та впровадження політики та методів керування даними за допомогою інфраструктури керування даними GCP та IAM (керування ідентифікацією та доступом). Розроблення процесів керування даними та метаданими, використовуючи каталог даних GCP та відповідні інструменти для забезпечення якості та відповідності даних

Матеріали до лекційних,практичних занять та лабораторних робіт доступні для завантаження виключно здобувачам, які зареєстровані на дистанційний курс «Інженерія даних» на платформі дистанційного навчання «Сікорський» за посиланням https://www.sikorsky-distance.org/g-suite-for-education/%D1%84%D1%96%D0%BE%D1%82/

Самостійна робота студента

№ з/п Вид самостійної роботи Кількість годин СРС
1 Підготовка до лабораторних робіт 23
2 Підготовка до МКР 10
Всього 33

Контрольні роботи

Двогодинна модульна контрольна робота (МКР) поділяється на дві одногодинні (45 хв.), що проводяться під час лабораторних занятть.

МКР-1 виконується після вивчення тем 1.1 - 1.5. МКР-2 виконується після вивчення тем 2.1 - 2.5. Модульні контрольні роботи виконуються в середовищі Google Classroom у вигляді тестування.

Політика та контроль

6. Політика навчальної дисципліни (освітнього компонента)

Система вимог, які ставляться перед студентом:

  • правила відвідування занять: заборонено оцінювати присутність або відсутність здобувача на аудиторному занятті, в тому числі нараховувати заохочувальні або штрафні бали. Відповідно до РСО даної дисципліни бали нараховують за відповідні види навчальної активності на лекційних та практичних заняттях;
  • модульні контрольні роботи виконуються без застосування допоміжної інформації з Інтернет, дистанційного курсу на платформі Сікорський, конспекта;
  • заохочувальні бали виставляються за навчальну активність на лекційних заняттях. Кількість заохочуваних балів не більше 10;
  • штрафні бали виставляються за невчасну здачу лабораторних робіт. Кількість штрафних балів не більше 10;
  • політика щодо академічної доброчесності: Кодекс честі Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» https://kpi.ua/files/honorcode.pdf встановлює загальні моральні принципи, правила етичної поведінки осіб та передбачає політику академічної доброчесності для осіб, що працюють і навчаються в університеті, якими вони мають керуватись у своїй діяльності, в тому числі при вивченні та складанні контрольних заходів з дисципліни «Інженерія даних».

7. Види контролю та рейтингова система оцінювання результатів навчання (РСО)

Поточний контроль: МКР, виконання та захист лабораторних робіт. Календарний контроль: проводиться двічі на семестр як моніторинг поточного стану виконання вимог силабусу. Семестровий контроль: залік. Рейтинг студента з дисципліни складається із балів стартового рейтингу (протягом семестру). Бали стартового рейтингу протягом семестру студент отримує за:

  • виконання та захист лабораторних робіт;
  • виконання модульних контрольних робіт (МКР).

Система рейтингових балів та критерії оцінювання

Лабораторні роботи

«відмінно», повна відповідь на питання під час захисту (не менш ніж 90% потрібної інформації) та оформлений належним чином протокол до лабораторної роботи – 13 балів; «добре», достатньо повна відповідь на питання під час захисту (не менш ніж 75% потрібної інформації) та оформлений належним чином протокол до лабораторної роботи – 11 балів; «задовільно», неповна відповідь на питання під час захисту (не менш ніж 60% потрібної інформації), незначні помилки та оформлений належним чином протокол до лабораторної роботи – 8 балів; «незадовільно», незадовільна відповідь та/або не оформлений належним чином протокол до лабораторної роботи – 0 балів.

За кожне запізнення з поданням лабораторної роботи до захисту від встановленого терміну оцінка знижується на 1 бал.

Модульні контрольні роботи

«відмінно», не менш ніж 90% правильних відповідей – 11 балів; «добре», не менш ніж 75% правильних відповідей – 9 балів; «задовільно», не менш ніж 60% правильних відповідей – 7 балів; «незадовільно», менш ніж 60% правильних відповідей – 0 балів.

Заохочувальні бали

за активну роботу на лекційному занятті 1 бал, але в сумі не більше 10.

Штрафні бали

Запізнення з поданням лабораторної роботи до захисту від встановленого терміну -1 бал, але в сумі не більше -10

Календарний контроль

На першій атестації (8-й тиждень) студент отримує «зараховано», якщо його поточний рейтинг не менший ніж 18 балів. На другій атестації (14-й тиждень) студент отримує «зараховано», якщо його поточний рейтинг не менший ніж 36 балів.

Максимальна сума балів контрольних заходів протягом семестру складає:

RD = 6*rлаб++2*rмкр=6*13+2*11=100,

де

rлаб – бал за лабораторну роботу (0…13); rмкр – бал за написання МКР (0…11)

Форма семестрового контролю – Залік

Необхідною умовою заліку є виконання одночасно усіх видів робіт:

  1. виконати МКР-1 та МКР-2 не нижче ніж на оцінку «задовільно»;
  2. захист усіх лабораторних робіт на оцінку не нижче ніж «задовільно»;

Залік проводиться на останньому за розкладом занятті в семестрі. Якщо стартовий рейтинг протягом семестру становить 60 балів та вище, залікова оцінка, за згодою студента, переноситься в залікову відомість.

У випадку, коли семестровий рейтинг нижчий за 60 балів (усі види робіт виконані) або рейтинг вищий за 60 балів, але студент виявив бажання підвищити оцінку - призначається залікова контрольна робота. Залікова контрольна робота виконуються в середовищі Google Classroom у вигляді тестування.

Система оцінювання залікової контрольної роботи

«відмінно», не менш ніж 90% правильних відповідей – 20 балів; «добре», не менш ніж 75% правильних відповідей – 16 балів; «задовільно», не менш ніж 60% правильних відповідей – 12 балів; «незадовільно», менш ніж 60% правильних відповідей – 0 балів.

Сума стартових балів плюс бали за залікову контрольну роботу переводиться до залікової оцінки згідно з таблицею:

Таблиця 1. Переведення рейтингових балів до оцінок за університетською шкалою
Кількість балів Оцінка
100-95 Відмінно
94-85 Дуже добре
84-75 Добре
74-65 Задовільно
64-60 Достатньо
Менше 60 Незадовільно
Не виконані умови допуску Не допущено

Робочу програму навчальної дисципліни (Силабус):

Складено: доценткафедри інформаційних систем та технологій ФІОТ, к.т.н., Писаренко Андрій Володимирович

Ухвалено кафедрою інформаційних систем та технологій ФІОТ (протокол № 21 від 29.06.2023 р.)

Погоджено Методичною комісією факультету (протокол № 11 від 29.06.2023 р.)