ПРИКЛАДНІ МЕТОДИ АНАЛІЗУ ДАНИХ - Робоча програма навчальної дисципліни (Силабус)
Реквізити навчальної дисципліни
Рівень вищої освіти | Третій ( доктор філософії ) |
---|---|
Галузь знань | 12 Інформаційні технології |
Спеціальність | 121 Інженерія програмного забезпечення |
Освітня програма | Інженерія програмного забезпечення |
Статус дисципліни | Вибіркова |
Форма навчання | очна(денна)/заочна |
Рік підготовки, семестр | 2 курс, осінній семестр |
Обсяг дисципліни | 5 кредитів / 150 годин. Денна форма: лекцій 18 годин, лаб. роб. 18 годин, СРС: 114 годин |
Семестровий контроль/ контрольні заходи | Залік |
Розклад занять | Згідно розкладу на осінній семестр поточного навчального року за адресою http://rozklad.kpi.ua |
Мова викладання | Українська |
Інформація про керівника курсу / викладачів |
Лектор: д.т.н, професор, Новотарський Михайло Анатолійович novotar@gmail.com Лабораторні: д.т.н, професор, Новотарський Михайло Анатолійович novotar@gmail.com |
Розміщення курсу | https://classroom.google.com/c/NDEzMDE0NTY2MzQ4?cjc=ijijq23 |
Програма навчальної дисципліни
1.Опис навчальної дисципліни, її мета, предмет вивчання та результати навчання
Дисципліна “Прикладні методи аналізу даних” призначена для вивчення основних методів аналізу даних. В рамках даного курсу вивчаються теми, які включають основні статистичні методи навчання: методи навчання з учителем та без учителя. Значну увагу приділено методам, які забезпечують ефективний аналіз великих наборів даних. Практична частина курсу призначена для вивчення прикладних бібліотек та програмних систем, які використовуються при машинному аналізі даних.
Метою вивчення дисципліни «Прикладні методи аналізу даних» є підготовка фахівців, здатних розв’язувати комплексні проблеми в галузі дослідницько-інноваційної діяльності у сфері аналізу даних для прийняття оптимальних рішень та використання результатів аналізу даних для уточнення наукових висновків та формування прогнозів щодо прийнятих рішень, що передбачає глибоке розуміння підходів до створення традиційних та створення нових поведінкових моделей .
Предметом дисципліни є:
- методи аналізу даних;
- основні статистичні методи навчання;
- методи навчання з учителем, методи навчання без учителя.
Основні результати навчання
Здобувачі наукового ступеня доктора філософії після засвоєння вибіркової навчальної дисципліни мають підсилити такі компетентності.
- Загальні компетентності:
ЗК01. Здатність до пошуку, оброблення та аналізу інформації з різних джерел.
ЗК02. Здатність розв’язувати комплексні проблеми у сфері інженерії програмного забезпечення.
ЗК04. Здатність презентувати ідеї, інноваційні розробки і результати досліджень як в науковій так і в професійній спільноті.
ЗК05. Здатність переосмислювати наявне та створювати нове цілісне знання та/або професійну практику і розв’язувати значущі соціальні, наукові, культурні, етичні та інші проблеми.
- Спеціальні компетентності:
СК02. Здатність виявляти, ставити та вирішувати проблеми дослідницького характеру в сфері інженерії програмного забезпечення, оцінювати та забезпечувати якість виконуваних досліджень.
СК03. Здатність отримувати нові наукові результати, які створюють нові знання та становлять оригінальний внесок у розвиток інженерії програмного забезпечення та дотичних до неї міждисциплінарних напрямів.
СК04. Здатність відстежувати тенденції розвитку інженерії програмного забезпечення та критично переосмислювати наявні технології.
СК05. Здатність до розроблення нових та вдосконалення існуючих моделей, методів, засобів, процесів у сфері інженерії програмного забезпечення, які забезпечують розвиток або надають нові можливості технологіям розробки та супроводження програмного забезпечення.
СК06. Здатність до застосування сучасних методологій, методів та інструментів інженерії програмного забезпечення в науково-педагогічній та науковій діяльності.
СК10. Здатність проводити експериментальні дослідження з оцінювання ефективності та безпечності програмного забезпечення.
У відповідності до вищезазначеного, підсилені загальні та фахові компетенції дадуть наступні результати навчання:
PH01. Мати передові концептуальні та методологічні знання з інженерії програмного забезпечення та дотичних до неї міждисциплінарних напрямів, а також дослідницькі навички, достатні для проведення наукових і прикладних досліджень.
РН02. Планувати і виконувати експериментальні та/або теоретичні дослідження з інженерії програмного забезпечення та дотичних міждисциплінарних напрямів з використанням сучасних інструментів та дотриманням норм академічної і професійної етики, критично аналізувати результати власних досліджень і результати інших дослідників у контексті усього комплексу сучасних знань щодо досліджуваної проблеми.
РН03. Пропонувати нові ефективні методи і моделі розроблення, впровадження, супроводу та забезпечення якості програмного забезпечення та управління відповідними процесами на всіх етапах життєвого циклу.
РН05. Застосовувати сучасні інструменти і технології пошуку, оброблення та аналізу інформації, зокрема, статистичні методи аналізу даних великого обсягу та/або складної структури, спеціалізовані бази даних та інформаційні системи для покращення ефективності програмних систем.
РН07. Розробляти та досліджувати концептуальні, математичні і комп’ютерні моделі процесів і систем для отримання нових знань та/або створення інноваційних продуктів у інженерії програмного забезпечення та дотичних міждисциплінарних напрямах.
10 РН09. Формулювати та вирішувати задачі оптимізації, адаптації, прогнозування, керування та прийняття рішень щодо процесів, засобів та ресурсів розробки, впровадження, супроводу та експлуатації програмного забезпечення.
РН10. Аналізувати та оцінювати стан і перспективи розвитку інженерії програмного забезпечення та інформаційних технологій у цілому.
РН14. Уміти застосовувати, розробляти та удосконалювати методи верифікації програмного забезпечення.
РН15. Уміти розробляти та удосконалювати методи модельно-орієнтованого проєктування інформаційних систем для вирішення теоретичних і прикладних задач за умови створення об’єктних, сценарних моделей.
РН17. Знати принципи побудови сценарних моделей та верифікації сценаріїв аналізу інформації
РН18. Вміти досліджувати робочі параметри процесів життєвого циклу програмного забезпечення, а також здійснювати аналіз вибраних методів та засобів підтримки цих процесів та бути спроможним обґрунтувати свій вибір.
РН20. Знати методології комп’ютерного моделювання складних систем
2.Пререквізити та постреквізити дисципліни (місце в структурно-логічній схемі навчання за відповідною освітньою програмою)
Для успішного оволодіння дисципліною необхідні знання:
основ математичного аналізу, теорії функцій та математичної статистики;
основ функціонування операційних систем;
основ програмування мовою Python.
Відповідно до освітньої програми необхідно попередньо оволодіти знаннями з дисциплін: “Програмування мовою Python”, “Об’єктно-орієнтоване програмування”, “Системне програмування”, “Структури даних та алгоритми”, “Інженерія програмного забезпечення”, “Алгоритми та методи обчислень”,“ Дискретна математика”.
Компетентності, знання та вміння, отримані в рамках вивчення даної дисципліни, можуть бути застосовані для отримання обґрунтованих результатів досліджень та підвищення наукового рівня дисертаційних робіт.
3.Зміст навчальної дисципліни
Розділ 1. Вступ
Тема 1.1. Загальне поняття про аналіз даних та сфери застосування задач прикладного аналізу.
Тема 1.2. Порівняння методів машинного навчання та аналізу даних
Тема 1.3. Класифікація задач машинного навчання. Дедуктивний та індуктивний способи навчання.
Тема 1.4. Навчання з учителем та навчання без учителя. Навчання з підкріпленням.
Тема 1.5. Активне та пасивне навчання. Зв’язок з іншими областями науки.
Розділ 2. Загальне поняття про прикладні задачі аналізу даних
Тема 2.1. Задачі класифікації. Задача оцінювання позичальників.
Тема 2.2. Задачі регресійної оцінки. Задача прогнозування споживчого попиту.
Тема 2.3. Задачі кластеризації. Задача рубрикації текстів.
Тема 2.4. Задача виділення термінів. Задача соціологічного опитування. Задачі пошуку асоціацій.
Розділ 3. Постановка задачі аналізу даних
Тема 3.1. Основні визначення. Об'єкти та ознаки.
Тема 3.2. Типи задач аналізу даних. Поняття про модель алгоритму аналізу.
Тема 3.3. Означення методу навчання. Означення та способи формування функції втрат.
Тема 3.4. Функціонал якості. Мінімізація емпіричного ризику.
Тема 3.5. Асимптотичний приклад мінімізації емпіричного ризику.
Тема 3.6. Емпіричні оцінки спроможності методу аналізу: Hold-out волідація.
Тема 3.7. Cross-волідація. Leave-one-out cross-волідація.
Розділ 4. Метричні методи класифікації
Тема 4.1. Гіпотеза компактності. Формалізація поняття відстані.
Тема 4.2. Постановка задачі для метричних методів класифікації.
Тема 4.3. Принципи перенумерації вибірки.
Тема 4.4. Метричний алгоритм класифікації.
Тема 4.5. Метод найближчих сусідів.
Тема 4.6. Метод найближчих сусідів ( k nearest neighbors, kNN).
Тема 4.7. Проблема вибору оптимального . Алгоритм зважених найближчих сусідів.
Розділ 5. Лінійні методи класифікації
Тема 5.1. Постановка задачі для лінійних методів класифікації.
Тема 5.2. Класична модель нейрона МакКаллока і Піттса та опис її роботи.
Тема 5.3. Види типових функцій активації нейрона.
Тема 5.4. Апроксимація та регуляризація емпіричного ризику у персептронах.
Тема 5.5. Лінійна модель класифікації. Метод градієнтного спуску.
Тема 5.6. Метод стохастичного середнього градієнта. Правило Хебба.
Тема 5.7. Персептрон Розенблатта. Теорема Новикова про кількість кроків для розділення вибірки.
Тема 5.8. Евристики для поліпшення градієнтних методів навчання. Квадратична регуляризація.
Розділ 6. Метод опорних векторів
Тема 6.1. Основні властивості методу опорних векторів.
Тема 6.2. Вибірка з лінійною роздільністю: оптимальна розділяюча гіперплощина, нормування, ширина роздільчої смуги.
Тема 6.3. Лінійно не роздільна вибірка: регуляризація емпіричного ризику, двоїста задача.
Тема 6.4. Ядра і спрямляючі простори: конструктивні способи побудови ядер.
Тема 6.5. Двошарова нейронна мережа для реалізації методу опорних векторів.
Тема 6.6. Переваги та недоліки методу опорних векторів.
Розділ 7. Байєсівська теорія класифікації. Основні положення. Імовірнісна постановка задачі. Непараметрична класифікація
Тема 7.1. Основні положення теорії імовірностей.
Тема 7.2. Функція розподілу імовірностей дискретної випадкової величини та її властивості.
Тема 7.3. Неперервні випадкові величини, умовна імовірність.
Тема 7.4. Повна імовірність, формула Байєса.
Тема 7.5. Імовірнісна постановка задачі класифікації.
Тема 7.6. Функціонал середнього ризику. Аргументи максимізації та мінімізації.
Тема 7.7. Оптимальний класифікатор Байєса. «Наївний» байєсівський класифікатор.
Тема 7.8. Непараметрична класифікація: одновимірний неперервний випадок, багатовимірний неперервний випадок.
Тема 7.9. Метод парзенівського вікна.
Розділ 8. Байєсівська теорія класифікації. Нормальний дискримінантний аналіз. Розділення суміші розподілів.
Тема 8.1. Багатовимірний нормальний розподіл.
Тема 8.2. Квадратичний дискримінант.
Тема 8.3. Лінійний дискримінант Фішера.
Тема 8.4. ЕМ-алгоритм
Тема 8.5. Суміші багатовимірних нормальних розподілів.
Розділ 9. Логічні алгоритми класифікації
Тема 9.1. Постановка задачі для логічних методів класифікації.
Тема 9.2. Статистичне визначення інформативності.
Тема 9.3. Ентропійне визначення інформативності.
Тема 9.4. Багатокласова інформативність. Зважена інформативність.
Тема 9.5. Методи пошуку інформативних закономірностей: бінаризація кількісних ознак.
Тема 9.6. «Жадібний» алгоритм злиття зон, пошук закономірностей у формі кон’юнкцій, «градієнтний» алгоритм синтезу кон’юнкції.
Тема 9.7. «Жадібний» алгоритм синтезу кон’юнкції, стохастичний локальний пошук.
Тема 9.8. Емерджентний алгоритм синтезу кон’юнкцій, форми закономірностей.
Розділ 10. Списки та дерева ухвалення рішень
Тема 10.1. «Жадібний» алгоритм побудови списку ухвалення рішень, приклади списків ухвалення рішень.
Тема 10.2. Дерева ухвалення рішень: синтез дерев ухвалення рішень, алгоритм побудови дерева ухвалення рішень ID3.
Тема 10.3. Обробка пропусків, оцінювання ймовірностей.
Тема 10.4. Трудомісткість алгоритму ID3, переваги і недоліки алгоритму ID3.
Тема 10.5. Редукція дерев ухвалення рішень.
Тема 10.6. Перетворення дерева рішень у список рішень. Заглядання вперед.
Розділ 11. Зважене голосування правил
Тема 11.1. Принципи голосування: алгоритм простого голосування.
Тема 11.2. Алгоритм зваженого голосування, налаштування ваг.
Тема 11.3. Диверсифікація правил, відмови від класифікації.
Тема 11.4. Алгоритм КОРА: принципи побудови алгоритму КОРА, його переваги та недоліки.
Тема 11.5. Алгоритм ТЕМП: принципи роботи алгоритму, переваги та недоліки алгоритму ТЕМП.
Тема 11.6. Алгоритм бустинга: експонентна апроксимація граничної функції втрат.
Тема 11.6. Принципи роботи алгоритму бустинга, переваги та недоліки алгоритму бустинга.
Розділ 12. Штучні нейронні мережі
Тема 12.1. Проблема повноти та задача «XOR». Обчислювальні можливості нейронних мереж.
Тема 12.2. Багатошарові нейронні мережі та метод зворотного поширення помилки.
Тема 12.3. Переваги та недоліки методу зворотного поширення помилки.
Тема 12.4. Евристики для покращення збіжності: вибір початкового наближення.
Тема 12.5. Вибір градієнтного методу оптимізації.
Тема 12.6. Оптимізація структури нейронної мережі: вибір кількості шарів, вибір кількості нейронів у прихованому шарі.
Тема 12.7. Динамічне додавання нейронів, видалення надлишкових зв’язків.
Розділ 13. Кластеризація. Алгоритми кластеризації
Тема 13.1. Цілі кластеризації. Типи кластерних структур.
Тема 13.2. Евристичні графові алгоритми: алгоритм виділення зв'язних компонентів.
Тема 13.3. Алгоритм найкоротшого незамкнутого шляху, алгоритм FOREL.
Тема 13.4. Функціонали якості кластеризації.
Тема 13.5. Статистичні алгоритми: гіпотеза про простір об'єктів і форму кластерів.
Тема 13.6. Метод -середніх, кластеризація з частковим навчанням.
Тема 13.7. Ієрархічна кластеризація: властивість монотонності, теорема Міллігана.
Тема 13.8. Властивості розтягування і стискання, властивість редуктивності, теорема Діде і Моро.
Тема 13.9. Визначення числа кластерів, переваги і недоліки кластеризації.
Розділ 14. Мережі Кохонена
Тема 14.1. Моделі конкурентного навчання: правило жорсткої конкуренції WTA.
Тема 14.2. Правило справедливої конкуренції CWTA, правило м'якої конкуренції WTM.
Тема 14.3. Карти Кохонена, що самоорганізуються, мистецтво інтерпретації карт Кохонена.
Тема 14.4. Недоліки карт Кохонена.
Тема 14.5. Гібридні мережі зустрічного поширення: кусочно-постійна апроксимація, гладка апроксимація.
Тема 14.6. Багатовимірне шкалування: розміщення одного об'єкта методом Ньютона-Рафсона.
Тема 14.7. Субквадратичний алгоритм багатовимірного шкалування, карта подібності, діаграма Шепарда.
Розділ 15. Методи відновлення регресії (оцінки регресії)
Тема 15.1. Метод найменших квадратів.
Тема 15.2. Непараметрична регресія: ядерне згладжування, формула Надарая-Ватсона.
Тема 15.3. Вибір ядра й ширини вікна, проблема викидів (робастна непараметрична регресія)
Тема 15.4. Алгоритм LOWESS (локально зважене згладжування), проблема крайових ефектів.
Тема 15.5. Лінійна регресія: сингулярне розкладання, проблема мультиколінеарності, гребенева регресія.
Тема 15.6. Нелінійні методи відновлення регресії: нелінійна модель регресії, нелінійні одновимірні перетворення ознак.
4.Навчальні матеріали та ресурси
4.1. Базова література
1. Новотарський М.А. Прикладні методи аналізу даних / навчальний посібник для аспірантів //
https://drive.google.com/file/d/1tVBXvQXXxWP0LBekmLvZS7BilnFfa81x/view?usp=drive_link
2. Новотарський М.А. Методичні матеріали до лабораторних робіт з дисципліни «Прикладні методи аналізу даних» / для PHD студентів //
https://drive.google.com/file/d/1jjTjBB0XEpKUeEB1tWRQfV16Qa86vM4u/view?usp=drive_link
3 Новотарський М. А., Нестеренко Б. Б. Штучні нейронні мережі: обчислення. К: Ін-т математики НАН України, 2004. – 408 с.
4. Завантаження та інсталяція Weka: https://www.cs.waikato.ac.nz/ml/weka/downloading.html
5. Pentaho Data Mining Community Documentation:
http://wiki.pentaho.com/display/DATAMINING/Pentaho+Data+Mining+Community+Documentation
4.2. Додаткова література
1. Підручник з алгоритмічної мови Python // https://docs.python.org/uk/3/tutorial/index.html
2. Підручник з Anaconda // https://www.ikkaro.com/uk/anaconda/
3. PyCharm // https://ubunlog.com/uk/pycharm-ide-python-ppa/
4. Машинне навчання // https://www.it.ua/knowledge-base/technology-innovation/machine-learning
5. TensorFlow tutorials // https://www.tensorflow.org/tutorials
4.3.Інформаційні ресурси
1. Прикладні методи аналізу даних / дистанційний курс для студентів Phd //
https://classroom.google.com/c/NDEzMDE0NTY2MzQ4?cjc=ijijq23
Навчальний контент
5.Методика опанування навчальної дисципліни (освітнього компоненту)
Розподіл навчального часу за видами занять і завдань з дисципліни згідно з робочим навчальним планом. На кредитний модуль виділено 120 годин та 4 кредитів – 18 лекцій (36 годин), 7 лабораторних робіт (18 годин)
Для досягнення мети навчальної дисципліни слід зосередитись в лекційному матеріалі на розгляді теоретичних основ статистичних методів машинного навчання. Такий розгляд має відбуватися починаючи з визначення базових понять, що застосовуються у рамках дисципліни «Прикладні методи аналізу даних». Подальший розгляд відбувається у послідовності від простих методів до складніших методів. Першими розглядаються метричні та лінійні методи класифікації. Курс лекцій завершується розглядом типових задач машинного навчання
Таблиця 1.
Таблиця розподілу навантаження
Назви розділів, тем | Кількість годин | ||
---|---|---|---|
Всього | У тому числі | ||
Лекції | СРС | ||
Розділ 1. Вступ Тема 1.1. Загальне поняття про аналіз даних та сфери застосування задач прикладного аналізу. Тема 1.2. Порівняння методів машинного навчання та аналізу даних Тема 1.3. Класифікація задач машинного навчання. Дедуктивний та індуктивний способи навчання. Тема 1.4. Навчання з учителем та навчання без учителя. Навчання з підкріпленням. Тема 1.5. Активне та пасивне навчання. Зв’язок з іншими областями науки. |
9 | 2 | 7 |
Розділ 2. Загальне поняття про прикладні задачі аналізу даних Тема 2.1. Задачі класифікації. Задача оцінювання позичальників. Тема 2.2. Задачі регресійної оцінки. Задача прогнозування споживчого попиту. Тема 2.3. Задачі кластеризації. Задача рубрикації текстів. Тема 2.4. Задача виділення термінів. Задача соціологічного опитування. Задачі пошуку асоціацій. |
7 | 1 | 6 |
Розділ 3. Постановка задачі аналізу даних Тема 3.1. Основні визначення. Об'єкти та ознаки. Тема 3.2. Типи задач аналізу даних. Поняття про модель алгоритму аналізу. Тема 3.3. Означення методу навчання. Означення та способи формування функції втрат. Тема 3.4. Функціонал якості. Мінімізація емпіричного ризику. Тема 3.5. Асимптотичний приклад мінімізації емпіричного ризику. Тема 3.6. Емпіричні оцінки спроможності методу аналізу: Hold-out волідація. Тема 3.7. Cross-волідація. Leave-one-out cross-волідація. |
7 | 1 | 6 |
Розділ 4. Метричні методи класифікації Тема 4.1. Гіпотеза компактності. Формалізація поняття відстані. Тема 4.2. Постановка задачі для метричних методів класифікації. Тема 4.3. Принципи перенумерації вибірки. Тема 4.4. Метричний алгоритм класифікації. Тема 4.5. Метод найближчих сусідів. Тема 4.6. Метод найближчих сусідів ( k nearest neighbors, kNN). Тема 4.7. Проблема вибору оптимального . Алгоритм зважених найближчих сусідів. |
7 | 1 | 6 |
Розділ 5. Лінійні методи класифікації Тема 5.1. Постановка задачі для лінійних методів класифікації. Тема 5.2. Класична модель нейрона МакКаллока і Піттса та опис її роботи. Тема 5.3. Види типових функцій активації нейрона. Тема 5.4. Апроксимація та регуляризація емпіричного ризику у персептронах. Тема 5.5. Лінійна модель класифікації. Метод градієнтного спуску. Тема 5.6. Метод стохастичного середнього градієнта. Правило Хебба. Тема 5.7. Персептрон Розенблатта. Теорема Новикова про кількість кроків для розділення вибірки. Тема 5.8. Евристики для поліпшення градієнтних методів навчання. Квадратична регуляризація. |
7 | 1 | 6 |
Розділ 6. Метод опорних векторів Тема 6.1. Основні властивості методу опорних векторів. Тема 6.2. Вибірка з лінійною роздільністю: оптимальна розділяюча гіперплощина, нормування, ширина роздільчої смуги. Тема 6.3. Лінійно не роздільна вибірка: регуляризація емпіричного ризику, двоїста задача. Тема 6.4. Ядра і спрямляючі простори: конструктивні способи побудови ядер. Тема 6.5. Двошарова нейронна мережа для реалізації методу опорних векторів. Тема 6.6. Переваги та недоліки методу опорних векторів. |
7 | 1 | 6 |
Розділ 7. Байєсівська теорія класифікації. Основні положення. Імовірнісна постановка задачі. Непараметрична класифікація Тема 7.1. Основні положення теорії імовірностей. Тема 7.2. Функція розподілу імовірностей дискретної випадкової величини та її властивості. Тема 7.3. Неперервні випадкові величини, умовна імовірність. Тема 7.4. Повна імовірність, формула Байєса. Тема 7.5. Імовірнісна постановка задачі класифікації. Тема 7.6. Функціонал середнього ризику. Аргументи максимізації та мінімізації. Тема 7.7. Оптимальний класифікатор Байєса. «Наївний» байєсівський класифікатор. Тема 7.8. Непараметрична класифікація: одновимірний неперервний випадок, багатовимірний неперервний випадок. Тема 7.9. Метод парзенівського вікна. |
7 | 1 | 6 |
Розділ 8. Байєсівська теорія класифікації. Нормальний дискримінантний аналіз. Розділення суміші розподілів. Тема 8.1. Багатовимірний нормальний розподіл. Тема 8.2. Квадратичний дискримінант. Тема 8.3. Лінійний дискримінант Фішера. Тема 8.4. ЕМ-алгоритм Тема 8.5. Суміші багатовимірних нормальних розподілів. |
7 | 1 | 6 |
Розділ 9. Логічні алгоритми класифікації Тема 9.1. Постановка задачі для логічних методів класифікації. Тема 9.2. Статистичне визначення інформативності. Тема 9.3. Ентропійне визначення інформативності. Тема 9.4. Багатокласова інформативність. Зважена інформативність. Тема 9.5. Методи пошуку інформативних закономірностей: бінаризація кількісних ознак. Тема 9.6. «Жадібний» алгоритм злиття зон, пошук закономірностей у формі кон’юнкцій, «градієнтний» алгоритм синтезу кон’юнкції. Тема 9.7. «Жадібний» алгоритм синтезу кон’юнкції, стохастичний локальний пошук. Тема 9.8. Емерджентний алгоритм синтезу кон’юнкцій, форми закономірностей. |
7 | 1 | 6 |
Розділ 10. Списки та дерева ухвалення рішень Тема 10.1. «Жадібний» алгоритм побудови списку ухвалення рішень, приклади списків ухвалення рішень. Тема 10.2. Дерева ухвалення рішень: синтез дерев ухвалення рішень, алгоритм побудови дерева ухвалення рішень ID3. Тема 10.3. Обробка пропусків, оцінювання ймовірностей. Тема 10.4. Трудомісткість алгоритму ID3, переваги і недоліки алгоритму ID3. Тема 10.5. Редукція дерев ухвалення рішень. Тема 10.6. Перетворення дерева рішень у список рішень. Заглядання вперед. |
6 | 1 | 5 |
Розділ 11. Зважене голосування правил Тема 11.1. Принципи голосування: алгоритм простого голосування. Тема 11.2. Алгоритм зваженого голосування, налаштування ваг. Тема 11.3. Диверсифікація правил, відмови від класифікації. Тема 11.4. Алгоритм КОРА: принципи побудови алгоритму КОРА, його переваги та недоліки. Тема 11.5. Алгоритм ТЕМП: принципи роботи алгоритму, переваги та недоліки алгоритму ТЕМП. Тема 11.6. Алгоритм бустинга: експонентна апроксимація граничної функції втрат. Тема 11.6. Принципи роботи алгоритму бустинга, переваги та недоліки алгоритму бустинга. |
6 | 1 | 5 |
Розділ 12. Штучні нейронні мережі Тема 12.1. Проблема повноти та задача «XOR». Обчислювальні можливості нейронних мереж. Тема 12.2. Багатошарові нейронні мережі та метод зворотного поширення помилки. Тема 12.3. Переваги та недоліки методу зворотного поширення помилки. |
6 | 1 | 5 |
Розділ 13. Кластеризація. Алгоритми кластеризації Тема 13.1. Цілі кластеризації. Типи кластерних структур. Тема 13.2. Евристичні графові алгоритми: алгоритм виділення зв'язних компонентів. Тема 13.3. Алгоритм найкоротшого незамкнутого шляху, алгоритм FOREL. Тема 13.4. Функціонали якості кластеризації. Тема 13.5. Статистичні алгоритми: гіпотеза про простір об'єктів і форму кластерів. Тема 13.6. Метод -середніх, кластеризація з частковим навчанням. Тема 13.7. Ієрархічна кластеризація: властивість монотонності, теорема Міллігана. Тема 13.8. Властивості розтягування і стискання, властивість редуктивності, теорема Діде і Моро. Тема 13.9. Визначення числа кластерів, переваги і недоліки кластеризації. |
6 | 1 | 5 |
Розділ 14. Мережі Кохонена Тема 14.1. Моделі конкурентного навчання: правило жорсткої конкуренції WTA. Тема 14.2. Правило справедливої конкуренції CWTA, правило м'якої конкуренції WTM. Тема 14.3. Карти Кохонена, що самоорганізуються, мистецтво інтерпретації карт Кохонена. Тема 14.4. Недоліки карт Кохонена. Тема 14.5. Гібридні мережі зустрічного поширення: кусочно-постійна апроксимація, гладка апроксимація. Тема 14.6. Багатовимірне шкалування: розміщення одного об'єкта методом Ньютона-Рафсона. Тема 14.7. Субквадратичний алгоритм багатовимірного шкалування, карта подібності, діаграма Шепарда. |
8 | 1 | 7 |
Розділ 15. Методи відновлення регресії (оцінки регресії) Тема 15.1. Метод найменших квадратів. Тема 15.2. Непараметрична регресія: ядерне згладжування, формула Надарая-Ватсона. Тема 15.3. Вибір ядра й ширини вікна, проблема викидів (робастна непараметрична регресія) Тема 15.4. Алгоритм LOWESS (локально зважене згладжування), проблема крайових ефектів. Тема 15.5. Лінійна регресія: сингулярне розкладання, проблема мультиколінеарності, гребенева регресія. Тема 15.6. Нелінійні методи відновлення регресії: нелінійна модель регресії, нелінійні одновимірні перетворення ознак |
8 | 1 | 7 |
Залік | 7 | 2 | 5 |
Лабораторні роботи | 38 | 18 | 20 |
Всього в семестрі: | 150 | 36 | 114 |
Форма виконання лабораторних робіт
Метою проведення циклу лабораторних робіт є набуття студентами необхідних практичних навичок використання методів та способів представлення та опрацювання даних для отримання результатів, що відповідають меті лабораторної роботи.
Звіт до кожної лабораторної роботи складається з такого комплекту матеріалів:
1.Протокол у форматі *.docx або *.pdf файлу, який містить такі обов’язкові пункти:
Тема лабораторної роботи
Мета лабораторної роботи
Теоретичні відомості
Опис процесу виконання роботи
Отримані результати
Висновок
2.Код у форматі *.ipynb файлу.
3. Файл використаного датасету або посилання на використаний датасет.
Теми занять з лабораторних робіт
1. Вступне заняття. Вирішення організаційних питань. Інструкції щодо оволодіння програмним забезпеченням, необхідним для виконання лабораторних робіт
2.Лабораторна робота 1. Попередня обробка даних.
3.Лабораторна робота 2. Кластеризація за методом k-середніх.
4.Лабораторна робота 3. Кластеризація (DBSCAN, OPTICS).
5.Лабораторна робота 4. Класифікація (Байєсівські методи, дерева).
6.Лабораторна робота 5. Класифікація (лінійний дискримінантний аналіз, метод опорних векторів)
7.Лабораторна робота 6. Бібліотека TensorFlow для навчання глибоких нейронних мереж.
8.Лабораторна робота 7. Основи застосування повнозв’язних мереж для задач регресії.
9. Завершальне заняття. Підведення підсумків та прийом заборгованостей.
Таблиця 2
Розподіл годин і балів з лабораторних робіт
№ п/п | Вид роботи | Кількість балів | Аудиторні години |
СРС (години) |
---|---|---|---|---|
Вступне заняття | 0 | 2 | 2 | |
1 | Лабораторна робота №1 | 10 | 2 | 2 |
2 | Лабораторна робота №2 | 10 | 2 | 2 |
3 | Лабораторна робота №3 | 10 | 2 | 2 |
4 | Лабораторна робота №4 | 10 | 2 | 2 |
5 | Лабораторна робота №5 | 10 | 2 | 2 |
6 | Лабораторна робота №6 | 10 | 2 | 3 |
7 | Лабораторна робота №7 | 10 | 2 | 3 |
Завершальне заняття | 0 | 2 | 2 | |
8 | Всього по лабораторних роботах | 70 | 18 | 20 |
6.Самостійна робота здобувача вищої освіти денної форми навчання
Види самостійної роботи (114 годин):
1.Підготовка до аудиторних занять та самостійне вивчення матеріалу за таблицею 1.
2.Підготовка та оброблення проведення розрахунків за первинними даними, отриманими на лабораторних заняттях, виконання лабораторних робіт за таблицею 2.
3. Підготовка до заліку (5 години).
7.Методика викладання дисципліни на заочній формі навчання
Викладання дисципліни для заочної форми навчання відбувається у обсязі, що співпадає з викладанням для денної форми навчання. Лекції начитуються у оглядовій формі. Обсяг начитаних лекцій регулюється поточним розкладом для даної дисципліни.
Лабораторні роботи для заочної форми навчання ідентичні тим, що видаються студентам заочної форми навчання. Система оцінювання результатів навчання співпадає з системою оцінювання для денної форми навчання
Політика та контроль
8.Політика навчальної дисципліни (освітнього компонента)
Для виконання лабораторних робіт та модульних контрольних робіт встановлюються дедлайни.
Виконання лабораторних робіт поза встановлених термінів супроводжуються штрафними балами, які вираховуються із оцінки за протокол.
Штрафні бали виставляються за: невчасну здачу лабораторної роботи. Кількість штрафних балів не більше 10. Штрафні бали та жорсткі дедлайни не запроваджуються у період військового стану.
Заохочувальні бали виставляються тільки у випадку додаткового оголошення викладача на протязі семестру за активну участь на лекціях; виконання поточних домашніх завдань, виконання бонусної лабораторної роботи, отримання сертифікату Coursera за темою, яка попередньо узгоджена з викладачем тощо. Кількість заохочуваних балів не більше 10.
Виконанню кожної лабораторної роботи передує виконання індивідуального завдання і оформлення його у вигляді комплекту матеріалів. Комплект матеріалів до лабораторної роботи, яку студент планує захистити індивідуально на занятті, має бути попередньо завантажений у відповідно сформоване для нього завдання у рамках дистанційного курсу.
Студент, який прийшов на заняття без попередньо завантаженого комплекту матеріалів до захисту лабораторної роботи не допускається. Першим етапом студент захищає результати отримані під час виконання індивідуального завдання до лабораторної роботи шляхом демонстрації роботи коду та відповідей на поточні запитання викладача. На другому етапі – захищає теорію шляхом усного опитування або тестування.
Бали отримані за захист всіх етапів лабораторної роботи входять в оцінку за лабораторну роботу. Студент, який не захистив практичну частину завдання, до захисту теоретичної складової не допускається.
Семестровий тест виконується на передостанньому занятті з даного курсу у вигляді відповіді на запитання з використанням інструментів Google.
Семестровий тест не переписується за умови негативної оцінки. Негативна оцінка (менше ніж 9 балів (<60%)) прирівнюється до 0 балів, в цьому випадку семестровий тест не зараховується.
Оцінки, які студент може отримати за виконання кожної лабораторної роботи наведені в таблиці 2. Максимальна оцінка за семестровий тест наведена у таблиці 4. Таким чином мінімальна оцінка, яку повинен отримати студент для допуску до семестрового контролю дорівнює 60 балів, максимальна – 100 балів за виконання всіх поточних робіт за семестр.
Під час занять з навчальної дисципліни «Прикладні методи аналізу даних» аспіранти повинні дотримуватись певних дисциплінарних правил:
забороняється запізнюватись на заняття;
не допускаються сторонні розмови або інший шум, що заважає проведенню занять.
Лабораторні роботи здаються особисто з перевіркою теоретичних знань, які необхідні для виконання лабораторної роботи. Перевірка практичних результатів включає перевірку коду та виконання тестових завдань.
При проведені контрольних заходів та при виконанні лабораторних робіт студенти повинні дотримуватися правил академічної доброчесності. При виявленні значного відсотку списування або плагіату викладач може відмовити у прийнятті даної роботи та вимагати доброчесного виконання навчального плану.
9.Види контролю та рейтингова система оцінювання результатів навчання (РСО)
Види контролю з навчальної дисципліни «Прикладні методи аналізу даних» включають:
- Поточний контроль:
персональний захист теоретичної частини лабораторних робіт,
персональний захист практичної частини лабораторних робіт з демонстрацією роботи коду.
Календарний контроль: : провадиться двічі на семестр як моніторинг поточного стану виконання вимог силабусу.
Семестровий контроль: семестровий тест, залік
Умови допуску до заліку:
Виконані всі лабораторні роботи.
Здано семестровий тест
Загальний рейтинг за семестр більший за 35 балів
.
Таблиця 3
Таблиця відповідності рейтингових балів оцінкам за університетською шкалою:
Кількість балів | Оцінка |
100-95 | Відмінно |
94-85 | Дуже добре |
84-75 | Добре |
74-65 | Задовільно |
64-60 | Достатньо |
Менше 60 | Незадовільно |
Не виконані умови допуску (<=35) | Не допущено |
Таблиця 4
Оцінювання видів робіт
№ п/п | Вид роботи | Кількість балів |
---|---|---|
1 | Лабораторні роботи | 70 |
Семестровий тест | 30 | |
8 | Всього за семестр | 100 |
Здобувачі, які виконали всі умови допуску до заліку допускаються до складання заліку на останньому занятті.
Здобувачі, які мають семестровий рейтинг більше за 60 балів можуть отримати залік автоматично без додаткової співбесіди з викладачем.
Здобувачі, які не набрали 60 балів та здобувачі, які бажають підвищити свій семестровий рейтинг повинні пройти додаткове випробування.
Додаткове випробування може призначити викладач у вигляді додаткової співбесіди, додаткового тесту, додаткового завдання.
10.Додаткова інформація з дисципліни (освітнього компонента)
Викладання дисципліни «Прикладні методи аналізу даних» має свою специфіку, яка пов’язана з тим, що сфера застосування методів машинного аналізу даних постійно розширюється. Повсюдна інформатизація приводить до накопичення величезних обсягів даних у наукових дослідженнях, виробництві, на транспорті, в охороні здоров’я. Задачі прогнозування, управління та прийняття рішень часто потребують машинного аналізу даних та машинного навчання, оскільки раніше такі задачі або не ставились взагалі, або вирішувались точними методами, які вимагали великих обчислювальних потужностей через складність відповідних алгоритмів.
На семестровий контроль виносяться всі теми, які перераховані у пункті 3 силабусу до даної дисципліни.
Зарахування сертифікатів про проходження курсів допускається після персонального узгодження теми курсу з викладачем для тих студентів, які не набрали 60 балів за семестр. Максимальна оцінка у випадку отримання заліку за сертифікатом складає 60 балів.
Складено: д.т.н, професор, Новотарський Михайло Анатолійович
Ухвалено кафедрою ОТ (протокол № 15 від 29.05.24)
Погоджено Методичною комісією ФІОТ (протокол № 10 від 21.06.24)