MITM301 Дейта майнинг
Анотация:
Курсът запознава студентите с основните понятия, принципи и методи за обработка на големи структури от данни и извличане на знания (Data Mining). Материалът по курса включва придобиване на знания в няколко различни дисциплини: математическа статистика, бази данни, клъстеризация, класификация, филтрация, оптимизация, невронни мрежи, визуализация на многомерни данни и др. Излагането на теоретичния материал е съпроводено привеждане на примери за решаване на реални проблеми.
Преподавател(и):
проф. Кирил Алексиев д-р
Описание на курса:
Компетенции:
Успешно завършилите курса студенти:
1) знаят:
• теоретичните подходи за решаване на широк кръг проблеми, свързани с обработката на големи структури от данни и наложилите се алгоритми и методи в областта на обработката на данни, клъстеризация, класификация, асоцииране на данни и многокритериална оптимизация, работа с невронни мрежи и др.;
• отделните стъпки на процеса за решаване на реални задачи за извличане на знания от огромни структури данни;
• как да прилагат получените знания в различни бизнес-дейности;
• базовите методи и алгоритми в няколко области на науката, използвани за решаване на задачите по извличане на знания.
2) могат:
• да участват в работата по проекти
• да прилагат теоретичните си познания за развитие на отделни методи и подходи в областта на data mining;
• да прилагат методите и да намират практически решения на задачи от бизнеса, изискващи Data Mining;
• да работят със специализирани софтуерни продукти
Предварителни изисквания:
Студентите да имат знания и/или умения:
Необходими са основни познания по информационни технологии, бази от данни, алгоритми и структури от данни. Полезни са също и основни познания от университетския курс по математика (обща алгебра, компютъра алгебра, дискретна математика, начален анализ).
Форми на провеждане:
Редовен
Учебни форми:
Лекция
Език, на който се води курса:
Български
Теми, които се разглеждат в курса:
- Въведение в проблема. Същност на Data Mining. Области на приложение. Data Mining в информационните технологии (големи бази от данни).
- Данни. Видове данни. Хранилаща за данни.
- Визуализация на многомерни данни и резултати.
- Бази данни. Релационни и нерелационни бази данни. Разпределени бази данни.
- Статистически методи за описание и обработка на данни.
- Филтрация на данни. Калманов филтър
- Клъстерен анализ. Основни концепции и методи. Разделящи и йерархични методи за клъстеризация
- Клъстерен анализ. Методи за клъстеризация с използване на гъстота и мрежа. Оценяване на качеството на клъстеризацията
- Класификация. Основни концепции и техники. Класификация с помощта на дърво на решенията. Бейсов подход.
- Класификация. Support Vector Machines. Концепция за нечиста класификация. Недообучение и преобучение.
- Невронни мрежи в класификационните задачи.
- Методи и модели за търсене на асоциативни връзки и правила.
- Генетични алгоритми.
- Бъдещи насоки на развитие на методите за извличане на знание.
- Примери за използване на различни методи при обработка на хомогенни и хетерогенни данни.
Литература по темите:
1. Daniel T. Larose, Chantal D. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Copyright © 2014 John Wiley & Sons, Inc.
2. Chong Ho, Alex Yu, Data Mining and Exploration From Traditional Statistics to Modern Data Science, CRC Press, 2022.
3. Mehmed Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, Wiley, 2011.
4. Kris Jamsa, Introduction to Data Mining and Analytics with Machine Learning in R and Python, Jones & Bartlett Learning, LLC, 2020.
5. Pang-Ning Tan; Michael Steinbach, Vipin Kumar, Introduction to Data Mining 2nd Edition, 2019.
Средства за оценяване: