MITM301 Дейта майнинг

Анотация:

Курсът запознава студентите с основните понятия, принципи и методи за обработка на големи структури от данни и извличане на знания (Data Mining). Материалът по курса включва придобиване на знания в няколко различни дисциплини: математическа статистика, бази данни, клъстеризация, класификация, филтрация, оптимизация, невронни мрежи, визуализация на многомерни данни и др. Излагането на теоретичния материал е съпроводено привеждане на примери за решаване на реални проблеми.

прочети още
Софтуерни технологии в Интернет

Преподавател(и):

проф. Кирил Алексиев  д-р

Описание на курса:

Компетенции:

Успешно завършилите курса студенти:

1) знаят:

• теоретичните подходи за решаване на широк кръг проблеми, свързани с обработката на големи структури от данни и наложилите се алгоритми и методи в областта на обработката на данни, клъстеризация, класификация, асоцииране на данни и многокритериална оптимизация, работа с невронни мрежи и др.;

• отделните стъпки на процеса за решаване на реални задачи за извличане на знания от огромни структури данни;

• как да прилагат получените знания в различни бизнес-дейности;

• базовите методи и алгоритми в няколко области на науката, използвани за решаване на задачите по извличане на знания.

2) могат:

• да участват в работата по проекти

• да прилагат теоретичните си познания за развитие на отделни методи и подходи в областта на data mining;

• да прилагат методите и да намират практически решения на задачи от бизнеса, изискващи Data Mining;

• да работят със специализирани софтуерни продукти


Предварителни изисквания:
Студентите да имат знания и/или умения:

Необходими са основни познания по информационни технологии, бази от данни, алгоритми и структури от данни. Полезни са също и основни познания от университетския курс по математика (обща алгебра, компютъра алгебра, дискретна математика, начален анализ).

Форми на провеждане:
Редовен

Учебни форми:
Лекция

Език, на който се води курса:
Български

Теми, които се разглеждат в курса:

  1. Въведение в проблема. Същност на Data Mining. Области на приложение. Data Mining в информационните технологии (големи бази от данни).
  2. Данни. Видове данни. Хранилаща за данни.
  3. Визуализация на многомерни данни и резултати.
  4. Бази данни. Релационни и нерелационни бази данни. Разпределени бази данни.
  5. Статистически методи за описание и обработка на данни.
  6. Филтрация на данни. Калманов филтър
  7. Клъстерен анализ. Основни концепции и методи. Разделящи и йерархични методи за клъстеризация
  8. Клъстерен анализ. Методи за клъстеризация с използване на гъстота и мрежа. Оценяване на качеството на клъстеризацията
  9. Класификация. Основни концепции и техники. Класификация с помощта на дърво на решенията. Бейсов подход.
  10. Класификация. Support Vector Machines. Концепция за нечиста класификация. Недообучение и преобучение.
  11. Невронни мрежи в класификационните задачи.
  12. Методи и модели за търсене на асоциативни връзки и правила.
  13. Генетични алгоритми.
  14. Бъдещи насоки на развитие на методите за извличане на знание.
  15. Примери за използване на различни методи при обработка на хомогенни и хетерогенни данни.

Литература по темите:

1. Daniel T. Larose, Chantal D. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Copyright © 2014 John Wiley & Sons, Inc.

2. Chong Ho, Alex Yu, Data Mining and Exploration From Traditional Statistics to Modern Data Science, CRC Press, 2022.

3. Mehmed Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, Wiley, 2011.

4. Kris Jamsa, Introduction to Data Mining and Analytics with Machine Learning in R and Python, Jones & Bartlett Learning, LLC, 2020.

5. Pang-Ning Tan; Michael Steinbach, Vipin Kumar, Introduction to Data Mining 2nd Edition, 2019.

Средства за оценяване: