CITB555 Извличането на знания от данни

Анотация:

Целта на курса е да въведе студентите в методите и практиката на извличане на знания от данни. Курсът е подходящ за незапознати в областта, защото изгражда теоритичната рамка от фундамента. Изожените в курса теоритични факти се подкрепят от множество примери и упражнения, като последните се демонстрират на дъска, презентазия, Майкософт Ексел или в езика R. Финалната цел е придобиване на добра обща култура в сферата на Извличане на знания (Data mining). Придружена с възможност за гъвкаво боравене с реални данни посредством аналитични разсъждения и софтуер.

прочети още
Информационни технологии

Преподавател(и):

ас. Слав Ангелов  

Описание на курса:

Компетенции:

Успешно завършилите курса студенти:

1) знаят:

Основните методи за обрадотка и организиране на даните, позволяваща извличането на информация от тях. Ще усвоят основните методи за анализ и откриване на зависимости в данните.

2) могат:

Да прилагат основните методи за анализ на данни и извличане на информация от тях използвайки стандартен софтуер.


Предварителни изисквания:
За успешното преминаване на курса студентите следва да имат базови познания от областта на математиката и програмирането.



Форми на провеждане:
Редовен

Учебни форми:
Упражнения

Език, на който се води курса:
Български

Теми, които се разглеждат в курса:

1 Данни:

1.1 Представяне и съхраненеи на данни. Бази от данни и хранилища на данни (data warehouses);

1.2 Манипулации върху данни;

1.3 Типове данни;

1.4 Процесът на извличане на знание.

2. Обработка на данни:

2.1 Нормализация – десетично скалиране, мин-макс метод, нормализация чрез стандартно отклонение;

2.2 Размерност – дефиниции и проблематика;

2.3 Изглаждане на данни;

2.4 Други трансформации – разлики, съотношения, комбиниран метод;

2.5 Попълване на липсващи данни;

2.6 Обработка на данни, зависещи от времето – приготвяне на времеви редове, изглаждане, осредняване;

2.7 Изключителни извадки – видове, начини за установяване, третиране;

3. Редуциране на размерност:

3.1 Начални съображения при редукция на данни. Критерии;

3.2 Редуциране на броя характеристики - схеми и конкретни методи. Relief алгоритъм. Метод на главните компоненти;

3.3 Редукция на извадките. Ситематично избиране на извадки. Случайно избиране. Избор на големина на подмножество от извадки.

4. Бейсова класификация:

4.1 Елемени от теория на вероятностите;

4.2 Класификация – проблематика;

4.3 Наивна бейсова класификация – база и особености;

5. Анализ на времеви редове:

5.1 Особености при анализ на времеви редове;

5.5 Основни модели – AR, MA, ARMA, ARIMA, ARIMAX.

6. Линейна регресия. Многомерна линейна регресия:

6.1 Обикновена линейна регресия. Условия на Гаус-Марков;

6.2 Нормално разпределена грешка;

6.3 Многопроменлива регресия;

6.4 Независимост на моделните променливи (мултиколинеарити проблем). Проблематика и методи за третиране;

6.5 Трансформации на линейната регресия – логаритмични, експоненциални, полиномиални, степенни и др.

6.6 Засичане и третиране на изключителни наблюдения;

6.7 Засичане и третиране на неконстантност в грешката (Хетероскедастисити)

7. Възможни са добавки в конспекта по желание на студенти – тестване на хипотези; монте карло симулации; ANOVA анализ и други.

Литература по темите:

• Boslaugh,S. and Watters,P. STATISTICS IN A NUTSHELL.O`Reilly.2008.

• Димитров, Н. и Янев, Н.. Вероятности и Статистика, София, Университетско издателство „Св. Климент Охридски“, 1998.

• Калинов, К. . Теория на вероятностите и статистика, София, НБУ, 2002.

• Mehmed Kantardzic . Data mining: Concepts, Models, Methods, and Algorithms. Second Edition. Wiley, 2011.

Средства за оценяване:

Оценката от курса ще се формира като средно аритметично от две контролни и домашно. По желание или при неявяване на контролните студента следва да се яви на изпит. При средноаритметична оценка през семестъра под 4, студента трябва да се яви на писмения изпит. Ако студента се яви на изпит, то финалната му оценка е оценката от изпита.