CSCB743 Обработка на големи обеми от данни
Анотация:
- Google съхранява около 15 ексабайта (15x10^18 байта); Facebook съхранява около 300 петабайта (300x10^15 байта); CERN съхранява около 100 петабайта (100x10^15 байта). Такива са обемите от данни, които ползват някои от най-технологичните организации днес. Често пъти тези данни се натрупват с големи скорости и в слабоструктуриран вид.
- Извличането на нужната информация и знания от големите обеми от данни (Big Data) съставя голяма част от аналитичната дейност на човечеството и се очаква важността на тази дейност да се увеличава в бъдеще поради факта, че тази област се явява обща за нуждите на големите търговски и промишлени организации, за изследванията на обществените процеси, както и за изследвания в областта на природните науки. Физическите окрития и тяхното технологично внедряване създадоха практическата възможност за съхраняване на достатъчно големи обеми от данни. В момента този обем расте с около 40% всяка година, като той надхвърля 10 зетабайта (10x1021 байта).
- За извличането на нужната информация и превръщането й в знания се използват методите на машинното и статистическото обучение, изкуствения интелект и вископроизводителните изчисления. Развиването на тези методи е гореща тема за изследване, а прилагането им е сред най-търсените качества на софтуерните специалисти на пазара на труда.
- Курсът запознава със следните важни теми : технологията за разпределено съхранение на данни Hadoop, както и системи за бази от слабоструктурирани данни като MongoDB. Сред най-важните технологии за обработка на данни и извличане на знания са разгледани MapReduce и машинното обучение.
- Практическите примерите за приложение на изложените знания се дават върху реални данни от експерименти в областта на физиката на високите енергии.
- Работните програмни езици, с който се обясняват концепциите на курса, са C++, Python и R.
Преподавател(и):
доц. Стоян Мишев д-р
Описание на курса:
Компетенции:
Успешно завършилите курса студенти ще
знаят:
- Най-използваните начини за съхраняване и обработка на големи обеми от данни;
- Основните идеи и как да прилагат схеми на машинно обучение;
- Основните компютърни техногии, използвани за обработката на големи обеми от данни създадени от големия ускорител на ЦЕРН;
могат:
- Да прилагат най-широко използваните методи за извличане на знания
- Да работят с Apache Hadoop, Аpache Spark и Apache Storm;
- Да прилагат програмния модел MapReduce;
Предварителни изисквания:
Условие за започване на курса е студентите да имат добри умения с езика C++ и основни знания по езика Python
Форми на провеждане:
Редовен
Учебни форми:
Лекция
Език, на който се води курса:
Български
Теми, които се разглеждат в курса:
Литература по темите:
- J. Leskovec, A. Rajaraman and J. D. Ullman, Mining of Massive Datasets, 2nd Ed., 2014
- Ch. Bishop, Pattern Recognition and Machine Learning, 2006
- Scikit-Learn Manual
Средства за оценяване:
Крайната оценка се формира от :
- решаване на тест
- практическа задача
- презентация на тема по избор