CSCB743 Обработка на големи обеми от данни

Анотация:

- Google съхранява около 15 ексабайта (15x10^18 байта); Facebook съхранява около 300 петабайта (300x10^15 байта); CERN съхранява около 100 петабайта (100x10^15 байта). Такива са обемите от данни, които ползват някои от най-технологичните организации днес. Често пъти тези данни се натрупват с големи скорости и в слабоструктуриран вид.

- Извличането на нужната информация и знания от големите обеми от данни (Big Data) съставя голяма част от аналитичната дейност на човечеството и се очаква важността на тази дейност да се увеличава в бъдеще поради факта, че тази област се явява обща за нуждите на големите търговски и промишлени организации, за изследванията на обществените процеси, както и за изследвания в областта на природните науки. Физическите окрития и тяхното технологично внедряване създадоха практическата възможност за съхраняване на достатъчно големи обеми от данни. В момента този обем расте с около 40% всяка година, като той надхвърля 10 зетабайта (10x1021 байта).

- За извличането на нужната информация и превръщането й в знания се използват методите на машинното и статистическото обучение, изкуствения интелект и вископроизводителните изчисления. Развиването на тези методи е гореща тема за изследване, а прилагането им е сред най-търсените качества на софтуерните специалисти на пазара на труда.

- Курсът запознава със следните важни теми : технологията за разпределено съхранение на данни Hadoop, както и системи за бази от слабоструктурирани данни като MongoDB. Сред най-важните технологии за обработка на данни и извличане на знания са разгледани MapReduce и машинното обучение.

- Практическите примерите за приложение на изложените знания се дават върху реални данни от експерименти в областта на физиката на високите енергии.

- Работните програмни езици, с който се обясняват концепциите на курса, са C++, Python и R.

прочети още
Мрежови технологии (на английски език)

Преподавател(и):

доц. Стоян Мишев  д-р

Описание на курса:

Компетенции:

Успешно завършилите курса студенти ще

знаят:

- Най-използваните начини за съхраняване и обработка на големи обеми от данни;

- Основните идеи и как да прилагат схеми на машинно обучение;

- Основните компютърни техногии, използвани за обработката на големи обеми от данни създадени от големия ускорител на ЦЕРН;

могат:

- Да прилагат най-широко използваните методи за извличане на знания

- Да работят с Apache Hadoop, Аpache Spark и Apache Storm;

- Да прилагат програмния модел MapReduce;
Предварителни изисквания:
Условие за започване на курса е студентите да имат добри умения с езика C++ и основни знания по езика Python

Форми на провеждане:
Редовен

Учебни форми:
Лекция

Език, на който се води курса:
Български

Теми, които се разглеждат в курса:

Литература по темите:

- J. Leskovec, A. Rajaraman and J. D. Ullman, Mining of Massive Datasets, 2nd Ed., 2014

- Ch. Bishop, Pattern Recognition and Machine Learning, 2006

- Scikit-Learn Manual

Средства за оценяване:

Крайната оценка се формира от :

- решаване на тест

- практическа задача

- презентация на тема по избор