DSCM043 Увод в обработката на естествен език

Анотация:

Курсът запознава слушателите с основните понятия, задачи, методи и техники от обработката на естествен език.

прочети още
Извличане на знания и технологии за големи данни

Преподавател(и):

доц. Иван Держански  д-р

Описание на курса:

Компетенции:

Успешно завършилите курса студенти:

1) разбират:

• същността и спецификата на задачите на обработката на естествен език (ОЕЕ);

• подходите към текстообработката със средствата, вградени в Unix/Linux;

• класическите и съвременните методи за езиково моделиране, класификация на текстове, изискване на информация, разпознаване на части на речта и именувани същини.

2) могат:

• да обясняват и прилагат основните техники от областта на ОЕЕ;

• да разработват, реализират и тестват алгоритми за задачи от ОЕЕ.
Предварителни изисквания:
Следните знания и/или умения се очакват от студентите:

• програмиране на Python;

• (желателно) запознанство с Unix/Linux поне на основно равнище.

Форми на провеждане:
Редовен

Учебни форми:
Лекция

Език, на който се води курса:
Български

Теми, които се разглеждат в курса:

  1. Що е обработка на естествен език?
  2. Естествен език. Многозначност
  3. Езикови корпуси
  4. Елементарна текстообработка 1
  5. Елементарна текстообработка 2
  6. Лингвистична дешифровка. Редакционно разстояние
  7. Езикови модели. Вероятност
  8. Езикови модели. Изглаждане
  9. Класификация на текстове. Бейсов класификатор
  10. Перцептрон. Логистична регресия
  11. Изискване на информация 1
  12. Изискване на информация 2
  13. Векторна семантика
  14. Части на речта и именувани същини
  15. Колокации

Литература по темите:

* Jurafsky, Daniel and James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. draft (https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf)

* Manning, Christopher D. and Hinrich Schütze. Foundations of Statistical Natural Language Processing. 1999.