Языковые модели
(nlp_uppsala_master, https://t.me/NLP_Uppsala)Онлайн-курсы (видео)
Стэнфордский курс по NLP:
https://www.youtube.com/watch?v=O7k8M8FwGLg&list=PLoROMvodv4rOFZnDyrlW3-nI7tMLtmiJZ&index=12
Слайды о языковых моделях: https://web.stanford.edu/~jurafsky/slp3/slides/LM_4.pdf, см. также упражнения в соответствующей главе книги (https://web.stanford.edu/~jurafsky/slp3/3.pdf) и здесь: http://web.stanford.edu/class/cs124/lec/lmsection18.html. Все слайды к курсу лежат здесь: https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html
Слайды к курсу, соответствующему темам из книги Foundations of Statistical Language Processing Маннинга и Шютце:
https://nlp.stanford.edu/fsnlp/fsnlp-land-slides.pdf (про языковые модели см. со слайда 102), см. также companion website книги: https://nlp.stanford.edu/fsnlp/statest/
Курс Мичиганского университета по NLP (тоже когда-то предлагавшийся на Coursera), лекции 37-40:
https://www.youtube.com/watch?v=0NJLn9DKT3U&list=PLLssT5z_DsK8BdawOVCCaTCO99Ya58ryR&index=38&t=0s
Курс Павла Браславского по NLP на русском (Stepik), часть 3 (Языковые модели): https://stepik.org/lesson/42532
Курс по NLP на английском от ВШЭ, week 2:
https://www.coursera.org/learn/language-processing
Несколько видео курса Марко Кульмана по Language Technology (Линчёпингский университет):
https://www.youtube.com/watch?v=GIxzFWPnL2o&list=PLRMVKNUGFr6wXUvyTczRlxyeAtpzpzc3q&index=7&t=0s
(слайды и прочее тут: https://www.ida.liu.se/~729A27/lectures.en.shtml)
Также про языковые модели упоминается в курсе МФТИ "Прикладные задачи анализа данных" (Coursera), это неделя 3, блок по анализу текстов
Слайды к лекциям или книгам
Филипп Коэн, слайды к соответствующей главе из классической книги по машинному переводу (Statistical Machine Translation)
http://www.statmt.org/book/slides/07-language-models.pdf
Курс Питтсбургского университета от одного из моих любимых авторов, n-граммы:
http://www.pitt.edu/~naraehan/ling1330/Lecture3.pdf
http://www.pitt.edu/~naraehan/ling1330/Lecture4.pdf
http://www.pitt.edu/~naraehan/ling1330/Lecture5.pdf
Пражский курс по статистическим методам в NLP, лекции 4-5:
https://ufal.mff.cuni.cz/courses/npfl067#lecture_slides
Лекция Language Modeling and Probability (курс Introduction to Computational Linguistics, http://cs.brown.edu/courses/cs146/#intro):
Слайды о языковых моделях:
http://cs.brown.edu/courses/cs146/assets/files/langmod.pdf
(Книга Introduction to Computational Linguistics целиком лежит здесь: http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf)
Курс Эдинбургского университета по NLP (ух ты, слайды из будущего!), лекции 3-5: http://www.inf.ed.ac.uk/teaching/courses/fnlp/lectures/
И ещё один свежий американский курс (Иллинойс), языковые модели и сглаживание:
https://courses.engr.illinois.edu/cs447/fa2018/Slides/Lecture03.pdf
https://courses.engr.illinois.edu/cs447/fa2017/Slides/Lecture04.pdf
Лекция про n-граммы: http://www2.mta.ac.il/~gideon/courses/nlp/slides/chap06_ngrams.pdf
И снова лекция про n-граммы от ещё одного курса по NLP (да, их действительно так много):
du/~kathy/NLP/ClassSlides/Class3-ngrams09/ngrams.pdf
Сглаживание (smoothing)
Подробный стэнфордский тьюториал:
https://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf
Слайды с неплохим обзором методов сглаживания:
http://www.cis.uni-muenchen.de/~fraser/readinggroup/scheible_language_modeling.pdf
Лекция о сглаживании с ещё одного курса по NLP (http://www.cs.jhu.edu/~jason/465/):
http://www.cs.jhu.edu/~jason/465/PDFSlides/lect05-smoothing.pdf
Сглаживание Гуда-Тьюринга:
http://l2r.cs.uiuc.edu/~danr/Teaching/CS546-09/Papers/Gale-Sampson-smoothgoodturing.pdf
Слайды ещё одной неплохой лекции про языковые модели и сглаживание:
https://www.csd.uwo.ca/courses/CS4442b/L9-NLP-LangModels.pdf
Немного практики
Не считая заданий из онлайн-курсов, это, разумеется, упражнения из классических учебников:
- Speech and Language Processing, Daniel Jurafsky & James H. Martin (в новом издании это вроде бы глава 3, но в старых по-другому)
- Foundations of Statistical Natural Language Processing, Manning & Schütze (после главы 6)
- Statistical Machine Translation, Philipp Koehn (после главы 7)
Питтсбургский курс, домашки и упражнения:
http://www.pitt.edu/~naraehan/ling1330/hw3.html
http://www.pitt.edu/~naraehan/ling1330/hw4.html
http://www.pitt.edu/~naraehan/ling1330/ex6.html
Лабы линчёпингского курса:
https://www.ida.liu.se/~729A27/labs.en.shtml
Пражский курс, задание: