Языковые модели

Языковые модели

(nlp_uppsala_master, https://t.me/NLP_Uppsala)

Онлайн-курсы (видео)

Стэнфордский курс по NLP:

https://www.youtube.com/watch?v=O7k8M8FwGLg&list=PLoROMvodv4rOFZnDyrlW3-nI7tMLtmiJZ&index=12

Слайды о языковых моделях: https://web.stanford.edu/~jurafsky/slp3/slides/LM_4.pdf, см. также упражнения в соответствующей главе книги (https://web.stanford.edu/~jurafsky/slp3/3.pdf) и здесь: http://web.stanford.edu/class/cs124/lec/lmsection18.html. Все слайды к курсу лежат здесь: https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

Слайды к курсу, соответствующему темам из книги Foundations of Statistical Language Processing Маннинга и Шютце:

https://nlp.stanford.edu/fsnlp/fsnlp-land-slides.pdf (про языковые модели см. со слайда 102), см. также companion website книги: https://nlp.stanford.edu/fsnlp/statest/

Курс Мичиганского университета по NLP (тоже когда-то предлагавшийся на Coursera), лекции 37-40:

https://www.youtube.com/watch?v=0NJLn9DKT3U&list=PLLssT5z_DsK8BdawOVCCaTCO99Ya58ryR&index=38&t=0s

Курс Павла Браславского по NLP на русском (Stepik), часть 3 (Языковые модели): https://stepik.org/lesson/42532

Курс по NLP на английском от ВШЭ, week 2:

https://www.coursera.org/learn/language-processing

Несколько видео курса Марко Кульмана по Language Technology (Линчёпингский университет):

https://www.youtube.com/watch?v=GIxzFWPnL2o&list=PLRMVKNUGFr6wXUvyTczRlxyeAtpzpzc3q&index=7&t=0s

(слайды и прочее тут: https://www.ida.liu.se/~729A27/lectures.en.shtml)

Также про языковые модели упоминается в курсе МФТИ "Прикладные задачи анализа данных" (Coursera), это неделя 3, блок по анализу текстов

Слайды к лекциям или книгам

Филипп Коэн, слайды к соответствующей главе из классической книги по машинному переводу (Statistical Machine Translation)

http://www.statmt.org/book/slides/07-language-models.pdf

Курс Питтсбургского университета от одного из моих любимых авторов, n-граммы:

http://www.pitt.edu/~naraehan/ling1330/Lecture3.pdf

http://www.pitt.edu/~naraehan/ling1330/Lecture4.pdf

http://www.pitt.edu/~naraehan/ling1330/Lecture5.pdf

Пражский курс по статистическим методам в NLP, лекции 4-5:

https://ufal.mff.cuni.cz/courses/npfl067#lecture_slides

Лекция Language Modeling and Probability (курс Introduction to Computational Linguistics, http://cs.brown.edu/courses/cs146/#intro):

Слайды о языковых моделях:

http://cs.brown.edu/courses/cs146/assets/files/langmod.pdf

(Книга Introduction to Computational Linguistics  целиком лежит здесь: http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf)

Курс Эдинбургского университета по NLP (ух ты, слайды из будущего!), лекции 3-5: http://www.inf.ed.ac.uk/teaching/courses/fnlp/lectures/

И ещё один свежий американский курс (Иллинойс), языковые модели и сглаживание:

https://courses.engr.illinois.edu/cs447/fa2018/Slides/Lecture03.pdf

https://courses.engr.illinois.edu/cs447/fa2017/Slides/Lecture04.pdf

Лекция про n-граммы: http://www2.mta.ac.il/~gideon/courses/nlp/slides/chap06_ngrams.pdf

И снова лекция про n-граммы от ещё одного курса по NLP (да, их действительно так много):

http://www.cs.columbia.e

du/~kathy/NLP/ClassSlides/Class3-ngrams09/ngrams.pdf

Сглаживание (smoothing)

Подробный стэнфордский тьюториал:

https://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf

Слайды с неплохим обзором методов сглаживания:

http://www.cis.uni-muenchen.de/~fraser/readinggroup/scheible_language_modeling.pdf

Лекция о сглаживании с ещё одного курса по NLP (http://www.cs.jhu.edu/~jason/465/):

http://www.cs.jhu.edu/~jason/465/PDFSlides/lect05-smoothing.pdf

Сглаживание Гуда-Тьюринга:

http://l2r.cs.uiuc.edu/~danr/Teaching/CS546-09/Papers/Gale-Sampson-smoothgoodturing.pdf

Слайды ещё одной неплохой лекции про языковые модели и сглаживание:

https://www.csd.uwo.ca/courses/CS4442b/L9-NLP-LangModels.pdf

Немного практики

Не считая заданий из онлайн-курсов, это, разумеется, упражнения из классических учебников:

  • Speech and Language Processing, Daniel Jurafsky & James H. Martin (в новом издании это вроде бы глава 3, но в старых по-другому)
  • Foundations of Statistical Natural Language Processing, Manning & Schütze (после главы 6)
  • Statistical Machine Translation, Philipp Koehn (после главы 7)

Питтсбургский курс, домашки и упражнения:

http://www.pitt.edu/~naraehan/ling1330/hw3.html

http://www.pitt.edu/~naraehan/ling1330/hw4.html

http://www.pitt.edu/~naraehan/ling1330/ex6.html

Лабы линчёпингского курса:

https://www.ida.liu.se/~729A27/labs.en.shtml

Пражский курс, задание:

https://ufal.mff.cuni.cz/courses/npfl067#assignment

Report Page