Answer
t.me/python_tesstОтвет:
[nltk_data] Downloading package punkt to
[nltk_data] C:\Users\AppData\Roaming\nltk_data...
[nltk_data] Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data] C:\Users\AppData\Roaming\nltk_data...
[nltk_data] Package averaged_perceptron_tagger is already up-to-
[nltk_data] date!
[nltk_data] Downloading package universal_tagset to
[nltk_data] C:\Users\AppData\Roaming\nltk_data...
[nltk_data] Package universal_tagset is already up-to-date!
Объяснение:
Здесь мы будем записывать предложения на языке python с помощью пакета библиотеки NLTK для POS-разметки. Как известно, POS-разметка является одним из основных компонентов лингвистического моделирования. Она выполняется в два этапа:
- разделение текста на предложения на основе пунктуации;
- выделение лексем (маркирование): разбиение предложения по границам слов.
Классы слов, или лексические категории слов:
- содержательные слова (открытые классы): существительные, глаголы, прилагательные, наречия;
- функциональные слова (закрытые классы): детерминативы, местоимения, предлоги, союзы, дополнительные элементы.
Разделение слов на части речи (POS) происходит на основе их формальных признаков.
Код:
import nltk
# некоторые дополнительные компоненты для сегментации, токенизации
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
# загрузка универсального набора тегов
nltk.download('universal_tagset')
# импорт класса word_tokenize
from nltk.tokenize import word_tokenize
# применение маркера слова к текстовой строке и нахождение тега POS
nltk.pos_tag(word_tokenize("In the present study, we examine the outcomes of such \
a period of no exposure on the neurocognition of L2 grammar:"), tagset='universal')