Типология корпусов текстов

Типология корпусов текстов

Типология корпусов текстов




Скачать файл - Типология корпусов текстов


























Они используются для статистического анализа и проверки статистических гипотез , подтверждения лингвистических правил в данном языке. Корпус может содержать тексты одного языка одноязычные корпусы или нескольких языков многоязычные корпусы. Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами. Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке аннотации. Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими , а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики , распознавания речи и машинного перевода , в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам. Материал из Википедии — свободной энциклопедии. Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу т. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов \\\\\\\\\\\\\\\[1\\\\\\\\\\\\\\\]. Для улучшения этой статьи желательно: Найти и оформить в виде сносок ссылки на независимые авторитетные источники , подтверждающие написанное. Проставив сноски , внести более точные указания на источники. Незавершённые статьи по лингвистике Википедия: Статьи без ссылок на источники Википедия: Статьи без источников тип: Навигация Персональные инструменты Вы не представились системе Обсуждение Вклад Создать учётную запись Войти. Пространства имён Статья Обсуждение. Просмотры Читать Править Править вики-текст История. В других проектах Викисклад. Эта страница последний раз была отредактирована 31 мая в Текст доступен по лицензии Creative Commons Attribution-ShareAlike ; в отдельных случаях могут действовать дополнительные условия. Свяжитесь с нами Политика конфиденциальности Описание Википедии Отказ от ответственности Разработчики Соглашение о cookie Мобильная версия. Вы можете помочь проекту, дополнив её.

Корпус текстов

Они используются для статистического анализа и проверки статистических гипотез , подтверждения лингвистических правил в данном языке. Корпус может содержать тексты одного языка одноязычные корпусы или нескольких языков многоязычные корпусы. Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами. Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке аннотации. Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими , а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики , распознавания речи и машинного перевода , в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам. Материал из Википедии — свободной энциклопедии. Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу т. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов \\\\\\\\\\\\\\\\[1\\\\\\\\\\\\\\\\]. Для улучшения этой статьи желательно: Найти и оформить в виде сносок ссылки на независимые авторитетные источники , подтверждающие написанное. Проставив сноски , внести более точные указания на источники. Незавершённые статьи по лингвистике Википедия: Статьи без ссылок на источники Википедия: Статьи без источников тип: Навигация Персональные инструменты Вы не представились системе Обсуждение Вклад Создать учётную запись Войти. Пространства имён Статья Обсуждение. Просмотры Читать Править Править вики-текст История. В других проектах Викисклад. Эта страница последний раз была отредактирована 31 мая в Текст доступен по лицензии Creative Commons Attribution-ShareAlike ; в отдельных случаях могут действовать дополнительные условия. Свяжитесь с нами Политика конфиденциальности Описание Википедии Отказ от ответственности Разработчики Соглашение о cookie Мобильная версия. Вы можете помочь проекту, дополнив её.

Корпус текстов

Сколько потребуется алюминия

Наследственные заболевания человека таблица

Корпус текстов

Записать образ windows xp на флешку winsetupfromusb

Во сколько раз 9 меньше

Корпус текстов

Шины омского шинного завода каталог

Фк ростов состав команды на 2017 2018

Report Page