Применение методов математической статистики и теории вероятностей в задачах теоретической лингвистики при анализе устной и звучащей речи на русском и английском языках - Иностранные языки и языкознание курсовая работа
Главная
Иностранные языки и языкознание
Применение методов математической статистики и теории вероятностей в задачах теоретической лингвистики при анализе устной и звучащей речи на русском и английском языках
Графическое построение дискретных лингвистических вариационных рядов для рассматриваемых стихотворений. Объединённый коэффициент синтаксической и ритмомелодической сложности. Вероятность появления гласных звуков в стихотворениях, особенности их сравнения.
посмотреть текст работы
скачать работу можно здесь
полная информация о работе
весь список подобных работ
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Применение методов математической статистики и теории вероятностей в задачах теоретической лингвистики при анализе устной и звучащей речи на русском и английском языках
2.1 Построение дискретного вариационного ряда
2.3 Графическое построение дискретных лингвистических вариационных рядов для рассматриваемых стихотворений
2.4 Ряды распределения дискретных случайных величин
2.5 Математическое ожидание дискретной случайной величины
2.6 Дисперсия дискретной случайной величины
2.7 Энтропия дискретной случайной величины
2.8 Вероятность появления гласных звуков в стихотворениях, сравнение
3. Объединённый коэффициент синтаксической и ритмомелодической сложности
В эпоху научно-технической революции математизация охватывает все сферы человеческой деятельности, в том числе и языкознание. Проникновение математических методов в лингвистику обусловлено двумя причинами. Во-первых, развитие языковедческой теории и практики требует введения все более точных и объективных методов для анализа языка и текста. Одновременно использование математических приемов при систематизации, измерении и обобщении лингвистического материала в сочетании с качественной интерпретацией результатов позволяет языковедам глубже проникнуть в тайны построения языка и образования текста. Во-вторых, все расширяющиеся контакты языкознания с другими науками, например с акустикой, физиологией высшей нервной деятельности, кибернетикой и вычислительной техникой, могут осуществляться только при использовании математического языка, обладающего высокой степенью общности и универсальности для различных отраслей знаний.
Особенно настойчиво математизируется языкознание в связи с использованием естественного языка в информационных и управленческих системах человек-машина-человек. В действующих системах машинного перевода, автоматического аннотирования, человеко-машинного диалога всякое сообщение на естественном языке перекодируется в математическом языке компьютера. Примером того является голосовое управление в современных мобильных телефонах.
Говоря об особенностях взаимодействия языкознания и математики, следует иметь в виду, что как естественный язык, так и язык математики являются знаковыми (семиотическими) системами передачи информации.
Основные расхождения между этими языками связаны с различным построением языкового знака и знака математического.
лингвистический знак (слово, словосочетание, предложение) обычно включает в себя четыре компонента - имя (материальный носитель информации), денотат (отражение предмета из внешнего мира), десигнат (понятие о предмете) и коннотат (комплекс чувственно-оценочных оттенков, связанных с предметом и понятием о нем); знак математического языка включает только имя и десигнат - математическое понятие;
лингвистический знак многозначен - значения его представляют собой нечеткие множества с размытыми границами; математический знак имеет, как правило, одно концептуальное значение;
лингвистический знак потенциально метафоричен, у знака математического метафоричность полностью отсутствует.
Особенности построения лингвистического языка приводят к тому, что естественный язык представляет собой нежестко организованную диффузную систему, которая воспринимается и используется человеком в значительной мере интуитивно. Напротив, язык математики является хорошо организованной системой, существующей и функционирующей в виде логического построения, каждый элемент которого имеет осознанную значимость.
Конфронтация естественного языка и языка математики требует, чтобы каждому лингвистическому объекту был поставлен в соответствие некоторый математический объект. Лингвистический знак, например, словосочетание или слово и составляющие этот знак фигуры - фонемы, буквы, слоги - должны интерпретироваться с помощью знаков математических. Эта математическая интерпретация связана с расчленением лингвистического объекта и выделением в нем одного смыслового или сигнального компонента, который становится предметом дальнейшего исследования.
Применение математических методов в языкознании имеет своей целью заменить обычно диффузную, интуитивно сформулированную и не имеющую полного решения лингвистическую задачу одной или несколькими более простыми, логически сформулированными и имеющими алгоритмическое решение математическими задачами. Такое расчленение сложной лингвистической проблемы на более простые алгоритмизуемые задачи мы будем называть математической экспликацией лингвистического объекта или явления.
Выбор математического аппарата в лингвистических исследованиях - вопрос не простой. Его решение зависит в первую очередь от того, как определяется предмет и основные понятия языкознания и его теоретического ядра - структурно-математической лингвистики.
Некоторые математики и лингвисты считают, что предметом математической лингвистики должно быть изучение грамматики, порождающей текст. При этом грамматика понимается как конечное множество детерминированных правил, в том числе неграмматических, а язык рассматривается как бесконечное число регулярных цепочек слов, порождаемых этой грамматикой. При этом подходе экспликация лингвистических объектов должна опираться на теорию множеств, математическую логику, теорию алгоритмов.
На основе применения «неколичественного» математического аппарата в теоретическом языкознании сформировалось направление, условно называемое комбинаторной лингвистикой - в ней используются методы
Современные инструментальные методы экспериментальной фонетики связаны с применением различных приборов, главным образом электроакустических (спектрографы, интонографы и тому подобное), а также регистрирующие движения органов речи (артикуляцию). Поэтому фонетика тесно связана с физикой, физиологией и математикой. Методы математической логики применяются для формального описания категорий естественных языков. Языкознание оказалось той гуманитарной наукой, которая, не порывая связей с другими науками о человеке и его культуре, первой решительно стала использовать не только инструментальные методы наблюдения (в фонетике) и экспериментальные приёмы (в психолингвистике), но и систематически применять математические способы (в том числе и ЭВМ) для получения и записи своих выводов.
Цель моего реферата - выявить и изучить статистические закономерности стиля двух равных текстов (по 105 слов в каждом) поэтессы Зинаиды Гиппиус (1869 - 1945) «Свободный стих» и английского поэта Вильяма Блейка «Колыбельная» (William Blake, 1757-1827, «A Cradle Song») согласно звуковым характеристикам языка - ударению, сложности восприятия, темпу речи и другим. При анализе я использую следующие термины:
Также я приведу примеры использования методов математической статистики и теории вероятностей при анализе устной и звучащей речи.
2.1 Построение дискретного вариа цион ного ряда
Вариационные ряды длин словоупотребления в фонемах:
(порядок следования чисел здесь повторяет порядок следования слов в стихотворении построчно)
Рассматривая приведенную здесь последовательность чисел нетрудно заметить, что величина длины словоформ варьирует от одной единицы совокупности к другой. Моя задача - определить и изучить вариацию признака в данной совокупности.
Возможные значения признака в статистике называют вариантами. Различия между вариантами могут быть как количественными (дискретными или непрерывными) и качественными.
Теперь я построю дискретный вариационный ряд длины словоформ в фонемах в данном стихотворении:
Где X - признак, N - сумма всех вариант, - варианты, - число повторений вариант
N = 105 (так как текст состоит из 105 слов, как было указано выше)
Теперь вместо абсолютных частот укажу относительные частоты (частости) в процентах:
Самые распространённые слова в данном стихотворении имеют длину в 6 фонем (17,14%)
Проведу аналогичные действия со стихотворением «Колыбельная»:
Вариационные ряды длин словоупотребления в фонемах:
Дискретный вариационный ряд длины словоформ в фонемах в данном стихотворении будет таков:
Где так же, как и в предыдущем примере, X - признак (количество фонем в слове), N - сумма всех вариант, - варианты, - число повторений вариант.
Очевидным является то, что дискретные вариантные ряды двух стихотворений сильно отличаются друг от друга, это можно представить нагляднее, если вместо абсолютных частот указать относительные частоты в процентах:
Различие между длинами словоформ в рассматриваемых стихотворениях состоит в том, что у английского автора преобладают слова в четыре фонемы (39,04%), в то время как у Зинаиды Гиппиус - в шесть. Так же несложно заметить, что количество вариантов в стихотворении «The Cradle Song» значительно меньше, чем в «Свободный стих».
Непрерывные вариационные ряды, как и дискретные, широко распространены в анализе устной и звучащей речи, так как здесь значения признака:
могут отличаться друг от друга на как угодно малую величину. Поскольку отличия между вариантами имеют непрерывный характер, используется только интервальное построение вариационного ряда. Для исследования данных фонетических аспектов нужны специальные измерительные приборы для замеров звучания слогов. Несмотря на невозможность проведения данного анализа, я расскажу о его основном принципе.
При наличии результатов эмпирических исследований, создаются непрерывные интервальные ряды, где - длина слогов в мс, а интервалы вариант выглядят следующим образом - (, (), () и так далее.
Ширина интервала определяется по формуле Стерджесса:
При этом интервальная разность k округляется до ближайшего целого числа, число интервалов l определяется из выражения
2.3 Графическое построение дискретных лингвистических вариационных рядов для рассматриваемых стихотворений
Несмотря на его простоту, слабой стороной табличного описания колебания признака является недостаточная наглядность. Поэтому для достижения большей наглядности я использую графическое изображение интересующего меня распределения (длин словоформ по фонемам) - многоугольник распределения признака (полигон).
2.4 Ряды распределения дискретных случайных величин
Так как дискретная случайная величина может принимать возможные значения с различными вероятностями, чтобы охарактеризовать её в статистическом смысле, необходимо указать вероятности всех её значений.
Законом распределения вероятностей дискретной случайной величины называется таблица соответствия между возможными значениями этой величины и их вероятностями. Эта таблица - ряд распределения дискретной случайной величины.
По определению, сумма вероятностей событий в каждом из стихотворений должна быть равна 1
Сделаю проверку результатов. Для первого стихотворения:
0.1238 + 0.0952 + 0.0762 + 0.1238 + 0.1333 + 0.1714 + 0.1047 + 0.0762 + 0.0476 + 0.0285 + 0.0095 + 0.0095 = 0.9997 -
подсчёты произведены с небольшой погрешностью
0.095 + 0.1428 + 0.1238 + 0.3904 + 0.1333 + 0.1142 + 0.0857 = 0.9971
Из данных результатов следует, что предыдущие исследования сделаны без ошибок.
2. 5 Математическое ожидание дискретной случайной величины
Математическим ожиданием дискретной случайной величины Х называется сумма произведений её всех возможных значений на соответствующие вероятности, обозначается через М(Х).
Если случайная величина принимает значения , соответственно с вероятностями , … , то
Стоит заметить, что математическое ожидание является величиной постоянной, его часто называют статистическим значением случайной величины, а также центром распределения, так как около него группируются отдельные значения случайной величины.
M(X) = 10.1238 + 20.0952 + 30.0762 + 40.1238 + 50.1333 +60.1714 + 70.1047 + 80.0762 + 90.0476 + 100.0285 + 120.0095 + 180.0095 = 5.0738
M(X) = 10.095+ 20.1428+ 30.1238+ 40.3904+ 50.1333 +60.1142+ 70.0857 = 4.1797
Соответственно, M(X)> M(X), исходя из данного результата можно утверждать, что первое стихотворение сложнее для восприятия на слух, чем второе, что немаловажно для анализа звучащей речи.
2. 6 Дисперсия дискретной случайной величины
Дисперсией дискретной случайной величины Х называется математическое ожидание квадрата её отклонения от среднего статистического значения и обозначается через D ( X ).
D ( X ) = 0.1238(1 - 5.0738 )+ 0.0952(2 - 5.0738)+ 0.0762(3 - 5.0738)+ 0.1238(4 - 5.0738) 0.1333(5 - 5.0738 )+ 0.1714(6 - 5.0738 )+ 0.1047(7 - 5.0738)+ 0.0762(8 - 5.0738)+ 0.0476(9 - 5.0738)+ 0.0285(10 - 5.0738 )+ 0.0095(12 - 5.0738 )+ 0.0095(18 - 5.0738 )= 8.0928
D ( X ) = 0.095(1 - 4.1797)+ 0.1428(2 - 4.1797)+ 0.1238(3 - 4.1797)+ 0.3904(4 - 4.1797)+ 0.1333 (5 - 4.1797)+ 0.1142(6 - 4.1797)+ 0.0857(7 - 4.1797) = 2.9732
2. 7 Энтропия дискретной случайной величины
Теория энтропии - основа современной теории информации, которая является актуальным направлением исследований в области теории вероятностей и высшей математики в целом. Энтропия является информационной характеристикой дискретной случайной величины. Вычисляется она по формуле К. Шеннона:
Для первого стихотворения H(X) = 3,282844098 бит
Для второго стихотворения H(X) = 2,675265 бит
Энтропия в лингвистике - это одна из наиболее универсальных теоретико-информационных характеристик текста. Это показатель сложности текста в теоретико-информационном смысле.
Из данных результатов несложно сделать вывод, что стиль и звучание «Свободного стихотворения» Зинаиды Гиппиус намного сложнее стихотворения «The Cradle Song». Оно более вариативно и несколько труднее воспринимается на слух.
2.8 Вероятность появления гласных звуков в стихотворениях, сравнение
Рассчитать вероятность гласных звуков в стихотворении будет не сложно, тем не менее, результаты данного исследования дадут нам возможность сравнить стихотворения по уровню их певучести, плавности.
Обозначим количество гласных звуков в первом стихотворении , во втором -
По результатам подсчётов =216, = 205, но это ещё не значит, что русское стихотворение певучей английского, для этого следует рассчитать вероятности и по общей формуле
533 - для первого стихотворения, соответственно 439
Очевидно то, что в стихотворении Вильяма Блейка вероятность появления гласных звуков превышает соответствующую вероятность в стихотворении Зинаиды Гиппиус, поэтому можно с полной уверенностью утверждать, что произведение «The Cradle Song» названо автором как нельзя кстати - «колыбельная» - певучая, плавная, спокойная.
Где n - количество знаменательных слов,
N - количество простых предложений,
N - количество двусоставных предложений.
Темп речи первого стихотворения значительно превышает соответствующий показатель во втором, отсюда следует, что второе стихотворение более спокойное, плавное, что снова подтверждает, что Вильям Блейк отлично подобрал название для своего творения.
3. Объединённый коэффициент синтаксической и ритмомелодической сложности
Так как предметами моего исследования являются два стихотворения, то формула для расчета объединённого коэффициента синтаксической и ритмомелодической сложности может сыграть огромную роль в изучении данных текстов с точки зрения устной и звучащей речи и выявлении разницы между ними.
Общая формула выглядит следующим образом:
Где n - количество знаменательных слов,
N =105, как нам известно из предыдущих исследований.
Из данных подсчётов можно сделать вывод, что стихотворение воспринимается на слух сложнее, чем стихотворение Вильяма Блейка.
Рассмотренное исследование наглядно иллюстрирует возможности методов математической статистики и теории вероятностей в задачах математической лингвистики. Там, где одной только интуиции читателя недостаточно, так как она всегда субъективна и недостаточно достоверна, применяется математический подход - строгий, объективный, основывающийся на математической модели стиля определенного вида. В моём примере была рассмотрена вероятностная модель текста - наиболее распространённая для решения сложных задач лингвистического анализа, но отнюдь не единственная.
Сравнив «Свободное стихотворение» Зинаиды Гиппиус и «The Cradle Song» Вильяма Блейка с помощью методов математической статистики и теории вероятностей, я пришла к выводу, что стиль Зинаиды Гиппиус более разнообразный, сложный, непредсказуемый, а стихотворение английского поэта - более плавное, спокойное, певучее, мелодичное, легко воспринимающееся на слух.
1. Р.Г. Пиотровский, К.Б. Бектаев, А.А. Пиотровская, Математическая Лингвистика, - М.: Высшая школа, 1977
2. В.В. Савченко, Теория вероятностей и математическая статистика: Конспект лекций, - Н. Новгород: НГЛУ, 2003
3. В.В. Савченко, В. В. Ретивина, Математика и информатика для лингвистов, краткий конспект лекций, - Н. Новгород: НГЛУ, 2006
4. ВВ Власов, Конспект лекций по высшей математике, - М.: Айрис, 1997
5. Р.Г. Пиотровский, К.Б. Бектаев, Математические методы в языкознании. Часть 2. математическая статистика и моделирование текста, Алма-ата: КазГУ, 1973
Сравнительная артикуляционная классификация гласных звуков в русском и английском языках; сонограммы и осциллограммы, форманты ударных и безударных гласных. Влияние фонетического окружения, позиции конца высказывания, редукции на длительность звуков. контрольная работа [24,7 K], добавлен 27.03.2011
Теоретическое исследование структуры сравнительных прилагательных в русском и английском языках, оценка их стилистических возможностей. Анализ романа Шарлотты Бронте "Джен Эйр" на предмет использования прилагательных в форме степеней языкового сравнения. дипломная работа [209,6 K], добавлен 19.07.2014
Грамматическое деление всего лексического состава языка в основе вопроса о частях речи. Классификации частей речи в русском и английском языках, проведение их сравнительного анализа. Типологические критерии, существующие для сопоставления частей речи. курсовая работа [68,6 K], добавлен 28.10.2016
Эвфемия в современном английском и русском языках. Функции, темы и цели эвфемизации речи. Явление эвфемии в лингвистической литературе. Роль эвфемизмов в политических речах. Средства создания эвфемизмов в русском и английском языках, эвфемические обороты. дипломная работа [93,7 K], добавлен 29.05.2010
Грамматическая категория вида и времени, ее особенности в английском и в русском языках. Общая характеристика видо-временных форм настоящего, прошедшего и будущего времени. Сравнительный анализ системы глагольных времён в русском и английском языках. курсовая работа [82,0 K], добавлен 24.05.2013
Исследование семантических группировок в рамках классической и когнитивной лингвистики. Принципы построения лексико-семантического поля. Построение и сравнительный анализ лексико-семантических полей "свобода" и "freedom" в русском и английском языках. дипломная работа [978,4 K], добавлен 25.03.2011
Рассмотрение понятия концепта как актуального направления современной лингвистики. Проведение сопоставительного анализа языковых средств, репрезентирующих концепт "красота/beauty" в понятийном, образном и ценностном аспектах в русском и английском языках. курсовая работа [49,3 K], добавлен 03.10.2010
Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д. PPT, PPTX и PDF-файлы представлены только в архивах. Рекомендуем скачать работу .
© 2000 — 2021
Применение методов математической статистики и теории вероятностей в задачах теоретической лингвистики при анализе устной и звучащей речи на русском и английском языках курсовая работа. Иностранные языки и языкознание.
Реферат: Обработка результатов научных исследований
Курсовая работа: Методика изучения многогранников в школьном курсе стереометрии. Скачать бесплатно и без регистрации
Реферат: Что такое налог. Скачать бесплатно и без регистрации
Дипломная Работа На Тему Уголовно-Правовая Характеристика Преступлений Против Общественной Нравственности
Практическая Работа На Тему Письмо-Благодарность На Английской Языке
Переустройство И Перепланировка Жилого Помещения Реферат
Курсовая работа по теме Низковольтное комплектное устройство для управления и защиты асинхронного двигателя
Презентация Подготовка К Итоговому Сочинению 2022 2022
Реферат Анализ Техники Верхней Прямой Подачи
Как Пишется Реферат В 5 Классе
Технология Анализа Контрольных Работ
Реферат по теме Динамическое программирование (задача о загрузке)
Реферат по теме Идеи И. Ньютона и К. Линея
Реферат: Новый диалог человека с природой. Скачать бесплатно и без регистрации
Бег На Средние Дистанции Реферат
Реферат: Ландшафт і врожай
История Языкознания Как Науки Реферат
Реферат Особенности России
Реферат На Тему Марко Поло
Реферат: Феномен сталинизма
Правовой аспект брака в законодательстве РФ - Государство и право курсовая работа
Брачный договор. Особенности российского законодательства - Государство и право реферат
Modern problems and prospects of development of local self-management in Ukraine - Государство и право реферат