Информатика

Информатика


ОРГАНИЗАЦИЯ И КОМПЬЮТЕРНАЯ ОБРАБОТКА ДАННЫХ В ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЯХ

1 - КВАНТИТАТИВНАЯ ЛИНГВИСТИКА. СФЕРЫ ПРИМЕНЕНИЯ КОЛЛИЧЕСТВЕННЫХ МЕТОДОВ АНАЛИЗА.

Квантитативная лингвистика-прикладное направление, в котором объектом изучения, является язык или речь, а инструментом анализа-количественные или статистические методы. С помощью данных методов можно проанализировать единицы любого уровня языка.

Чаще всего количественные методы используются в лексикологии. При изучении колич. состав словаря, модели и словообразование.

Информация о частотности употребления того или иного слова, может оказаться полезным, например, при изучении иностранных языков, когда встает вопрос какую именно лексику должен знать комуникант для успешного общения.

Данные о частоте используемых слов могут оказать влияние на выбор говорящего в ситуации, когда из ряда синонимов необходимо выбрать одно слово.

Стилистические методы анализа также используются для решения целого ряда лингвистических задач:

  1. Для дешифровки текста
  2. Авторизации текста
  3. Синтаксического парсинга
  4. При проведении контента анализа и др…

Дешифровка-исследование текстов для выявления информации

При дешифровки вы можете столкнуться:

  1. Неизвестные только письмен., но язык известен. Решением этой задачи является: установление правил чтения забытых знаком.
  2. Неизвестен язык, а письмен. известна. Решение - установление значения слов, звучание которых известны (интерпретация)
  3. Неизвестный язык записан неизвестным письмом. Решение - установление и звучание и значение слов (раскрытие)

При дешифровке используются структурные методы. В основе которых лежит положение о том, что любую информацию о языке можно получить, если изучить все встречные сочетания единиц. Разрабатывать специальные алгоритмы, в основе которых заложены статистические данные, в частности, сочетаемости графем.

ЭКСПЕРТИЗА АВТОРСТВА ТЕКСТА РАССМАТРИВАЕТ:

  1. Имеется множество текстов, необходимо установить к каким авторам они принадлежат и определить конкретное авторство каждого текста
  2. Имеется несколько образцов текстов, определенных автором. Задача: определить, является ли он, автором некоторого спорного текста (сравнение по образцу)
  3. Имеются образцы текстов нескольких авторов, необходимо установить, кто является автором спорного текста (конкуренция образцов)

Поскольку в современной лингвистике авторский стиль понимается как категория лингвистическая, то его можно описать, как совокупность количествен. выразим. параметров.

Например:

Средняя длина предложения, среднее количество слов в предложении, среднее количество предложений в абзаце, количество используемых внутри предложений синтаксических структур. Анализируемый текст выражается через вектор, координаты которого задаются значениями выбранного параметра. Сходство векторов являются основанием (Лингвоанализатор Дмитрия Хмелева)

Синтаксический парсинг - процесс, сопоставления линейной последовательности лексем текста с его синтаксической структурой. Результатом синтаксического парсинга являются дерево разбора, которое отражает синтаксическую структуру входного предложения и хорошо подходит для дальнейшей обработки СП. СП-устанавливает авторство текста.

Контент анализа-количественный анализ текстов с целью послед. интерпретации выявления числовых закономерностей. Первый пример использования КА датированы 18 в, когда в Швеции частота появления в тексте книги определенных слов служила критерием ее еритичности. Однако, применение КА можно начинать соотносить с 30г 20-го века в США, использовался он преимущественно в социологических исследованиях в том числе при изучении рекламных материалов. Широко применяется в психологии, политологии, в связях с общественностью. Наименьшем КА является слово или тема, которая называется концептуальной переменной.

Свой чужой, терроризм, права человека-концепт. переменные. КА с помощью концепт. переменной назыв. содержат. или качествен. Если исследователя интересует ни столько что говорится, сколько как говорится, то в этом случае имеем дело с количественным контентом анализа. При этом методе изучаются фотографии, сколько места посвящена, на каких полосах.

СТАТИСЧИЧЕСКАЯ ОБРАБОТКА ЯЗЫКОВЫХ ДАННЫХ В ПРОГРАММЕ EXEL

Microsoft Excel - программа для работы с электронными таблицами, созданная для Windows в 1987 году - наиболее популярное приложение.

Метод работы с электронными таблицами широко используется с квантитативной лексикологии. Общепризнанно, что словарь языка можно строфицировать на ядро и периферию. В ядре будут находиться наиболее частотные единицы языка, на периферии-наименее употребит.

Частотность лексики определяется:

  1. Длинна слова (чем короче, тем чаще употребляется)
  2. Многозначность
  3. Вхождение в синонимичные ряды
  4. Широкая сочетаемость

Лексика языка помещается в соответствующие ячейки таблицы, потом происходит его подсчет, ранжирование и выделение ядерной и периферийной лексики. Результаты подобной обработки находят практическое применение при составлении кратких двуязычных словарей на начальных этапах обучения иностранным языкам.

КОРПУСНАЯ ЛИНГВИСТИКА. ПОИСКОВЫЕ И АНАЛИТИЧЧЕСКИЕ ВОЗМОЖНОСТИ.

1 - ЛИНГВИСТИЧЕСКИЕ КОРПУСА. ИХ ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ

Лингвистические корпуса - раздел языкознания, занимающихся разработкой, созданием и использованием лингвистических корпусов.

Лингвистический корпус - совокупность текстов, собранных по определенному стандарту и обеспеченные специализированной поисковой системой.

Целесообразность создания лингвистических корпусов объясняется:

  1. Предоставлением лингвистических данных в реальном контексте
  2. Большой репрентазинтативнстью данных
  3. Возможностью многократного использования однажды созданного корпуса для решения различных лингвистических задач.

Среди них выделяются:

  1. В лексикологии и лексикографии-для составления различных словарей, определенных значений многозначных слов; выявление ассоциативных связей слов в тексте и тд
  2. Грамматике-для определения частоты употребления грамматических морфем, классов слов, типов словосочетаний и предложений
  3. В лингвистике-для дифференциации типов текстов, выявления связей между предложениями в абзаце, между абзацами
  4. При автоматическом переводе текстов-для поиска контекстов слов, имеющих несколько переводных эквивалентов, для поиска эквивалентов параллельных текстов и тд
  5. В учебных целях-для выбора цитат, примеров, при создании учебников, учебных пособий
  6. К корпусам текстов обращаются программисты-для которых корпус служит своеобразным полигоном, на котором проверяется эффективность работы компьютерных программ

2 - ИЗ ИСТОРИИ СОЗДАННЫХ ЛИНГВИСТИЧЕСКИХ КОРПУСОВ

Первым большим компьютерным лингвистическим корпусом считается Брауновский корпус американского варианта английского языка, который создавался в 1962-63 г под руководством Вильяма Френсиса. В университете Брауна США содержится 500 фрагментов текстов по 200 слов в каждом.

В результате был задан стандарт в 1 млн. словоупотреблений для создания корпусов на других языках.

В связи с ростом компьютерных мощностей способных работать с большими объемами текстов, в 80-е годы 20в были созданы корпуса большого размера: British National Corpus и Bank of English.

В настоящее время представит. Корпуса существуют для немецкого, польского, чешского, словенского, финского, китайского и др.

Национального русского языка находится в стадии разработки и на сегодняшний день содержит более 150 млн словоупотреблений.

3 - ПРИНЦИПЫ ОТБОРА И ОБРАОТКИ МАТЕРИАЛА В ЛИНГВИСТИЧЕСКИХ КОРПУСАХ

Создание корпусов включает:

  1. Отбор текстов
  2. Разработка средств в кодировании
  3. Средств в поиске внутри базы данных

1. Отбор текстов: поскольку собрать все тексты языка практически невозможно ( искл мертвые языки) при отборе текстов необходимо следить за тем, чтобы были равномерны тексты всех стилей и жанров ( произведения худ лит-ры, деловые документы, записи диалогов, телевизионные ток-шоу) Такой подбор обеспечивает репрезентативность и показывает как на самом деле язык функционирует в обществе.

2. Разработка средств, кодирование: Включенные в корпус тексты получают морфологическую и синтаксическую разметку, которая необходима для того, чтобы пользователь мог осуществлять поиск нужной информации. Разметка-приписывание грамматической синтаксической и другой информации о входящих тексты словоформах. Разметка может осуществить как вручную, так и в автоматическом режиме. Для этого используются различные программы:

3. Лемматизаторы-программы, которые приводят словоформы к начальной форме

2) Частиречные таггеры-расставленные частей речи около слов

3) Классторизаторы, которыее выдают результаты в виде отдельных кластеров.

4) ТИПЫ КОРПУСОВ

Наиболее значимые :

1) Исследовательские-создаются с целью изучения различных аспектов функционирующего языка

2) Иллюстративные-служат для выделения в них примеров, подтверждающих те или иные языковые факты, обнаруженные с помощью других лингвистических приемов

3) Статистические-содержат тексты небольшого временного промежутка

4) Динамические-включает тексты большого временного промежутка и предназначены для проведения хронических исследований

5) Одноязычные-включают тексты на 1 языке

6) Многоязычные-объединяют несколько одноязычных корпусов с приблизительно одинаковым выбором текстов

7) Корпуса параллельных текстов-включает тексты с их переводами на другом языке

5)ПАРРАЛЕЛЛЬНЫЕ КОРПУСА

Параллельный текст- текст на 1 языке вместе с его переводом на другой язык. Большие собрания параллельных текстов называются параллельным корпусом.

Как известно, в процессе перевода предложения текста могут разделиться, сливаться, удаляться, вставляться или менять последовательность.

Индетификация соответствий друг другу предложений в исходном тексте называется выравниванием. Выравнивание осуществляется с помощью специальных программ (By text Tools) подобные программы приводят в соответствие оригинал и перевод по каждому предложению.

Идея текста принадлежит Брасту Харису, который первый предложил такую методику в 1988 году. В последствии была развиты группы ученых, университетом Мон Реале

6)СОВРЕМЕННЫЕ ЛИГВИСТИЧЕСКИЕ КОРПУСА

корпусы лингвистика в России. Первый электронный корпус русского языка в Швеции. В настоящее время этот корпус хранится на севере Тобингенского университета Германии.

Национальный корпус русского языка был создан в 2004 году находится в стадии разработки. В корпус входят как письменные тексты, так и записи устных текстов

Корпус состоит из нескольких корпусов:

1) Поэтических

2) Диалектных текстов

3) Мемуары

4) Публицистика

5) Научная и религиозная литература

6) Русско-английский и англо-русский

7) Немецко-русский корпус

8) Синтаксический

9) Акцентологический корпус

10) Обучающий подкорпус

В настоящее время корпус имеет 200 млн словоупотреблений

Британский национальный корпус-один из самых авторитетных корпусов в настоящий момент. Создан в 90 г. Правила разметки, которые использованы в его создании были приняты за эталон для более 100 появивии. Позднее корпусов. Этим корпусом пользуются для англоязычных словарей

Корпус современного американского был создан профессором Марком Девийсон в университете Брига и Йенга в США. За период с 1990 по настоящее время насчитывают более 500 млн словоупотреблений

В рамках этого периода след методы:

1) Программирование учебной деятельности учащихся

2) Тестирование

3) Информирование

1) Программирование учебной деятельности учащихся: Первый из этих методов заключается в том, что воздействие на учащихся полностью определяется с обучаемой программой. Каждому учащемуся жестко задается последовательность учебных и контрольных заданий

2) Тестирование: компьютер по специальным программам выявляет: индивидуальный, профессиональный и психологическую характеристику учащегося, а также достигнутые или уровня знаний. При этом учащийся только отвечает на вопросы, но оценку за знания не получает

3) Суть метода информирования-в памяти ПК помещ справочн информацио данные, которые учащийся может использовать при подготовке к занятиям и во время занятий. К сожалению, бихевиористский подход не может преодолеть механичности обучения и отсутствие развития мыслительной способности обучающегося, которое отводится пассивная роль объектов

4) Когнитивный у учащихся активизируются познавательные функции. В памяти компьютера создается универсальная учебная среда, включающая грамматические справочники, словари, энциклопедии, спеллеры и др При этом подходе используются след. методы:

1) Моделирование учебной среды

2) Свободное обучение (при таком методе обучении, учащийся может выбирать учебные задания ( в соответствии с учебной с учебной программой), а также тематику обучения и способы работы с компьютером

Способы обучения с помощью ПК:

1) Компьютер-помощник в обучении преподавателя. В этом случае процесс обучения строится в соответствии с традиционным методом передачи знаний от преподавателя к учащемуся. Обуч программы моделируют лишь некоторые темы или разделы изучаемого курса. Здесь преобладает групповой метод обучения в классах или подгруппах

2) Компьютер-преподаватель. При этом спос обучение направлено целому курсу и обуч

3) Компьютер-источник знаний и оцениватель их. Здесь используются альтернативная педагогика, когда учащийся исходя из собственных целей и возможностей обращается к ПК, как к носителям необходимых для него знаний, так и их оцениванию. Такой подход возможен, как в групповом, так и в рамках индивидуального дистанционного обучения

2)СОДЕРЖАНИЕ КОМПЬЮТЕРНЫХ ПРОГРАММ ИНДИВИДУАЛЬНОГО ОБУЧЕНИЯ ИЯ

Подобные программы представляют законченные курсы, предназначенные для обучения ИЯ на всех этапах.

К подобным программам предъявляются следующие требования:

1) Должны совмещать в себя обучающую, поисковую и контролирующие функции

2) Опираться на сценарии максимально приближенного к традиционному обучению

3) Максимально использовать принцип наследности и доступности

4) Иметь средство быстрой и объективной оценки знаний учащихся

5) Содержать возможность настройки на конкретного учащегося (выбор подачи нового материала)

6) Скорость ответа

Процесс создания обучаемых программ

1) Разделение всего курса на определенное число тем и подтем

2) Отбор для каждой темы и подтемы, определенное лексического и грамматического материала

3) Создание для каждой темы или подтемы сценариев в рамках, которых этот материал будет закрепляться

4) Подбор в соответствии со сценариями необходимых текстов, аудио и видео материалов. Такая работа может выполняться высококвалифицированными программистами, вместе с опытными преподавателями ИЯ, методистами, психологами и элетро.

Seracuse language System; Compulink; foreigh language Software Company

Мультимедия технологии; Istra Soft; Nek Media Seneration

3)ВИДЫ ОБУЧАЕМЫХ ПРОГРАММ

по типу пользователя различных программ:

1) Для детей

2) Для молодежи и взрослых

3) Для бизнеса

4) Специализированных

По назначению

1) Для ичр

2) Для начального обучения языку

3) Для совершенствования знания языка

4) Для сдачи различных сертификационных

5) Для работы с деловыми текстами

Bridge to English-для начального обучения; learn to Speak English; Talk to me; Professor Highens

Для совершенствования языка: Complete English; English for Communication; English Gold; English Platinum

Для бизнеса: Business English; English Business Contracts

Для сдачи сертификационного: The Heineman TOEFL

English Gold-144 урока, 12000 слов, в каждом уроке 5 разделов (фонетика, грамматика, диалоги, фильмы) 100 часов Listening, 2000 иллюстраций

5) ИСПОЛЬЗОВАНИЕ ИТ В ДИСТАНЦИОННОМ ОБУЧЕНИИ

ДО-обучение на расстоянии, когда учащийся отделен от преподавателя в пространстве или во времени. Эта новая форма организации учебного процесса, основана:

1) На принципе самостоятельного получения знаний

2) Предполагающий в основном телекоммуникационный принцип доставки учебного материала

3) Интерактивное взаимодействие учащихся и преподавателя как в процессе обучения, так и при оценке полученных ими знаний

Выделяют следующие модели ДО

1) Интерактивное телевизионное обучение. Преподаватель ведет занятие, где установлена телекамера, а затем весь урок по телеканалам транслируется в ТВ. Проверка знаний и выдача сертификатов, осуществляется при личных контактах с преподавателем. Этот способ широко используют в США. Например, в национальном технологическом университете, штат Колорадо, существует 40 школ ДО. Курсы транслируются по 4 каналам

2) ДО с использованием носителю учебной информации на компактных дисках. Для получения консультации с преподавателем используется интернет. Проверка знаний осуществляется при личных контактах с преподавателем

3) ДО- с использованием интернета. Дистанционные уроки, лабораторные работы, семинары, конференции, сертификат, деловые игры.

Плюсы и минусы ДО

ПЛЮСЫ:

1) Позволяет снизить затраты на обучение

2) Проводить обучение большого количества людей

3) Повысить качество за счет применения современного ИТ и лингвиттич (ЛИТ)

МИНУСЫ

1) На 1 план выходит самостоятельная деятельность учащегося

2) Обучаемый должен обладать владением ПК

3) Должен быть доступен интернет

КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ

1) ЛЕКСИКОГРАФ: НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ И ЗАДАЧА

Лексикограф-теория и практика, составление словарей

Направление исследований

1) Теоритическая

2) Практическая

Теоретическая-охватывает:

1) Разработка общей типологии словарей и словарей новых типов

2) Разработка макроструктуры словаря

3) Разработка макроструктуры

Практическая выполняет функции:

1) Обеспечивает обучение языку

2) Разрабатывает языковую норму

3) Словари обеспечивают межязыковое общение

4) На основе словарей проводятся исследования в рамках теоретической лингвистики

Словарь. Типы словарей

Словарь-определенная образом, организованное собрание слов с комментариями к ним. Помимо слов, объектами словарного описания могут стать компоненты слов (например существуют словари морфем-морфемные слова, описывают единицы меньше слова по объему) или словосочетания различных типов, больше слов по объему (например словари пословиц, поговорок, крылатых выражений, фразеологические словари, словари афоризмов, цитат и тд)

Все словари делятся на 2 категории: Энциклопедические и Лингвистические

1) Энциклопедические словари-научные или научно-популярные издания, которые представляют собой систематизированный свод знаний в какой-либо области, объектом описания энциклопедических словарей являются-понятия, термины, исторические события, географические реалии, персоналии (какие-то выд. Люди). Их словники включают существительные или сочетания с ними, словарная статья (содержит в основном экстралингвистическую информацию ту, которая лежит за пределами языка и сопровождается иллюстрациями, схемами, картами)

Энциклопедические словари подразделяются на: универсальные (обо всем, например «Большой энциклопедический словарь») отраслевые (например: медицинский, философский словарь), региональные ( например: словарь Африка-содержит любую разную информацию о каких-то исторических событиях, о географическом расположении и тд НО ТОЛЬКО об определенном регионе) особо выделяют биографические словари, объектом описания которых является жизнь и деятельность выдающихся ученых, политиков, деятелей искусства.

2)Лингвистические словари-объектом описания лингвистических словарей являются-слова, морфемы, устойчивые словосочетаний и др. Словники лингвистических словарей, включают все части речи.

По кол-ву используемых языков лингвистические словари делятся на: Одноязычные Двуязычные и Многоязычные (переводные)

В зависимости от Целей описания выделяют: Толковые и Учебные словари

Основная цель толковых словарей-объяснения значений слов и иллюстрации их употребления в речи

Цель учебных словарей-научить правильно употреблять слова в речи

По функциям словари делятся на: Дескриптивные и Нормативные

Цель дескриптивного словаря-дать наиболее полное описание лексики и все релевантные случаи ее употребления

Цель нормативного словаря-показать норму употребления слова

По характеру словника: Общие и Частные

Общие словари содержат лексику всех жанров и стилей (словарь Ожигова, Ушаковой, Даля и др)

Частные словари, ограниченные сферой описания языкового материала ( словари сленгов, жаргонов, словари иностранных слов и тд)

По способу отношений между словами: Синонимов словари, Антонимов, Омонимов и Паронимов

Словари, отражающие тематические и стилистические пласты лексики, делятся на: Терминологические, Диалектные, словари Просторечий, словари Арго, словари Языков писателей

По расположению материала: Идеографические (содержат не слова, а рисунки со смыслом), передающие смысл) Аналогические (в них слова располагаются не по алфавиту, а по смысловым группировкам) Обратные (слова располагаются по алфавиту конечных букв)

По назначению или предполагаемому адресату: Словари трудностей и ошибок, Словари трудных слов переводчика (словарь Тезаурус - особая разновидность словарей в которых указаны гипергипонимические и другие отношения между словами, в отличии от толкового словаря, тезаурус позволяет выявить смысл слова по средству соотнесения его с другими словами или группировками «стая». 1 тезаурус был написан в 1852 году школьным учителем- Мартином Роже «для помощи при написании сочинений)

Основные структурные компоненты словаря (макро структура)

Важнейшим компонентом любого словаря является словник в который включается все описываемые единицы, являющиеся входами словарных статей, элементарной единицей словаря является-словарная статья, для тезауросов необходимым структурным компонентом являются указатели или индексы. Профессионально сделанные словари, должны включать в себя вводную статью, в которой авторы объясняют принципы пользованием словарем, структуру словарной статьи, указывают на объем словника и используемые источники.

Отдельным компонентом словаря является-список сокращений, для удобства пользователя, должен быть напечатан алфавит

Основные структурные компоненты словарной статьи (микро структура)

Словарная статья состоит из нескольких зон описания, самой первой зоной является лексический вход или лемма, обычно отмечается полужирным шрифтом, чтобы было легче находить информацию. Вслед за леммой идет зона грамматической информации и стилистических помет. Здесь указывается принадлежность слова к определенной части речи, особые грамматические формы. Стилистические пометы указывают на сферу употребления слова. Далее следует зона значений, каждое значение маркируется арабской цифрой или отделяется «;». Как правило, словарная статья завершается зоной фразеологизмов или этимологической зоной. Для маркировки различных зон, используются разные виды графического выделения, это позволяет пользователю легко находить нужную ему информацию, например всегда выделен полужирным шрифтом, стилистическая и грамматическая информация даются мелким шрифтом или курсивом, или «< >»

Компьютерная лексикография. Принципы создания электронного словаря

С развитием компьютерных технологий в лексикографии появилась новая отрасль-компьютерная лексикография, в настоящее время, она развивается в 2 направлениях:

1) Компьютеры используются для создания обычных бумажных словарей по скольку это значительно упрощает работу с языковым материалом и ускоряет процесс создания словаря

2) Создаются собственные электронные словари

Процесс создания электронного словаря, проходит в несколько этапов, в начале создаются лексикографические базы данных, на основе которых затем строятся словарные статьи. Еще один главный этап-подбор примеров или контекстов употребления данного слова, примеры подбираются из корпусов текстов, которые хранятся в памяти компьютера. Процедура подбора примеров называется- построением конкорданцев. Пример должен состоять из 3 предложений, например предложение в котором встретилось данное слово, предложение, стоящего перед основным предложением, предложением стоящего после него.

Заключительные этапы создания словаря-редактирование и корректура (исправление) текста словаря, создание его оригинал-макета.

Словари: Lingvo ABBYY Software House, Multilex Медиа Лингва, PolyGlossum, Multrun.ru, Websters-online-dictionary.org, Slovari.ru

МАШИННЫЙ ПЕРЕВОД

1)ПЕРЕВОД, ОБЩИЕ ПОНЯТИЯ

перевод есть вид человеческой деятельности, в результате которой некоторый текст в одном языке ставится в соответствии тексту на другом языке.

Слово перевод-двояко:

1) Как процесс перевода

2) Как результат перевода

Переводом человек начал заниматься в античности. Одним из первых переводчиков был Цицерон-древнеримский деятель, оратор, писатель. Он переводил произведения древнегреков на латынь и считал, что переводить следует не слова, а смысл. «не букву, а смысл» в соответствии с условиями и духом своего языка. Однако, такой взгляд на перевод не является общепринятым на в древней, ни в последующие средние века. Большой вред в теории перевода принесли переводы древнееврейских текстов, когда любое отступление любого оригинала, рассматривалось как ересь. Такой подход привел к возникновению буквального перевода. В эпоху Возрождения в 14-16 века появились шедевры Мировой литературы таких произведений писателя Франсуа Рале, Шекспир, Сервантеса. То, что привело к резкому возрастанию количества переводу. Как протест против «…» оригиналы искажены до неузнаваемости

Идеи перевода интересовали Гетте, Пушкина, Гоголя, Пастернака, Маршака. Именно их работы послужили основой подлинно научных теорий перевода, утверждающих возможность хорошего перевода с любого языка на любой язык, такие теории появились в 50-60 годах 20 века

2)ВИДЫ ПЕРЕВОДА

1) В зависимости от переводного материала различают:

1) Перевод художественной литературы

2) Научно-технический перевод

3) Общественно-политический

4) Бытовой

2) По форме презентации:

1) Письменный

2) Устный

3) На основании скорости устного перевода

1) Синхронный (производится одновременно с произношением текст на исходном языке, отставание не должно превышать 70 с)

2) Последовательный (переводчик прослушивает значительные фрагменты текста, фиксирует в свою память, а затем переводит для слушателей)

4)по цели

1) практический перевод, а цель его получение информации

2) учебный, для обучения основам перевода

3) экспериментальный, для оценки умений и качества работы

4) адаптивный(реферативный) цель его приспособить текст

5) эталонный, цель сравнить другие переводы

5)по степени механизации

1) Традиционный или ручной

2) перевод, выполняемый человеком с помощью компьютера

3) перевод, выполняемый компьютером

4) полностью автоматзирован

3)ПРИЧИНЫ СОЗДАНИЯ СИСТЕМ МАШИННОГО ПЕРЕВОДА

идея МП обязаны своим возникновением чисто-практически нужным

1) В начале 50 годов 20 века во всем мире происходит информационный взрыв, существенно возрастает объем научнотехнической информации

2) Дополнительный импульс исследования в области дала холодная война, когда противостоящие друг другу общественно-политические системы внимательно следили за развитием научно-технического потенциала друг друга именно по этой причине первые зарубежные системы работали с русским языком. Дата начала эры МП-1949 год, когда американский специалист по дешифровке Орон Виве составил меморандум, в котором теоретически обосновал принципиальную возможность создания системы МП. Этот меморандум был разослан 250 специалистам по лингвистике, дешифровки в Калифорнийском, техасском, масачуском технологическом университете, были созданы первые коллективы разрабоки МП. В 1945 году состоялся Джордж-Таунский эксперимент в ходе, которого машина перевела текст по физике с русског она английский.

В советском союзе были созданы подобные. Например в институте иностранных языков создана 1 лаборатория в 1955 году. Подобный эксперимент состоялся в Москве, был переведен текст о прикладной математике. В 1974 был создан всесоюзный центр перевода в москве, на базе которого созданы системы МП с английскогоо, намецкого, французского

4)ПРЕИМУЩЕСТВА И НЕДОСТАТКИ МП

В настоящее время ЕС имеет свою службу первода, насчитывающую около 200 тыс сотрудников, они переводят в год 600тыс страниц текстов, с 6 рабочих языков ЕС (английский, немецкий,французский,португальский) и справляются ос всеми заказами, следовательно до специалистов в различных странах, зарубежная информация доходит с большим опозданием (5-10 лет) Единственным вызодом для увеличения выхода, является ПК. Человек переводчик тратит 20 % своего времени непосредственно на перевод, 40% на поиск по свловарю, 40 % на оформление.

Компьютер-95% времени на перевод и 5% на пополнение словаря. Максимальная производительность труда переводчика составляет 4-5% авторских листов в месяц. Такая система SYSTRAH за час дает 120 авторских листов. Все это свидетельствует о преимуществах МП, однако качество такого перевода значительно уступает переводу.

Проблемами МП активно занимаются во всех развитых странах. Ежегожно проводятся конференнции по МП. В разных странах издаются журналы

5)КЛАССИФИКАЦИЯ СИСТЕМ МП

в 1990 году американские специалист по дешифровке Ларри Чаелдз предположил:

1 MAHT-machine-assisted human translation-перевод осуществлялся человеком с помощью машины

2 HAMT-машина с помощью человека

3 FAMT-fully-automated

1) При 1 способе текст переводит человек, а за переводы эквивалентами обращаются электронные словаря: multitrun,lingvo

2) HAMT-человек на определенных этапах подключается к переводу текста комптьютерам. Возможно 3 варианта :

1) При предвариельной подготовке текста

2) Перед ее вводом в компьютер, человек проводит операции, например сложные предложения сводят к ряду простых, удаляют фразеологич и идеоматич

3) Предложения, фиксируют 1 значение у многозначных слов, такой человек называется предредактором. Опред преобразов текста в процессе перевода осуществляет интер-редактор. Полную редакторскую правку переведен машиной текста осуществляет опытный переводчик

4) SOCRAT STYLUS ERTRaNS MULTITRAN PROMT MEMOQ

5) ОБЗОР НЕКОТОРЫХ СИСТЕМ МП

К настоящему времени количество реальноработающих систем МП

1) GAT 1952 год, 1976-прекратил существование

2) TAUMв мокресальском университете, 1965 года пееводит с английского на французский

3) CULT university language translate-с китайского на английский

4) ALPS с 5 языков на 5

1) ЭТАП с англ на русский

2) АНРАП из 2 систем


Report Page