Вопросы по информатике. Ответы на вопросы. Информатика, ВТ, телекоммуникации.

🛑 👉🏻👉🏻👉🏻 ИНФОРМАЦИЯ ДОСТУПНА ЗДЕСЬ ЖМИТЕ 👈🏻👈🏻👈🏻
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!
Похожие работы на - Вопросы по информатике
Скачать Скачать документ
Информация о работе Информация о работе
Скачать Скачать документ
Информация о работе Информация о работе
Скачать Скачать документ
Информация о работе Информация о работе
Скачать Скачать документ
Информация о работе Информация о работе
Скачать Скачать документ
Информация о работе Информация о работе
Скачать Скачать документ
Информация о работе Информация о работе
Скачать Скачать документ
Информация о работе Информация о работе
Нужна качественная работа без плагиата?
Не нашел материал для своей работы?
Поможем написать качественную работу Без плагиата!
1. Понятие информационной технологии.
ИТ
– средства, методы и системы сбора, передачи, обработки и представления
информации пользователю.
Появление
средств ВТ (Современные и тд.).
В
современном ИТ выделяют 3 составляющие:
Аппаратное
обеспечение (средства ВТ и оргтехники – hardware);
Программное
обеспечение (прикладное и системное ПО, методическое и информационное
обеспечение – software);
Организационное
обеспечение (включая человека в системы ИТ, взаимодействие человека с этими
системами, системное использование технических и программных средств – orgware)
Новые
ИТ – современная ИТ технология, использующая развитый (интеллектуальный) интерфейс
с конечным пользователем.
ИТ
как прикладная наука, изучает фундаментальные соотношения в больших
информационных системах.
ИТ
как практика – интеллектуальная деятельность по проектированию и созданию
конкретных технологий обработки данных.
Базовые
ИТ. Обеспечивают решение отдельных компонентов в той или иной задаче, служат
для создания прикладных ИТ. Например: технологии программирования, СУБД,
системы распознавания изображения и тд.
Прикладные
ИТ. Формируются на основе базовых ИТ, предназначены для полной информатизации
объекта. Например: САПРы, АСУП,
геоинформационные системы.
Обеспечивающие
ИТ. Обеспечивают реализацию базовых и прикладных ИТ. На рынке представлены их
отдельные компоненты. Например: современная микроэлектронная база средств ВТ,
перспективные системы и комплексы (оптические и нейрокомпьютеры, транспьютеры).
3.Основные
методы организации текстовых файлов.
К
самой БД добавляется справочник, который имеет следующую структуру:
Ключ
– значимое слово, характеризующее тот или иной документ. Рядом пишется адресная
ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого
термина. И к этой подстроке добавляются собственно текстовые файлы.
Цепочечная
модель: сколько индексных терминов в тексте выделено столько и должно быть
ссылок.
Максимальная
длина поиска определяется самой длинной цепочкой;
Новые
записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.
Цепи
могут быть длинными, если некоторые ключи используются довольно часто;
Необходимость
выделения памяти для хранения адресных ссылок в самих текстах;
Если
справочник очень велик, он значительно усложняет работу с текстами и требует
организации дополнительного доступа к себе самому.
термину
k. Если S k уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему
присваивается отрицательный вес.
1.Параметры,
основанные на динамической эффективности. Всем терминам
первоначально присваиваются одинаковый вес, затем пользователь формирует
запрос, и выдаются документы и пользователь определяет релевантность, система
сама уменьшает или увеличивает вес документа, в соответствии с потребностями
пользователя, т.е. предусматривается некоторая программа обучения системы.
Мы
рассмотрели статистические подходы (СП). Помимо СП используются такие подходы,
которые предусматривают местоположение термина в тексте.
1.
В индексационные термины включаются те, которые встречаются в названиях
документов, названиях глав, разделов и т.д.
2.
Составляются списки значимых для некоторой предметной области слов. Т.е.
составляется глоссарий по некоторой предметной области.
Методы
увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных
документов из массива. В этом случае необходимо к используемым индексационным
терминам добавить дополнительные, чтобы расширить область поиска.
1-й
подход к решению этой задачи: использование терминов заместителей из словаря
синонимов, который называют тезариусом, в котором термины сгруппированы в
классы.
2)
Метод ассоциативного индексирования. Основан на использовании матрицы
ассоциируемости терминов, которая задаёт для каждой пары терминов показатель
ассоциируемости. Абсолютная запись этого ПА между терминами j и k:
f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k / (сумм ( i=1 – n ) f i j ^ 2+ сумм ( i=1 – n ) f j k ^ 2 –
сумм ( i=1 – n ) f i j * f j k - для расчёта относительного значения
этого показателя. f i j , k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1. Если f ( j ; k ) = 0, то термины совсем не
ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.
6. Использование частотных мер в
индексировании.
Частотный
метод – по каждому термину, входящему в документ подсчитывается частота
вхождения терминов в документ fik, i – номер документа, k – термин. Эта частота абсолютная. Затем документы упорядочиваются
в соответствии с возрастанием или убыванием частоты.
Если
термин имеет большую частоту, то это, скорее всего общеупотребительный термин,
не раскрывающий конкретную предметную область (будет много документов).
Если
термин имеет малую частоту, то он существенно отражает содержание, даже если
его включить в дескрипторы (ключевые слова), то он , скорее всего будет
использоваться в холостую. Поэтому эти 2 простейших документа исключают из
списка.
Терминам
с большей частотой присваивают меньший вес, с меньшей частотой – больший вес.
Получаются
из цепочечных файлов, когда в справочник включаются адресные ссылки на все
тексты, имеющие соответствующий ключ в качестве индексационного термина.
Недостаток:
переменное число адресов в справочнике.
Достоинство:
быстрый поиск релевантных документов, так как их адреса находятся сразу в
справочнике, обработку которого можно организовать в оперативной памяти.
Весь
массив документов разбивается на группы файлов, ключевые термины которых связаны
некоторым математическим соотношением. Тогда поиск в справочнике заменяется
вычислительной процедурой, которая называется хешированием, рандомизацией или
перемешиванием. Здесь нет справочника, а существует вычислительная процедура,
т.е. блок, называемый блоком рандомизации, который по ключу (поисковому
термину) на основании вычислительной процедуры определяет адрес, по которому
находится текст.
Ключ
адрес этот участок
{ключ}
памяти
называется
бакетом
В
этой области памяти находится несколько текстов, каждый из которых характеризуется
по своему в векторе документов. Т.е. адрес получается по вычислительной
процедуре.
Из-за
отсутствия справочника экономится память.
Сложность
при выборе метода хеширования;
Применяется
для коротких векторов запросов, когда в поиске участвует немного слов;
Изменения
векторов документов порождает сложность в ведении файлов.
Документы
разбиваются на родственные группы, которые называют кластерами или классами.
Каждый класс описывается центроидом (профилем) и вектор запроса прежде всего
сравнивается с центроидами класса.
Возможен
быстрый поиск, т.к. число классов, как правило, невелико;
Возможно
интерактивное сужение (расширение) поиска за счёт исключения или добавления
дополнительных кластеров.
Необходимость
введения файла центроидов;
Дополнительный
расход памяти для файла центроидов или профилей.
Множество
терминов составляющих векторов кластера называются центроидом или
репрезентативным кластерным профилем. Т.о. каждый кластер характеризуется
центроидным вектором, который представляет собой множество пар: {(t i k
, w i k )}, где t i k – множество
терминов описывающих i-й кластер, w i k – множество
весов.
Вес
– число, определяющее значимость данного термина для раскрытия содержимого
документа.
7. Расчет соотношения “сигнал-шум” при
индексировании.
Использование
соотношения “ сигнал – шум “. Здесь исключается ещё одна частота: суммарная или
общая частота появления термина k в наборе из n документов и рассчитывается:
N k = сумма(i=1 – n) f i k
/ F k * log (F k / f i k )
Шум
является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда
термин имеет неравномерное распределение, например, когда он встречается только
в одном документе, с частотой F k ,
тогда:
N k =
сумма (i=1 – n) f i k / F k * log F k / f i k = 0, в этом случае сигнал имеет
максимальное значение:
С
учётом этих параметров, для определения веса используется отношение сигнала к
шуму k –го термина: S k / N k . Чем больше это отношение, тем больший
вес назначается. Строится однозначная таблица.
8.Использование распределения частоты
термина при индексировании.
Использование
распределения частоты термина (уклонения).
f k –
средняя частота термина k в наборе из n документов.
Для
оценки веса термина используется не уклонение, а формула F k * U/ f k
Чем
больше это отношение, тем больший вес назначается термину.
9.Использование при индексировании
параметров, основанных на способности термина различать документы набора.
Исходные
данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( D i , D j ) }. Эти коэффициенты подобия
рассчитываются на основании векторов документов. Способ расчета разный, а
принцип: S ( D i , D j ) = 1, если вектора идентичны.
S ( D i , D j ) = 0 , если в векторах нет ни одного
общего документа.
По
S рассчитывают средний коэффициент
подобия: S = C * сумм (i= 1 – n) S ( D i , D j ), С – коэффициент усреднения, может быть
любым, в частности C = 1 / n.
Далее
из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия,
но с удалённым k –м термином: S k ( т.е. в векторах документа не участвуют
веса k –го термина). Если S k возрастает
относительно S, то термину k присваивается положительный вес. Чем больше эта разница, тем
больший вес присваивается термину k. Если S k уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему
присваивается отрицательный вес.
10.Динамическая информативность как метод
индексирования.
Всем
терминам первоначально присваиваются одинаковый вес, затем пользователь
формирует запрос, и выдаются документы и пользователь определяет релевантность,
система сама уменьшает или увеличивает вес документа, в соответствии с
потребностями пользователя, т.е. предусматривается некоторая программа обучения
системы.
5
Назначение и основные методы индексации.
Задача
создания вектора документа называется индексированием.
Методы
автоматического индексирования. Задачи этих методов – построить векторы
документов {(t i k , w i k )}. Исходные данные – массив документов.
Нужно выделить те термины, которые раскрывают текст документа t i k и присвоить вес w i k .
1.
Частотный метод – по каждому термину, входящему в документ подсчитывается
частота вхождения терминов в документ fik, i – номер документа, k – термин. Эта частота абсолютная. Затем документы упорядочиваются
в соответствии с возрастанием или убыванием частоты.
Если
термин имеет большую частоту, то это, скорее всего общеупотребительный термин,
не раскрывающий конкретную предметную область (будет много документов).
Если
термин имеет малую частоту, то он существенно отражает содержание, даже если
его включить в дескрипторы (ключевые слова), то он , скорее всего будет
использоваться в холостую. Поэтому эти 2 простейших документа исключают из
списка.
Терминам
с большей частотой присваивают меньший вес, с меньшей частотой – больший вес.
2.
Использование соотношения “ сигнал – шум “. Здесь исключается ещё одна частота:
суммарная или общая частота появления термина k в наборе из n документов и
рассчитывается:
N k = сумма(i=1 – n) f i k
/ F k * log (F k / f i k )
Шум
является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда
термин имеет неравномерное распределение, например, когда он встречается только
в одном документе, с частотой F k ,
тогда:
N k =
сумма (i=1 – n) f i k / F k * log F k / f i k = 0, в этом случае сигнал имеет
максимальное значение:
С
учётом этих параметров, для определения веса используется отношение сигнала к
шуму k –го термина:
S k / N k . Чем больше это отношение, тем больший
вес
Назначается.
Строится однозначная таблица.
1.Использование
распределения частоты термина (уклонения).
F k –
средняя частота термина k в наборе из n документов.
Для
оценки веса термина используется не уклонение, а формула F k * U/ f k
Чем
больше это отношение, тем больший вес назначается термину.
2.Параметры,
основанные на способности термина различать документы набора. Исходные данные –
набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( D i , D j ) }. Эти коэффициенты подобия
рассчитываются на основании векторов документов. Способ расчета разный, а
принцип: S ( D i , D j ) = 1, если вектора идентичны.
S ( D i , D j ) = 0 , если в векторах нет ни одного
общего документа.
По
S рассчитывают средний коэффициент подобия:S = C * сумм (i= 1 – n) S ( D i , D j ), С – коэффициент усреднения, может быть
любым, в частности C = 1 / n.
Далее
из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия,
но с удалённым k –м термином: S k ( т.е. в векторах документа не участвуют
веса k –го термина). Если S k возрастает
относительно S, то термину k присваивается положительный вес. Чем больше эта разница, тем
больший вес присваивается
11.Методы индексирования, основанные на
положении термина в тексте.
1.В
индексационные термины включаются те, которые встречаются в названиях
документов, названиях глав, разделов и т.д.
2.Составляются
списки значимых для некоторой предметной области слов. Т.е. составляется
глоссарий по некоторой предметной области.
3.Методы
увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных
документов из массива. В этом случае необходимо к используемым индексационным
терминам добавить дополнительные, чтобы расширить область поиска.
1)1-й
подход к решению этой задачи: использование терминов заместителей из словаря
синонимов, который называют тезариусом, в котором термины сгруппированы в
классы.
2)Метод
ассоциативного индексирования. Основан на использовании матрицы ассоциируемости
терминов, которая задаёт для каждой пары терминов показатель ассоциируемости.
Абсолютная запись этого ПА между терминами j и k:
f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k / (сумм ( i=1 – n ) f i j ^ 2+ сумм ( i=1 – n ) f j k ^ 2 -
сумм ( i=1 – n ) f i j * f j k - для расчёта относительного значения
этого показателя. f i j , k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1. Если f ( j ; k ) = 0, то термины совсем не
ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.
12.Постановка задачи увеличения полноты
при поиске в текстовой базе данных и основные методы ее решения.
Методы
увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных
документов из массива. В этом случае необходимо к используемым индексационным
терминам добавить дополнительные, чтобы расширить область поиска.
1)1-й
подход к решению этой задачи: использование терминов заместителей из словаря
синонимов, который называют тезариусом, в котором термины сгруппированы в
классы.
2)Метод
ассоциативного индексирования. Основан на использовании матрицы ассоциируемости
терминов, которая задаёт для каждой пары терминов показатель ассоциируемости.
Абсолютная запись этого ПА между терминами j и k:
f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k / (сумм ( i=1 – n ) f i j ^ 2+ сумм ( i=1 – n ) f j k ^ 2 –
сумм ( i=1 – n ) f i j * f j k - для расчёта относительного значения
этого показателя. f i j , k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.
Если
f ( j ; k ) = 0, то термины совсем не ассоциируются,
если f ( j ; k ) = 1, то полностью ассоциируемы.
Второй
способ: используются матрицы для расширения поиска: вводится некоторое
пороговое значение коэффициента ассоциируемости (СКА), выше которого
коэффициенты приравниваются к единице, а ниже к 0.
13.Метод ассоциативного индексирования в
задаче увеличения полноты поиска.
Основан
на использовании матрицы ассоциируемости терминов, которая задаёт для каждой
пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между
терминами j и k:
f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f i j * f j k / (сумм ( i=1 – n ) f i j ^ 2+ сумм ( i=1 – n ) f j k ^ 2 -
сумм ( i=1 – n ) f i j * f j k - для расчёта относительного значения
этого показателя. f i j , k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.
Если
f ( j ; k ) = 0, то термины совсем не
ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.
Второй
способ: используются матрицы для расширения поиска: вводится некоторое
пороговое значение коэффициента ассоциируемости (СКА), выше которого
коэффициенты приравниваются к единице, а ниже к 0.
14.Метод вероятностного индексирования в
задаче увеличения полноты поиска.
Суть:
наличие в документе некоторых терминов Т 1 , Т 2 , …, Т i
позволяет с некоторой вероятностью Р отнести эти документы к классу документов
Ск и присвоить вектору документов идентификатор этого класса, т.е.
дополнительный термин. Причём указанная вероятность Р для этого “приписывания”
должна быть больше некоторого порогового значения.
Вероятность
Р записывается: Р(Т 1 , Т 2 , …, Тi , С к ) – вероятность того, что при наличии терминов Тi, документ будет принадлежать классу С к . Р(Т 1 ,
Т 2 , Т i , С к ) = а * р(С к ) * р(Т 1 ,
С к ) * (Т 2 , С к ) * … * (Т i , С к )
Коэффициент
а подбирается таким образом, чтобы выполнялось условие: сумма(к=1, m) Р(Т 1 , Т 2 , …, Т i , С к ) = 1 – т.е. чтобы
выполнялась полная группа событий. Документ, содержащий термин Т 1 , Т 2 ,
…, Т i обязательно должен принадлежать одному из классов С к .
m – число
классов документов нашего массива.
Р(С к )
– вероятность класса С к . Эта вероятность рассчитывается как частота,
в числителе – число документов, находящихся в классе С к , в
знаменателе – общее число документов во всех m классах.
Р(Т j , С к ) – дробь, в числителе –
общее число появления термина Т j в
документах класса С к , в знаменателе – общее число появления всех
терминов в документах класса С к .
15.Постановка задачи улучшения точности
поиска в текстовой базе данных и основные методы ее решения.
Задача
- как можно точнее получать нужные документы.
а).
Использование наиболее узких терминов.
б).
Использование словосочетаний для индексирования документов. Для определения
словосочетаний используются статистический и лингвистический подходы.
В
соответствии со СП словосочетание – такая комбинация терминов, частота
совместного появления которых в массивах документов велика относительно частот
появления отдельных терминов этого словосочетания. Связность терминов
определяется коэффициентом связности:
С ik = F kj / ( F k * F j ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).
F k , F j – частные частоты терминов k и j. Вопрос
15(окончание).
F kj –
частота совместного появления терминов.
После
расчёта этих значений и коэффициента связности (КС) в словосочетании отбирают
такие термины, для которых С jк и F kj больше порогового
значения, которое устанавливается эмпирически. Пороговые значения: С jк
>= 20 и F kj >= 3.
Если
эти характеристики для термов, включённых в словосочетание поддерживаются, то
получаются хорошие выборки.
не
учитывается порядок слов в словосочетаниях;
метод
позволяет считать идентичными даже словосочетания с одинаковым порядком
следования термина.
Лингвистические
методы – используют упрощённые синтаксические разборы предложений, причём, как
правило, предложений из заголовков текстов.
Образуются
предводительные словосочетания путём проставления скобок перед предлогами,
числительными, неопределёнными местоимениями и т.д.
Устанавливаются
связи справа и/или слева от слов, выделенных в первом пункте между различными
структурами.
Из
структуры исключаются количественные числительные, вспомогательные глаголы,
местоимения и т.д. Остаются лишь индексационные словосочетания. В результате
должны остаться связи или комбинации вида: сущ. – сущ. (прил.
- прил.).
Пример: (Some investigations)(in
computer science)(which can lead)(to the creation)(of artificial intelligence).
В результате имеем:
Computer science - >investigations -> artificial
intelligence -> creation.
16.Статистический метод образования
словосочетаний в задаче улучшения точности поиска в текстовой базе данных.
В
соответствии со СП словосочетание – такая комбинация терминов, частота
совместного появления которых в массивах документов велика относительно частот
появления отдельных терминов этого словосочетания. Связность терминов
определяется коэффициентом связности:
С ik = F kj / ( F k * F j ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).
F k , F j – частные частоты терминов k и j.
F kj –
частота совместного появления терминов.
После
расчёта этих значений и коэффициента связности (КС) в словосочетании отбирают
такие термины, для которых С jк и F kj больше порогового
значения, которое устанавливается эмпирически. Пороговые значения: С jк
>= 20 и F kj >= 3.
Если
эти характеристики для термов, включённых в словосочетание поддерживаются, то
получаются хорошие выборки.
не
учитывается порядок слов в словосочетаниях;
метод
позволяет считать идентичными даже словосочетания с одинаковым порядком
следования термина.
17.Лингвистический метод образования
словосочетаний в задаче улучшения точности поиска в текстовой базе данных.
Лингвистические
методы – используют упрощённые синтаксические разборы предложений, причём, как
правило, предложений из заголовков текстов.
Образуются
предварительные словосочетания путём проставления скобок перед предлогами,
числительными, неопределёнными местоимениями и т.д.
Устанавливаются
связи справа и/или слева от слов, выделенных в первом пункте между различными
структурами.
Из
структуры исключаются количественные числительные, вспомогательные глаголы,
местоимения и т.д. Остаются лишь индексационные словосочетания. В результате
должны остаться связи или комбинации вида: сущ. – сущ. (прил.
- прил.).
Пример: (Some investigations)(in
computer science)(which can lead)(to the creation)(of artificial intelligence).
В результате имеем:
Computer science - >investigations -> artificial
intelligence -> creation.
18.Задача автоматического реферирования
текстов и методы ее решения.
Задача
создания рефератов – задача выявления списка документов и краткое его
представление.
готовые
вектора документов (т.е. уже должна быть решена задача создания векторов {t i k , w i k }).
Расчётный
– определяются веса словосочетаний, содержащих 2 значимых термина из вектора
документа.
w = 1 / 2 t * w i 1 * w i 2 – вес словосочетания из 2-х терминов .
w i 1 и w i 2 -
веса 1-го и 2-го термина из вектора.
t – количество
слов в тексте между терминами t i 1 и t i 2 ,
которые не являются значимыми.
Далее
по тексту определяется значимое предложение. Это такое предложение, которое
содержит большое число значимых групп. После расчёта значимости предложений,
они упорядочиваются и для реферирования выбираются наиболее значимые. Далее
наиболее значимые предложения упорядочиваются так, как они шли в тексте, чтобы
не потерять логику.
Позиционный
метод. Включает в себя следующие не альтернативные шаги:
Наиболее
значимые предложения, которые либо начинают, либо заканчивают абзац или раздел.
Исключаются
вопросительные предложения, несмотря на их положение в абзаце.
К
значимым относятся предложения, содержащие слова – подсказки. Например: “
данная (слово-подсказка) работа выполнена по такому – то плану и т.д.”
Из
значимых исключаются те предложения, в которых есть ссылки на рисунки, таблицы,
цитаты и т.д.
К
самой БД добавляется справочник, который имеет следующую структуру:
Ключ
– значимое слово, характеризующее тот или иной документ. Рядом пишется адресная
ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого
термина. И к этой подстроке добавляются собственно текстовые файлы.
Цепочечная
модель: сколько индексных терминов в тексте выделено столько и должно быть
ссылок.
Максимальная
длина поиска определяется самой длинной цепочкой;
Новые
записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.
Цепи
могут быть длинными, если некоторые ключи используются довольно часто;
Необходимость
выделения памяти для хранения адресных ссылок в самих текстах;
Если
справочник очень велик, он значительно усложняет работу с текстами и требует
организации дополнительного доступа к себе самому.
20.Инвертированные текстовые файлы.
Получаются
из цепочечных файлов, когда в справочник включаются адресные ссылки на все
тексты, имеющие соответствующий ключ в качестве индексационного термина.
Недостаток:
переменное число адресов в справочнике.
Достоинство:
быстрый поиск релевантных документов, так как их адреса находятся сразу в
справочнике, обработку которого можно организовать в оперативной памяти.
21.Рассредоточенные текстовые файлы.
Весь
массив документов разбивается на группы файлов, ключевые термины которых
связаны некоторым математическим соотношением. Тогда поиск в справочнике
заменяется вычислительной процедурой, которая называется хешированием,
рандомизацией или перемешиванием.
Здесь
нет справочника, а существует вычислительная процедура, т.е. блок, называемый
блоком рандомизации, который по ключу (поисковому термину) на основании
вычислительной процедуры определяет адрес, по которому находится текст.
Ключ
адрес этот участок
{ключ}
памяти
называется
бакетом
В
этой области памяти находится несколько текстов, каждый из которых
характеризуется по своему в векторе документов. Т.е. адрес получается по
вычислительной процедуре.
Из-за
отсутствия справочника экономится память.
Сложность
при выборе метода хеширования;
Применяется
для коротких векторов запросов, когда в поиске участвует немного слов;
Изменения
векторов документов порождает сложность в ведении файлов.
В
начале строятся один или несколько очень больших кластеров, которые затем
разбиваются на более мелкие.
В
качестве центров классов используются случайные документы;
Классом
с именем i можно считать множество документов, в
векторах которых находится термин i;
В
качестве исходных классов принимаются все документы, признанные релевантными
некоторому запросу по результатам предыдущих поисковых операций.
Вычисляется
КП между каждым документом и каждым центроидом кластера;
Кластеры
переопределяются путём отнесения документов к тем из них, по отношению к
которым, они имеют наибольшее подобие;
Формируются
центроиды новых кластеров.
Эти
3 шага выполняются до тех пор, пока:
Чтобы
процесс не был бесконечным, он выполняется в заданное число итераций.
Документы
рассматриваются в произвольном порядке и каждый документ либо относится к
существующему классу, если КП достаточен, либо образует новый кластер.
“+”:
каждый документ обрабатывается только 1 раз, => требует мало времени.
“-”:
состав и структура классов существенно зависит от порядка рассмотрения
документов.
Клика
– такой вид кластера, в котором каждый документ подобен любому другому
документу. Клика формируется тогда, когда возникает полный граф, т.е. полное
соотношение подобия между всеми элементами.
Исходными
данными для метода является матрица подобия документа массива, которая
заполняется коэффициентами подобия всех пар документов.
Матрица:
S(Di , Dj) – диагональная квадратная и
симметричная.
Коэффициент
подобия документов определяется:
r – отношение; N – мощность множества документов.
r k = w i / w j в противном случае
Чтобы
задача решалась адекватно, вектора (*) должны быть упорядочены по терминам,
т.е. одни и те же термины должны быть записаны в одних и тех же позициях этих
векторов. Исходная матрица, которая получена в результате расчётов,
преобразуе
Похожие работы на - Вопросы по информатике Ответы на вопросы. Информатика, ВТ, телекоммуникации.
Реферат по теме Концепція мультиплікатора
Теоретические Подходы К Исследованию Характера Эссе
Реферат: Colombia Essay Research Paper Executive SummaryA pressing
Реферат по теме Обслуговування обладнання
Информация И Ее Свойства Реферат
Реферат Изготовление Моделей
Реферат по теме Тепловые насосы
Школы В России Сочинение На Английском
Курсовая работа по теме Внешняя политика Ивана Грозного
Отчет по практике по теме Ознакомление с правилами ведения безналичных расчётов на примере Тамбовского филиала ОАО 'Россельхозбанк'
Spotlight 9 Контрольные Работы Модуль
Курсовая работа по теме Содержание и методика сенсорного воспитания дошкольника
Реферат По Истории Ярослав Мудрый
Эссе На Тему Каникулы
Требования К Написанию Реферата В Школе
Дипломная работа по теме Cистема автоматичного регулювання температури в зоні випалювання тунельної печі
Реферат: Экспортный и транзитный потенциал Украины
Курсовая работа по теме Саморегуляція фізичного і психічного стану вчителя
Отчет по практике по теме Техника производства алюминия
Дневник По Производственной Практики Агронома
Реферат: Баннерная реклама 2
Реферат: Захват Чехословакии и обострение военно-политической обстановки в Европе
Реферат: Big Brothers Essay Research Paper In 1903