Концепции информационного поиска - Программирование, компьютеры и кибернетика отчет по практике
Исследование основных концепций информационного поиска: булева и векторная модели, индексные термины. Реализация векторной модели в среде Matlab, расчет ранжированных списков документов, реализация оценок качества поиска и листинг программы в Matlab.
посмотреть текст работы
скачать работу можно здесь
полная информация о работе
весь список подобных работ
Нужна помощь с учёбой? Наши эксперты готовы помочь!
Нажимая на кнопку, вы соглашаетесь с
политикой обработки персональных данных
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Исследование основных концепций информационного поиска
Исследование моделей поиска информации
Определение веса индексных терминов
Исследование методов оценки качества поиска
Оценка неранжированных наборов результата поиска
Реализация векторной модели в среде Matlab
Расчет ранжированных списков документов
Реализация оценок качества поиска в среде Matlab
Расчет точности, полноты и F-меры в зависимости от числа найденных документов
Расчет интерполированной средней точности, ROC-кривой и зависимости точности от полноты
Функция для расчета значений кривой точности в заданных точках
Расчет среднего значения средней точности
Цели прохождения производственной практики:
-изучение основных концепций информационного поиска;
-рассмотрение базовых моделей поиска информации;
-рассмотрение методов оценки качества поиска информации;
-приобретение практических навыков по реализации изученных моделей и методов в среде Matlab.
· Осуществляется ранжирование по релевантности.
· Не ясна «степень релевантности», которой доволен пользователь. Для системы может быть неизвестно что является для пользователя более важным - точность или полнота.
· Ранжирование позволяет пользователю начинать с начала ранжированного списка и исследовать его, пока он не удовлетворит свои потребности.
Модель поиска информации может быть определена как:
D - набор логических представлений для документов в коллекции.
Q - набор логических представлений для нужд пользователя (запросов).
- функция ранжирования, связывающая действительное число с представлением документа d j для запроса q i . Такой рейтинг определяет порядок документов по отношению к запросу q i .
· Субъективна: два пользователя могут иметь одни и те же информационные потребности, но по-разному оценивать одни и те же найденные документы.
· Динамична в пространстве и времени. Найденные и отображенные пользователю документы могут повлиять на его оценку документов, которые будут показаны позднее. В зависимости от своего состояния пользователь может по-разному оценивать один и тот же документ для одного и того же запроса.
· Многогранна: релевантность документа определяется не только темой, но и авторитетностью, специфичностью, полнотой, новизной, ясностью и т.п.
· Неизвестна системе до оценки пользователя. Система угадывает релевантность документов по отношению к данному запросу с помощью расчета , которая зависит от принятой IRM (например, булева, вероятностная, векторная).
· Логические выражения имеют точную семантику.
· Используются структурированные запросы.
· Для опытных пользователей она интуитивна.
· Простой и аккуратный формализм позволял принять ее во многих ранних коммерческих библиографических системах.
· Не осуществляется ранжирование. Стратегия поиска основана на двоичном критерии решения, т.е. документ предполагается либо релевантным, либо нерелевантным.
· Не просто перевести информационное требование в логическое выражение.
Рисунок 1. Векторное пространство, образованное тремя терминами.
Документы, близкие друг к другу в векторном пространстве, похожи друг на друга. Запрос так же представляется в виде вектора:
Модель векторного пространства вычисляет сходство SC(q, d j ) между запросом и каждым документом и составляет ранжированный список документов. Она принимает во внимание документы, которые соответствуют условиям запроса лишь частично. Ранжированный набор найденных документов более эффективен (лучше соответствует информационной потребности пользователя), чем набор документов, найденных булевой моделью. Существуют различные меры, которые могут быть использованы для оценки сходства документов.
· Если d 1 рядом с d 2 , то d 2 рядом с d 1 .
· Если d 1 рядом с d 2 , а d 2 рядом с d 3 , то d 1 находится недалеко от d 3 .
· Не существует документов ближе к d, чем сам d.
Евклидова дистанция - это длина разностного вектора:
Она может быть преобразована в коэффициент подобия различными способами:
Нужно также решить вопрос нормализации, так как евклидова дистанция, примененная к ненормированным векторам, как правило, делает любой большой документ нерелевантным для большинства запросов, так как запросы обычно имеют короткую длину.
Длинные документы будут похожи друг на друга из-за длины, а не из-за темы.
Косинусное подобие - это косинус угла между двумя векторами. Оно показывает сходство, а не дистанцию (см. рис.1). Для косинусного подобия не выполняется неравенство треугольника.
Косинусная мера нормализует результаты с учетом длины вектора документа. Для двух векторов сходство определяется их направлениями. Для нормализованных векторов косинусное подобие равно их скалярному произведению.
Меры подобия определяются для двух произвольных множеств A и B:
Они могут быть расширены для недвоичных векторов.
· Схема, определяющая веса терминов, повышает производительность поиска по отношению к булевой модели.
· Стратегия частичного соответствия позволяет находить документы, частично удовлетворяющие условиям запроса.
· Ранжированные результаты поиска и контроль их величины.
· Гибкость и интуитивная геометрическая интерпретация.
· Предположение о независимости между терминами.
· Невозможность использования структурированных запросов (нет операторов OR, AND, NOT).
· Термины являются осями (даже с использованием стемминга может получиться более 20000 измерений).
· Дизайна макета интерфейса пользователя.
o Веб-движок: пользователь находит то, что хочет, и возвращается к движку.
o Сайт продажи онлайн: пользователь находит то, что хочет, и делает покупку.
o Сайты предприятий, компаний, государства, образования: забота о “производительности пользователя” (как много времени он сохраняет, когда ищет информацию).
Качество системы зависит от скорости индексации, скорости поиска, величины коллекции документов, используемого языка запросов, скорости при использовании сложных запросов. Чтобы измерить эффективность информационного поиска, нам необходимы:
· тестовая коллекция документов (должна иметь разумный размер). Необходимо усреднять производительность, так как результаты сильно отличаются в зависимости от различных документов и информационных потребностей.
· тестовый набор информационных потребностей, выраженный через запросы,
· набор оценок релевантности, обычно это двоичное обозначение для каждой пары запрос-документ, показывающее релевантен ли результат.
Релевантность оценивается по отношению к информационной потребности, а не к запросу. Документ является релевантным, если он относится к указанной информационной потребности, а не просто содержит все слова из запроса.
Таблица 1. Обозначения множеств в коллекции обрабатываемых документов.
Рисунок 2. Графическое представление обрабатываемой коллекции документов.
Точность - доля правильных классификаций.
Точность не подходит для использования в контексте ИП. Во многих случаях данные крайне искажены, например, 99,9% документов являются нерелевантными. В этом случае система, настроенная на максимизацию точности будет почти всегда объявлять каждый документ нерелевантным.
Можно получать высокую полноту (но низкую точность), извлекая все документы для всех запросов. Полнота является неубывающей функцией от количества найденных документов. Точность обычно падает (в хороших системах). Точность может быть вычислена на разных уровнях полноты. Пользователи, ориентированные на высокую точность - веб-серферы, на высокую полноту - профессиональные исследователи, юристы, аналитики.
F-мера является комбинированной мерой, оценивающей компромисс между точностью и полнотой (взвешенное среднее гармоническое):
При значении в<1 акцент делается на точности, при в>1 - на полноте.
Обычно используется сбалансированная F-мера, т.е. в=1 или б=Ѕ
Когда значения двух чисел отличаются, среднее гармоническое ближе к их минимуму, чем среднее арифметическое или геометрическое. Например, если 1 из 10000 документов релевантен, мы можем получать 100% полноты, извлекая все документы. Среднее арифметическое будет 50%, а гармоническое - 0,02%.
Полнота, точность и F-мера являются мерами, основанными на множествах (например, неупорядоченный набор документов). В ранжированных поисковых системах значения P и R связаны с позицией в рейтинге. Оценка производится путем вычисления точности, как функции от полноты. Если (k+1)-ый найденный документ релевантен, то R(k+1) > R(k), а P(k+1) > P(k). Если (k+1)-ый найденный документ нерелевантен, то R(k+1) = R(k), но P(k+1) < P(k). Чтобы удалить колебания, используется интерполированная точность.
Рисунок 3. Пример графика зависимости точности от полноты. Красным цветом обозначен график интерполированной точности.
Одиннадцатиточечная интерполированная средняя точность (11-point interpolated average precision). Измеряется точность на 11 уровнях полноты {0.0, 0.1, 0.2,…,1.0}, затем рассчитывается среднее арифметическое уровня точности.
Чтобы найти среднее значение средней точности (mean average precision (MAP)), вычисляется средняя точность (AP) для каждого информационного запроса. Затем значение средней точности получается для набора из первых k документов, имеющихся после каждого нахождения релевантного документа. MAP = среднее значение AP множества информационных потребностей.
- ранжированный набор первых k найденных результатов.
Для одной информационной потребности AP связана с площадью под неинтерполированной кривой точности/полноты. Пример:
Расчет точности для k. Фиксируется k - количество извлекаемых результатов, например k=10. Вычисляется точность для первых k объектов. Достоинство: не требуется множества релевантных документов (полезно для веб-поиска). Недостаток: общее количество релевантных документов сильно влияет на точность для k. Например, если количество релевантных документов равно 8, то точность для 20 будет не более 0,4.
R-точность. Для известного релевантного множества размера Rel вычисляется количество релевантных документов r среди первых Rel результатов поиска. Достоинство: идеальная система достигает R-точность = 1,0. Недостаток: рассматривается только одна точка на кривой точность/полнота.
Операционная характеристика приемника (receiver operating characteristic). ROC-кривая отображает график зависимости доли верно положительных классификаций (чувствительности) от доли ложно положительных классификаций (1 - специфичность).
Доля TP = чувствительность = полнота = TP / (TP + FN)
Доля FP = 1 - специфичность = FP / (FP + TN)
Рисунок 4. Пример графика ROC-кривой.
· answer_euc - ранжированный список при использовании евклидовой меры;
· answer_cos - ранжированный список при использовании косинусной меры.
-relevance - массив, указывающий релевантность каждого документа запросу;
· precision - массив точности для фиксированного числа первых документов;
· recall - массив полноты для фиксированного числа первых документов;
· f_measure_A - F-мера для первых 20 документов;
· f_measure_B - F-мера для первых 50 документов.
relevance - массив, указывающий релевантнос-ть каждого документа запросу;
· precision - массив точности для фиксированного числа первых документов;
· recall - массив полноты для фиксированного числа первых документов;
· precisionI - интерполированная точность;
· IAP_11 - 11 точек интерполированной средней точности;
· fp_rate - доля неверно положительных;
· tp_rate - доля верно положительных.
-Q списков ранжированных документов для (по одному для запроса);
-relevance - Q-мерный массив, указывающий релевантность каждого документа запросу;
· precision - массив точности для фиксированного числа первых документов;
· AP - массив средних точностей для запросов;
· MAP - среднее значение средней точности.
-изучены основные концепции информационного поиска;
-рассмотрены базовые модели поиска информации, выделены их основные преимущества и недостатки, соответственно которым можно определить для решения каких задач обработки данных наиболее выгодно использовать ту или иную вычислительную модель;
-рассмотрены методы оценки качества поиска информации, показаны основные случаи их применения;
-приобретены практические навыки по реализации изученных моделей и методов в среде Matlab.
· R. Baeza-Yates, B. Ribeiro-Nieto, “Modern Information Retrieval”, 1999
· C.D. Manning, P. Raghavan and H. Schьtze, “Introduction to Information Retrieval”, Cambridge University Press. 2008
Исследование основных концепций информационного поиска: булева и векторная модели, меры подобия и определение веса индексных терминов. Оценка неранжированных наборов результата поиска. Реализация векторной модели в среде Matlab, листинг программы. реферат [717,1 K], добавлен 15.07.2012
Реализация комплекса программ поиска подстроки в тексте алгоритмом прямого поиска и алгоритмом Кнута-Морриса-Пратта. Сравнительный анализ теоретических и экспериментальных оценок эффективности алгоритмов. Разработка структуры программы, ее листинг. курсовая работа [2,8 M], добавлен 22.01.2015
Проект экспериментального программного комплекса индексирования и поиска неструктурированной текстовой информации в многоязычной среде, состоящего из математических моделей, алгоритмов и программных средств. Исследование характеристик его эффективности. автореферат [296,5 K], добавлен 31.01.2012
Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов. дипломная работа [1,1 M], добавлен 21.09.2016
Удовлетворение информационной потребности как цель поиска информации. Виды информационных ресурсов. Понятие документа в информационном поиске. Схема информационного поиска, этапы его представления. Характеристика качества поиска, его базовые положения. презентация [1,2 M], добавлен 06.01.2014
Математическое моделирование. Изучение приёмов численного и символьного интегрирования на базе математического пакета прикладных программ, а также реализация математической модели, основанной на методе интегрирования. Интегрирование функций MATLAB. курсовая работа [889,3 K], добавлен 27.09.2008
Сравнительный анализ Matlab и Mathcad при моделировании динамических систем. Подсистема Simulink пакета MATLAB. Расчёт базовой модели и проведения исследований. Описание математической модели. Векторные и матричные операторы. Нижние и верхние индексы. курсовая работа [338,5 K], добавлен 06.02.2014
Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д. PPT, PPTX и PDF-файлы представлены только в архивах. Рекомендуем скачать работу .
© 2000 — 2021
Концепции информационного поиска отчет по практике. Программирование, компьютеры и кибернетика.
Конкурс Эссе Для Школьников
Сочинение На Лингвистическую Тему 9 Класс Презентация
Ломоносов Сочинение На Английском
Курсовая Работа По Экономике Цех
Общие Положения Договора Реферат
Кодификатор Итогового Сочинения 2022
Реферат: Сущность, характеристики и виды логистических систем
Реферат: Лекции по культурологии
Полупроводниковые диоды
Табачная Зависимость Реферат
Сочинение Важный Человек В Жизни
Курсовая работа по теме Отравления сельскохозяйственных животных якорцами стелющимися
Реферат: Основные концепции конфликта в социологии
Контрольная работа: Биржевая торговля. Хеджирование
Отчет По Практике На Тему Дп "Борщівський Спиртзавод"
Реферат: Financing Transport Projects Essay Research Paper Sam
Русский Сочинение 2022 Сколько Слов
Реферат На Тему Кредитування Підприємств Міжнародними Фінансово-Кредитними Інститутами
Реферат На Тему Бактерии 6 Класс
Интересные Рефераты По Математике
Контроль как функция управления - Менеджмент и трудовые отношения курсовая работа
Учет капитальных затрат, внеоборотных активов, финансовых вложений - Бухгалтерский учет и аудит презентация
Изменение восприятия в процессе обучения - Педагогика реферат