Ефективність методів семантичної мережі для виявлення плагіату речень - Программирование, компьютеры и кибернетика дипломная работа

Ефективність методів семантичної мережі для виявлення плагіату речень - Программирование, компьютеры и кибернетика дипломная работа




































Главная

Программирование, компьютеры и кибернетика
Ефективність методів семантичної мережі для виявлення плагіату речень

Сутність поняття "плагіат документів" та методи виявлення плагіату. Попередня обробка документу - токенізація, видалення стоп-слів та коренів. Семантичне та синтаксичне представлення документів. Алгоритм апроксимованої подібності, побудова N-грам.


посмотреть текст работы


скачать работу можно здесь


полная информация о работе


весь список подобных работ


Нужна помощь с учёбой? Наши эксперты готовы помочь!
Нажимая на кнопку, вы соглашаетесь с
политикой обработки персональных данных

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1. Дослідження стану питання дослідження плагіату
1.3.1 Виявлення на основі стилометричного аналізу
1.3.2 Виявлення плагіату на основі порівняння документів
1.4 Існуючі веб-засоби виявлення плагіату
1.7 Представлення документів та міри схожості
1.7.2.2 Схема ваговимірювання термінів
1.8 Алгоритм апроксимованої подібності
1.8.2 Алгоритми на основі інвертованого індексу
3. Побудова експериментальної моделі
3.2.2 Семантичний підхід подібності
Всесвітня Мережа Інтерет є найбільшим джерелом інформації в наш час. Люди тепер можуть легко шукати, отримувати доступ і переглядати веб-сторінки, щоб отримати необхідну їм інформацію. Можна уявити собі, як важко буде науковим дослідженням без Інтернету та веб простору. Крім того, через масштаб і цифрову структуру інтернету, тепер стало легко нелегально використовувати чужу роботу.
Проблема плагіату має прямий зв'язок з науковими колами. Маурер в [3] визначив його як "недозволене використовування чужої роботи". Найбільш найпоширенішим типом є письмовий плагіат тексту, в якому документ формується шляхом копіювання деяких або всіх частинах оригінального документу, можливо з деякими змінами.
Плагіат підрозділяється на інтро і екстра по відношенню до розташування вихідного документа [1].
Інтро відбувається, коли копія і первинний документ знаходяться в тій ж базі даних, або в колекції студентів або в цифрової бібліотеки.
Екстра відбувається, коли, копія і первинний документ не одного і того ж складу. Тут первинні документи можуть бути з підручників або найбільш часто з веб-документів. На жаль, задача розміщення первинних документів не вирішена, тому поки важко довести плагіат такого роду. Виявлення документів, з яких було зроблено копіювання, напружений і трудомісткий для людини процес з огляду на велику кількість документів, які повинні бути проаналізовані. Так як цифрова структура веб-документів робить процес плагіату досить простим, це означає, що такі випадки плагіату можливо простежити в автоматичному режимі.
Є два методи, щоб забезпечити доступ до великої кількості веб-документів. Перший метод індексування документів через веб-сканування, це має вроджені проблеми веб-документів, з якими стикаються будь-яка веб-пошукова система. Наприклад обсяг розміру, неоднорідність і дублювання [2], проте система може бути налаштована для пошукових цілей, наприклад, якщо метою є виявлення плагіату, система може бути використана для повернення найбільш синтаксично або семантично аналогічних документів на запит по документу. Інший метод є використовування джерел пошукових систем (таких як Google, Yahoo і Bing), оскільки вони надають доступ до своїх систем. Підозрюваний документ можна вважати як послідовність запитів до пошукової системи, а представлений результат потім порівнюється з вхідним документом.
Інтуїтивно потрібне розділення запитів документів на більш примітивні одиниці правдоподібних для запитів пошукової системи і для порівнювальних документів. Речення як атомарна одиниця підходить для обох випадків, так як вони містять ідеї, а також плагіат моделі (наприклад, вставки, видалення та / або заміни).
Подібність між реченнями (або в більш загальному об'єкті) може бути опрацьовані чисельно з використанням таких критеріїв подібності, як подібність Джаккарда, подібність Перекриття, Косинус подібність. Ці критерії називають симетричних функціями і широко використовуються у багатьох системах інформаційного пошуку.
Кожна міра повертає значення, що вказує ступінь подібності між парами об'єктів зазвичай між 0 і 1. Крім міри схожості, інший аспект документа (або речення) подання. Є багато представлень, які були розроблені в тому числі відбитки пальців документа [17], N-грами (послідовних слів довжини N).
Інше важливе представлення походить від семантичних мереж. Семантична мережа "є графічне позначення для представлення знання в структурі взаємопов'язаних вузлів і дуг"[50]. Поняття у семантичних мережах, як правило, організовані в ієрархічну структуру, як показано на малюнку 1.1
Малюнок 1.1 Ієрархічна семантична база знань
Зазвичай слова у верхніх шарах ієрархічних семантичних мереж більше загальні поняття і менш семантичної схожості між словами, ніж слова при більш низьких шарах [57].
У будь-якому додатку, які включають вимірювання подібностей між текстовим змістом є два важливі чинники, які впливають на точність у виявленні плагіата. Першим чинником є представлення документа, яке по суті охоплює характеристики документа, як попередній крок на етапі порівняння. Ці представлення включають модель слово у мішку, відбитки пальців, N-грами, імовірнісні моделі. Більшість з цих представлень добре працюють у виявленні дослівного (слово-в-слово) плагіату, але мають вразливості у виявленні складних моделей плагіата.
Другим фактором є подібність і міра близькості, яка використовується для розрахунку подібності або відмінності між реченнями. Враховуючи поведінку плагіаторів, що зазвичай включає вставки слів видалення та / або заміни необхідно визначати, які заходи краще для виявлення випадків плагіату.
У цій роботі досліджується ефективність методів семантичної мережі для виявлення плагіату речень і з'ясування виправданої продуктивність в порівнянні з іншими підходами. Тоді ми визначаємо яка техніка є найкращою для отримання первинних документів.
Для вирішення проблеми, описаних вище потрібне вирішення наступних задач
1. Яке N-грам представлення найкраще для винесення оцінки плагіату на основі представлення?
2. Які міри подібності є кращим для винесення оцінки плагіату?
3.Як семантична мережа може бути використана для покращення виявлення виявлення плагіату?
1. Порівняння ефективності різних N-грам з різними мірами подібності для виявлення плагіату документів.
2. З'ясувати, чи може використання семантичних мереж поліпшити виявлення плагіат документів.
Проблема виявлення плагіату документів не є новою і кілька методів було застосовано для вирішення цієї проблеми для невеликої кількості документів або електронних бібліотек, однак, масштаб проблеми збільшується різко через інтернет Інтернету.
Також широко відомо, що традиційні методи вимірювання подібності між документами є вразливими до збою в деяких складних моделей плагіату а, отже, необхідне включення семантичної основи методів для більш точного виявлення плагіату.
1 . Дослідження стану питання дослідження плагіату
плагіат апроксимований семантичний токенізація
У цьому розділі розглядаються по-перше деякі методи виявлення плагіата та дослідженні прототипи, які були покриті в літературі. Ці методи з різних таких областях, як інформаційно-пошукова (ІП), обробка природної мови (ОПМ), і інтелектуальний аналіз даних. Розбіжність цього різноманіття методів заснована на тому, що проблема плагіату письмового тексту може приймати різні форми.
Деякі терміни, буде часто використовуватися в іншій частині цієї доповіді і певні тут;
Документ: це тіло тексту, з якого можна буде вилучити структурну інформацію.
Токен: це будь-який рядок, буквено-цифровий текст, взятий з якого-небудь документу, наприклад, символів,слів, або речення.
Фрагмент: будь-який порядок токенів.
На відміну від інших типів у плагіаті (таких як музика, графіки і т.д.), плагіат документів поділяється на дві категорії: плагіат программного коду та плагіат вільного тексту.
З урахуванням обмежень і ключових слів мов програмування, виявлення плагіату програмного коду легше, ніж виявлення плагіату в вільному тексті а, отже, виявлення плагіату вихідного коду не є в центрі уваги сучасних досліджень [1].
Плагіат приймає різні форми. Маурер та ін [3] заявили, що є наступні підвиди того, що практично вважається плагіатом вільного тексту:
· Copy-Paste: або дослівно (слово в слово). Плагіат, в якому текстовий вміст копіюється з одного або декількох джерел. Скопіюваний вміст можно бути дещо змінений.
· Перефразовування: зміна граматики, використовуючи слів синонімів, зміна порядку висновків в оригінальній роботі, або ж повторювання вмісту у різних семантичних формах.
· Відсутність належного використання лапок: нездатність визначити точно частини запозиченого змісту.
· Дезінформація посилань: додавання посилання на неправильні або не існуючих джерела.
· Перекладання: також відомий як міжмовний плагіат в якому зміст перекладений і використовується без посилання на оригінальну роботи.
Наступні методи виявлення плагіату Маурера і ін. [3] в загальних рисах можна розділити на три основні категорії: перша категорія намагається виявити стиль автора тексту і знайти несумісні зміни у цьому стилі. Це відомо як стилометричний аналіз.
Друга категорія, що використовується, заснована на порівнянні кількох документів та виявляються перекривання частинами між цими документів.
Третя категорія приймає документ як вхідні дані, а потім відбувається пошук моделей плагіату через Інтернет або вручну, або в автоматичному режимі.
Малюнок 1.1 ілюструє систематику методів виявлення плагіату.
Малюнок 1.2 Систематика методів виявлення плагіату
1 .3.1 В иявлення на основі стилометричного аналізу
У деяких випадках оригінальні документи не можуть бути недоступні. Наприклад, коли хтось копіює деякі фрагменти із змісту книги, які не в цифровому форматі, або коли хтось копіює якусь роботу для студентів. У цьому випадку всі плагіаті методи виявлення, які засновані на порівнянні документи не є корисними. Ця проблема мотивованих деяких дослідників до впровадження нових методів, які не залежить від оригінальних колекцій документів.
Методи виявлення, які застосовуються до одного чи декількох документів, що належать того ж автора і без зовнішніх джерел, належать до так званих притаманних метод ів виявлення плагіату [3, 13]. Найбільш відомі методи є стилометричні.
Стилометрія є статистичний підхід для визначення авторства літератури. Цей підхід вимагає також визначена кількісної оцінки мовних особливостей, які можуть бути використані для визначення невідповідностей у документі [3]. Інтуітивно ясно, що для цього класу методів методика заснована на презумпції того, що кожен автор має свій неповторний стиль написання, коли цей стиль змінився разом з декількома послідовними висновками або пунктами, то документ вважається плагіатом [12].
Плагіат можуть бути визначений, наприклад, коли автор поперемінно використовує займенник "ми / наша". У залежності від розміру блоку і типу, велика частина стилометричних особливостей припадає на одну з наступних п'яти категорій [13]:
· статистики тексту: опрацювання на рівень символів;
· синтаксичні особливості: оцінка стилю письма на рівні речення;
· особливості частини мови: кількісне використання класів слів;
· використання однорідних слів: особливості слова;
· структурні особливості: які відображають організацію тексту.
1 .3.2 Виявлення плагіату на основі порівняння доку ментів
Основна мета будь-якої системи виявлення плагіату - виділення порушень авторських прав. Як уже згадувалося в розділі 1.2, порушення може статися, якщо фрагмент тексту будь-якого розміру та розподілу дублюється між двома або більше документів, що належать до різних авторів, у цьому випадку система синтаксично шукає будь-яке таке дублювання.
Однак, у зв'язку зі складністю природних мов, можна що б зміст був представлений в різних семантичних формах, наприклад, перефразовуючи, або ті ж слова чи фрази можуть мати різні значення в різних контекстах, у цьому разі повинні бути використані системи глибокого аналізу, наприклад, можуть бути використанні деякі методи основані на обробці природної мови. В обох випадках потрібно, щоб був сформований збірник оригінальних документів. У цьому розділі коротко розглядаються семантичнні і синтаксичні методи виявлення плагіату.
Більшість системи виявлення копії можуть порівнювати тільки синтаксично подібні слова і речення, таким чином, якщо скопійовані матеріали значно змінені то важко виявити плагіат у таких системах. Модифікації можуть становити від заміни слів їх синоніми, введення тієї ж концепції в рамках різних семантичних видах.
За допомогою тезауруса WordNet для вилучення синонімів проблема заміщення слів може бути вирішена, проте через те що значення слів неоднозначні, вибір правильного терміну часто нетривіальний [38]. Для більш складних моделей плагіату, такі як зміни структури речення, потребує більш глибокого аналізу [36,37].
Каном і ін. була введена система PPChecker [36], який обчислює кількість даних, скопійованих з оригіналу документа на запит документів, на основі мовних моделей плагіата.
Так як вони використовували речення як порівняльна одиниця між документами, вони визначили п'ять моделей:
Ці шаблони визначені на основі трьох умов рішення:
Для кожної моделі, вони визначили різні міри схожості і досягли вражаючих результатів для деяких синтаксичних систем. Тачефебібон та ін. [37] запропонували новітній метод мовного аналізу для виявлення плагіату, використовуючи синтактико-семантичний аналіз. Синтаксичний аналіз проводився за допомогою аналізатора для визначення правил граматики у текстах і визначення структури текстів. Тоді, структури текстів порівнюються за правилами граматики. Їх система, а також PPChecker використовували WordNet для вилучення синонімів.
Деякі методи використовувати статистичні дані, такі як "позиції слова в документі для оцінки їхньої подібності. Бао та ін [45] ввів метод, названий Семантична Послідовність Спорідненості (СПС), що розглядає інформацію про позицію слова таким чином, щоб виявити плагіат в більшій деталізації. Вони визначили семантичну послідовність в деякому рядку S в якості постійної послідовності слова за низької щільності, де постійної означає, що якщо два слова суміжні в S, то різниця між їхніми позиціями в S не має бути більше, ніж поріг, і щільність позначимо зворотну різницю між двома входженнями слова в S. Їх спостереження булі засновані на тому, що беручи до уваги позицію кожного слова можна ідентифікувати плагіат.
Пізніше вони ввели загальну модель семантичної послідовності [46], яка схожа на модель семантичної послідовності спорідненості, але використовує іншу формулу для обчислення подібності семантичної послідовності.
На відміну від семантичних, синтаксичні методи не враховують сенс слова, фрази або цілого речення. Таким чином, два слова "точно" і "однаково " вважаються різними. Це, звичайно, головне обмеження цих методів у виявленні деяких видів плагіату. Тим не менше вони можуть забезпечити значне прискорення посилення в порівнянні з методами на семантичній основі особливо для великих наборів даних оскільки порівняння не передбачає глибокий аналіз структури та / або семантики термінів.
Для кількісної оцінки подібності між фрагментами, як правило використовується міра схожісті. Як приклад, розглянемо наступні п'ять фрагментів, де літери представляють слова.
ABCDE A F CDE AB F CD ABC F D ABCD F
Підкреслені слова показують, що всі п'ять фрагментів місять чотири слова, що робить їх кандидатами на плагіат. Розглянемо тепер наступні функцію подібності:
Де x і y два набори слів і | x |є кількість слів у x.
Кожна пара документів в управлінні приклад j(x,y)=4 / 6, що вказує на x і y мають спільними чотири слова з п'яти. Попередня функція подібності - це схожість Джаккард. Такі методи для вимірювання подібностей між документами були отримані з інформаційного пошуку. Ці методи не дають "так" або "ні" відповідь на питання про те, чи документи мають відношення до запиту користувача, але впорядковує їх за оцінками ймовірної актуальності [16].
Ця оцінка отримана за допомогою міри подібності, якою зазвичай є функція, яка приймає дві підмножини документів в якості вхідних даних і віддає значення, що вказує на схожість між цими двома документами, документи потім ранжируються відповідно до їх подібність значення за запитом документа.
Шивакунар і ін [19] ввів систему SCAM і відомої моделі відносної частоти, яка є модифікацією функції косинус. SCAM продемонструвала кращі результати, ніж запропонована систем відповідності речень COPS у багатьох випадках виявлення плагіату [19], однак вона зробила більше помилкових спрацьовувань (документи, які помітили, як плагіат, хоча вони такими не є), в деяких випадках SCAM повідомила про два різні документи як 100% рівні.
Також, оскільки SCAM вимірює глобальну подібність, вона не може ввести позиційну інформацію про вміст скопійованого.
Хоед і Цобель [16] розглядають проблему ідентифікації спільно похідних документів, тобто документи, що походять від одного джерела. Для цієї мети вони зробили п'ять варіантів стандартного критерія косинуса, в яких вони називають їх критеріями тотожності.
Конструкція міри тотожності була заснована на припущенні, що аналогічні документи повинні містити аналогічне число входження слів. Всі п'ять варіантів використовували вагу термінів, яка є вираженням важливості терміна в даному документі, і розраховується як частота появи цього терміна.
1 .4 Існуючі веб-засоби виявлення плагіату
У цьому розділі розглядаються деякі існуючі інструменти виявлення плагіату та висвітлюються деякі недоліки цих інструмекнтів на основі порівняльного дослідження по вибраним 10 документам з цифрової бібліотеки ACM і вручну зробили плагіат заміною синонімів.
Більшість веб-інструментів виявлення плагіату використовують API для пошуку. Прикладом такого інструменту є DocCop [48], який є одним з найпростіших і основних інструментів. Інструмент розбиває на фрагменти документ в N-грам (послідовних слів довжини N), а потім використовує грамів як запити. Потім він вимірює ступінь плагіаті відсоток запитів на непустому відповідь від пошукових систем, розділене на число всіх запитів.
Коли DocCop було перевірено 10 документів на плагіат, він не зміг отримати жодний документ.
Інший вільно доступний інструмент, який заснований на API пошукової системи є Plagium [28]. Не ясно, яким чином Plagium використовується, проте він працює краще, ніж DocCop у виявленні плагіату документів і зміг отримати 2 з 10 документів. Інструмент повертає графічний малюнок, де показані вихідні документи і на скільки вони обмінюються інформацією із вхідним документом.
Деякі з веб-інструментів не залежать від пошукових систем API.
EVE2 [71] є прикладом такого інструменту. EVE2 є комерційним інструментом, який дозволяє користувачу налаштування пошуку. EVE2 стверджує, що він виконує великий пошук і досягає будь-якого веб-документу. Під час тестування EVE2 з плагіатом 10 документів він завжди видавав повідомлення про те, що він не знайшов прикладів плагіату.
Було також випробування з повної копії документа з цифрових бібліотек, включаючи ACM та IEEE, а також з інших сайтів, включаючи Wikipedia, але EVE2 зазнав невдачу в отриманні первинних документів у всіх тестах.
Turnitin [70] інший комерційний інструмент і, можливо, найвідоміший і найуспішніший [3]. Turnitin використовує свій власний веб-індекс у пошуку плагіату документів. Вона не була перевірена в цій роботі.
Таблиця 1.1 показує, властивості деяких існуючих інструментів, заснованих на [59].
Таблиця 1.1 Властивості деяких існуючих інструментів виявлення плагіату на основі [59].
plagiarism.phys.virginia.edu/Wsoftware.html
Семантична мережу "є графічне позначення для представлення знань у структурі взаємопов'язаних вузлів і дуг "[50]. Найбільш впливовим прикладом таких мереж в обчислювальній лінгвістиці є WordNet [4]. WordNet є лексичною базою даних для англійської мови, який організовує слова в множини синонімів (синсети), кожен з яких представляє різні концепції. Синсет містить синонім слова або словосполучень слів і надає коротке текстове представлення синсету. Приклад синсету показано на малюнку 1.2

Малюнок 1.3 Приклад синсету в WordNet
Синсети пов'язані семантичними і лексичними відношеннями. Таблиця 1.2 показує, деякі з цих відношень та короткий опис кожного відношення.
Таблиця 1.2 Деякі з відносин між поняттями в WordNet (N = іменник, V = дієслово, Adj = прикметник, Adv = прислівник)
У є координуючим терміном X, якщо X і Y ділять hypernym
дієслово У troponym від дієслова X, якщо дія Y робить дію X
Дієслово Y слідує за X, якщо, роблячи X ви повинні робити Y
біологічний відноситься до біології
пройдений дієприкметник від дієслова пройти
обчислювальний корінь прикметника обчислювально
WordNet розрізняє іменники, дієслова, прикметники та прислівники так вони мають різні граматичні правила. Таблиця 1.3 показує кількість слів кожної частини мови в WordNet 1.1.
Іменники та дієслова організовані в ієрархії на основі hypernym / hyponym зв'язок між синсетами. Прикметники і прислівники, однак, не дотримуються цього типу організації. Прикметники розташовані в кластери, які містять вершину синсету і супутникових синсетів. Кожен кластер будується навколо антонімічних пар (а іноді й антонімічної трійні). Більшість вершин синсетів матє один або декілька супутникових синсетів, кожен з яких представляє поняття, аналогічне за змістом концепції представленої вершини синсету. Малюнок 1.3 показує приклад біполярноїструктури прикметника.
Малюнок 1.4 Біполярна структура прикметника
Pertainyms є реляційними прикметниками і не слідують структурі, описаній вище. Pertainyms не мають антонімів; синсет для pertainym найчастіше містить тільки одне слово чи словосполучення і лексичний вказівник на іменник, до якого прикметник "стосується".
Дієприслівникові прикметники мають лексичні покажчики на дієслова від яких вони є похідними.
У WordNet не має так вже й багато інформації про прислівники. Вони не групуються у випадку прикметників, організація прислівників в WordNet є простою і прямолінійною. Більшість прислівників є похідними від прикметників і мають покажчики на прикметники, від яких вони є похідними. Крім вище виведеного відношення, тільки деякі прислівники пов'язані антонімічним відношенням.
1 . 6 Попередня обробка документу
Документ повинен пройти через кілька етапів, перш ніж він може брати участь у будь-якому процесі порівняння. Деякі з цих етапів мають вирішальне значення для вимірювання перекриття документів. Попередня обробка документів є важливим етапом перед вимірюванням їх подібності. Основні заходи включають токенізацію, видалення стоп-слів, та виділення корней слів.
Перший крок у попередній обробці є розбір або очистка документа, видаливши неактуальну інформацію, такі як знаки пунктуації та цифри, видалення додаткових пробілів. У цілому токен це одиниця виміру в документі, яка може бути використана в системі. Для веб документів важливо видалення розмітки документа, такі як HTML теги, функції Java Script і ін перед порівнянням документів.
Стоп-слова, таки як "the", "of", "and" і т. д., вказують на структуру речення і відношення між представленими поняттями, але не мають ніякого сенсу і можуть бути безпечно видалені без здійснення впиливу на точність вимірювання аналогічності двох документів [16,32,33].
Багато слів в англійській мові мають кілька варіантів форм, і відрізняються суфіксом. Суфікси для кожного варіанту форми можуть бути видалені виділенням кореня слова [16]. Виділенням кореня не є суттєвим кроком у виявленні копії, але може прискорити процес, так як кілька слів зводяться до одного терміну [16,33,34].
Процедура розбиття конкретного документа на більш дрібні одиниці (фрагменти) є процедурою фрагментування. Процедура розбиття тексту є важливим питанням у будь-якій системі виявлення плагіату, так як ця процедура буде впливати на точність системи, а також на її продуктивність [19,29].
Існують різні способи, як документ може бути фрагментований [29].
Фрагмент в сього документа : документ тривіально шматок себе. Цей метод підходящими для виявлення документів що повністю дублюється і пропонує значний приріст продуктивності, але не підходить для виявлення невеликого перекриття документів, як і у випадку плагіату документів.
Блокове фрагментування : документ фрагментований на більш дрібні одиниці (фрагменти). Блок може бути символ, слово, речення або строка. У фрагметуванні речень документ розбитий на речення, а потім речення порівнюються між різними документами (Наприклад, COPS ??прототип [20]). Основна проблема тут у тому, як виявити межі речення. Один підхід полягає в прийняти всіх слів до крапки або знаку питання. Однак речення, які містять скорочення, такі як "наприклад" буде розбите на кілька речень зі знаками припинання у вигляді крапки і система може потерпіти невдачу, якщо нема припинаючих символів в даному документі. У фрагментуванні речень не страждає від цих обмежень, оскільки межі слів можуть бути визначені через символ «пробілу». Однак недоліком є більша кількість помилкових спрацьовувань, оскільки два документа містять деяки спільні слова не означає, що плагіат присутній.
Фрагментування на n - блоків, що не перекриваються : у цьому випадку документ розбитий на N послідовних фрагментів (наприклад, символів, слів і т.д.) з використанням ковзаючого вікна з нульовим перекриттям між фрагментами як видно на формі Малюнок 1.4.
Малюнок 1.4 Фрагментування на n-блоків, що не перекриваються
Цей метод має ту перевагу, мінімізації кандидатів, які повинні бути порівнянні зі значенням K, що може змінюватися в залежності від бажаного рівня порівняння. Однак вставка одного блоку викличе переміщення на ковзаючому вікні на один елемент, що впливає негативно на точність виявлення. При N = 1 цей метод зводиться до фрагменту всього документу.
N -блокове фрагментування з К -перекриттям : тут документ розбивається на К-блоків фрагменти, як і раніше, але фрагменти перекриваються на К, де 0 <К Ефективність методів семантичної мережі для виявлення плагіату речень дипломная работа. Программирование, компьютеры и кибернетика.
Реферат: Нравы и обычаи Древней Греции
Курсовая работа по теме Рух опору на Харківщині у роки Великої Вітчизняної війни
Курсовая работа по теме Исследование в экономике теории магистралей
Дипломная работа: Банкет с полным обслуживанием "Золотая свадьба"
Реферат по теме Маленькие стандарты большого офиса
Ручные погрузочно-разгрузочные работы
Сочинение Рассуждение На Тему Финансовое Мошенничество
Курсовая Работа На Тему Разработка Автоматизированной Информационной Системы. Желтые Страницы Города Астрахань
Курсовая Работа На Тему Механізм Формування І Реалізації Стратегії Управлінських Інновацій
Курсовая работа по теме Характеристика принятия решений по классификации товаров в соответствии с ТН ВЭД ТС
Абдрахманов юсуп (жусуп)
Курсовая работа по теме Крымская война
Дипломная Работа Рязань
Курсовая Работа На Тему Экономические Основы Добычи Цветных Металлов
Что Такое Курсовая Работа Студента В Университете
Реферат: Основные идеи философии эпохи Возрождения
Дипломная Работа На Тему Отделка Кафе
Аттестационная Работа На Тему Прогнозирование Исхода Нагноительных Заболеваний Легких И Плевры В Условиях Орит Хирургической Инфекции
Сочинение по теме Образ России в лирике А. Блока
Доклад: Старение человека и общества как социальная проблема
Порівняльна характеристика латинських запозичень в англійській та українській мовах - Иностранные языки и языкознание курсовая работа
Судебное разбирательтсво - Государство и право реферат
Невикористання запатентованого об’єкта та його правові наслідки - Государство и право курсовая работа


Report Page