Реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации - Программирование, компьютеры и кибернетика курсовая работа

Реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации - Программирование, компьютеры и кибернетика курсовая работа




































Главная

Программирование, компьютеры и кибернетика
Реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации

Особенности и параметры процесса защиты информации. Оценка полноты и достоверности информации. Методы восстановления пропусков в массивах данных с использованием регрессионного моделирования. Методы структурирования данных в условиях неопределенности.


посмотреть текст работы


скачать работу можно здесь


полная информация о работе


весь список подобных работ


Нужна помощь с учёбой? Наши эксперты готовы помочь!
Нажимая на кнопку, вы соглашаетесь с
политикой обработки персональных данных

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.


по дисциплине «Криптографические протоколы»
« РЕАЛИЗАЦИЯ МЕТОДИК ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ ЗАЩИТЫ ИНФОРМАЦИИ »
1. ВИДЫ НЕОПРЕДЕЛЕННОСТЕЙ В ИСХОДНЫХ ДАННЫХ СИСТЕМ И ПРОЦЕССОВ ЗАЩИТЫ ИНФОРМАЦИИ
1.1 Понятие системы и процесса защиты информации
1.2 Полнота и достоверность исходных данных
2. МЕТОДЫ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ в ИСХОДНЫХ ДАННЫХ
2.1 Методы восстановления пропусков в массивах данных
2.2 Методы структурирования данных в условиях неопределенности
3. МЕТОДИКИ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ ЗАЩИТЫ ИНФОРМАЦИИ
3.1 Методика восстановления пропусков ЕМ - оценивание
3.2 Методика восстановления пропусков с использованием регрессионного моделирования
При решении многих прикладных задач приходится сталкиваться с неопределенностью в исходных данных. Как правило, она вызвана ошибками измерений, округления, приближенным представлением и распределенным характером самого исследуемого процесса и т.д. Учёт таких неопределенностей всегда был важен в тех разделах научно-прикладных исследований, которые в качестве исходных данных используют измерения, и в настоящее время их учёт остается актуальным.
Объект исследования - системы и процессы защиты информации.
Предмет исследования - условия неполноты и недостоверности исходных данных в показателях процессов и систем защиты информации.
Целью работы является реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации.
- привести обзор возможных неопределенностей в исходных данных систем и процессов защиты информации;
- исследовать методы восстановления пропущенных значений и структурирования неопределенностей в исходных данных;
- предложить методики восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации.
1 . ВИДЫ НЕОПРЕДЕЛЕННОСТЕЙ В ИСХОДНЫХ ДАННЫХ СИСТЕМ И ПРОЦЕССОВ ЗАЩИТЫ ИНФОРМАЦИИ
1.1 Понятие системы и процесса защиты информации
Задачи защиты информации [1] характеризуются следующими основными особенностями:
- наличием большого числа факторов, влияющих на эффективность решения задачи;
- отсутствием количественных достоверных исходных данных об этих факторах;
- отсутствием формальных (математических) методов получения оптимальных результатов решения по совокупности исходных данных.
Решение произвольных задач производится на основе моделей исследуемых объектов или процессов. Универсальной моделью любого объекта является представление его в виде системы.
Система - совокупность элементов и связей между ними, обладающая определенной целостностью.
Процесс - совокупность состояний системы, упорядоченных по изменению какого-либо параметра, определяющего свойства системы.
Система защиты информации - совокупность взаимосвязанных элементов, функционирование которых направлено на обеспечение безопасности информации.
Элементами системы защиты информации являются люди, инженерные конструкции и технические средства, обеспечивающие защиту информации независимо от их принадлежности к другим системам.
Система защиты информации [2] описывается следующими параметрами:
1) цели и задачи (конкретизированные в пространстве и во времени цели);
3) процессы внутри системы, обеспечивающие преобразование входов в выходы.
Цели представляют собой ожидаемые результаты функционирования системы защиты информации.
Задачи - необходимые действия для достижения системой поставленных целей.
Возможность решения задач зависит от ресурса, выделяемого на защиту информации. Ресурс включает в себя людей, решающих задачи защиты информации, финансовые, технические и другие средства, расходуемые на защиту информации.
Входами системы защиты информации являются угрозы информации.
Выходами - меры, которые нужно применить для предотвращения угроз или снижение их до требуемого уровня.
Процесс образуют мероприятия, действия и технологии, определяющие меры защиты информации. Для выбора оптимальных мер защиты из множества известных необходимо иметь показатели эффективности.
На рисунке 1 приведена схема этих параметров.
Рисунок 1 - Параметры системы защиты информации
Решение задачи защиты информации с точки зрения системного подхода можно сформулировать как трансформацию существующей системы, не обеспечивающей требуемый уровень защищенности, в систему с заданным уровнем безопасности информации.
Основным методом исследования систем защиты информации является моделирование. Моделирование предусматривает создание модели и ее исследование (анализ). Описание или физический аналог любого объекта, в том числе системы защиты информации и ее элементов, создаваемые для определения и исследования свойств объекта, представляют собой его модель . В модели учитываются существенные для решаемой задачи элементы, связи и свойства изучаемого объекта.
Различают вербальные, физические и математические модели и соответствующее моделирование [3].
Вербальная модель описывает объект на национальном и профессиональных языках. Человек постоянно создает вербальные модели его окружающей среды и руководствуется ими при приятии решений. Чем точнее модель отображает мир, тем эффективнее при прочих равных условиях деятельность человека. На естественном или профессиональном языке можно описать любой объект или явление. Сложные модели прошлой, настоящей, будущей жизни людей создают писатели. Но вербальные модели позволяют анализировать связи между ее элементами лишь на качественном уровне.
Физическая модель представляет материальный аналог реального объекта, который можно подвергать в ходе анализа различным воздействиям и получать количественные соотношения между этими воздействиями и результатами. Часто в качестве физических моделей исследуют уменьшенные копии крупных объектов, для изучения которых отсутствует инструментарий. Модели самолетов и автомобилей продувают в аэродинамических трубах, макеты домов для сейсмических районов испытывают на вибростендах и т.д. Но возможности физического моделирования объектов защиты и угроз ограничены, так как трудно и дорого создать физические аналоги реальных объектов. Действительно, для того, чтобы получить физическую модель канала утечки, необходимо воспроизвести его элементы, в том числе среду, а также априори неизвестные средства и действия злоумышленника.
По мере развития вычислительной математики и техники расширяется сфера применения математического моделирования. Математическое моделирование предусматривает создание и исследование математических моделей реальных объектов и процессов. Математические модели могут разрабатываться в виде аналитических зависимостей выходов системы от входов, уравнений для моделирования динамических процессов в системе, статистических характеристик реакций системы на воздействия случайных факторов. Математическое моделирование позволяет наиболее экономно и глубоко исследовать сложные объекты, чего нельзя добиться с помощью вербального моделирования или что чрезмерно дорого при физическом моделировании. Возможности математического моделирования ограничиваются уровнем формализации описания объекта и степенью адекватности.
Для моделирования сложных систем все шире и шире применяется метод математического моделирования, называемый имитационным моделированием. Оно предполагает определение реакции модели системы на внешние воздействия, которые генерирует ЭВМ в виде случайных чисел. Статистические характеристики (математическое ожидание, дисперсия, вид и параметры распределения) этих случайных чисел должны с приемлемой точностью соответствовать характеристикам реальных воздействий. Функционирование системы при случайных внешних воздействиях описывается в виде алгоритма действий системы и их характеристик в ответ на каждое воздействие на входе. Таким образом имитируется работа сложной системы в реальных условиях. Путем статистической обработки выходных результатов при достаточно большой выборке входных воздействий получаются достоверные оценки работы системы. Например, достаточно объективная оценка эффективности системы защиты информации при многообразии действий злоумышленников, которые с точки зрения службы безопасности носят случайный характер, возможна на основе имитационного моделирования системы защиты.
Другое перспективное направление математического моделирования, которое представляет интерес для моделирования объектов защиты и угроз информации - компьютерные деловые игры. Компьютерные деловые игры - аналог деловых игр людей, применяемый для решения проблем в организационных структурах. деловая игра имитирует процесс принятия решения в сложных условиях недостаточности достоверной информации людьми, играющими роль определенных должностных лиц. Участниками компьютерной игры являются два человека или компьютер и человек. Причем за сотрудника службы выступает человек, а злоумышленника - компьютер или человек. Например, злоумышленник - компьютер устанавливает в случайном месте закладное устройство, а другой игрок - человек производит поиск закладного устройства с помощью различных выбранных средств по показаниям виртуальных приборов моделей этих средств.
В чистом виде каждый вид моделирования используется редко. Как правило, применяются комбинации вербального, физического и математического моделирования. С вербального моделирования начинается сам процесс моделирования, так как нельзя создать физические или математические модели, не имея образного представления об объекте и его словесного описания. Если есть возможность исследовать свойства объекта на физической модели, то наиболее точные результаты обеспечиваются при физическом моделировании.
Моделирование объектов защиты предусматривает определение источников с защищаемой информацией и разработку моделей материальных объектов защиты. К объектам защиты относятся источники защищаемой информации и контролируемые зоны, в которых находятся эти источники.
В результате этого этапа определяются:
1) модели объектов защиты с указанием всех источников информации с описанием факторов, влияющих на их безопасность;
2) цена защищаемой информации каждого -го источника.
На основе полученных результатов на этапе моделирования угроз выявляются угрозы безопасности информации, производится оценка ожидаемого от их реализации потенциального ущерба и ранжирование угроз по потенциальному ущербу. При моделировании угроз определяются риск (вероятность) угрозы и ущерб в случае ее реализации.
1.2 П олнота и достоверность исходных данных
Полнота представляет собой показатель, характеризующий достаточность информации для решения соответствующих задач. Поэтому, чтобы иметь возможность определять данный показатель, необходимо для каждой задачи или группы задач заблаговременно составить перечень сведений, которые требуются для их решения. Для представления таких сведений удобно воспользоваться так называемыми объектно-характеристическими таблицами (ОХТ). ОХТ - это двухмерная матрица, по строкам которой приведен перечень наименований объектов, процессов или явлений, входящих в круг интересов соответствующей задачи, а по столбцам - наименования их характеристик (параметров), необходимых для решения задачи.
Значения характеристик при этом будут располагаться на пересечении соответствующих строк и столбцов. Совокупность всех ОХТ, необходимых для обеспечения решения всех задач объекта, называется его информационным кадастром [1].
Для оценки полноты информации часто используют следующую методику.
Обозначим через элемент, находящийся в -й строке и -м столбце интересующего нас компонента соответствующей ОХТ, причем:
Тогда в качестве коэффициента полноты информации в данной ОХТ можно принять величину:
где - число строк, а - число столбцов ОХТ.
Однако при этом не учитывается важность (значимость) различных элементов. В целях устранения этого недостатка положим, что есть коэффициент важности элемента -й строки и -го столбца. Тогда очевидно, в качестве меры взвешенной полноты информации в рассматриваемой ОХТ можно принять величину:
Достоверность определяется как «уровень разумной уверенности в истинности некоего высказывания, который удовлетворяет некоторым правилам непротиворечивости и в соответствии с этими правилами формально может быть выражен числом» [4].
Известные подходы к решению проблемы оценки достоверности связаны с применением теоремы Байеса [4] и теории нечетких множеств [5], на основе которых в настоящее время разработаны и применяются в экспертных системах практические способы объединения свидетельств, регистрирующих качественные и логико-семантические связи между фрагментами базы данных.
Используя идею байесовского подхода, можно поставить вопрос о достоверности фрагментов информационной базы данных в более общем плане, рассматривая любой ее фрагмент как гипотезу, а фрагменты с которыми он связан, как свидетельства относительно фрагмента-гипотезы. Под фрагментом информационной базы данных понимают часть содержания или структуры, обладающую свойством дискретности и независимости, т.е. некоторую совокупность данных или высказываний, имеющую самостоятельный смысл.
Достоверность (Д) фрагмента поступающего в информационную базу данных, зависит от достоверности источника информации и методики ее получения. Каждый вновь поступающий в информационную базу данных фрагмент (НФЗ - новый фрагмент знаний) есть пара:
где - значение фрагмента; - достоверность информации.
В главе приведены понятия процесса и системы защиты информации. Процесс - совокупность состояний системы, упорядоченных по изменению какого-либо параметра, определяющего свойства системы. Система защиты информации - совокупность взаимосвязанных элементов, функционирование которых направлено на обеспечение безопасности информации. При этом элементами системы защиты информации являются люди, инженерные конструкции и технические средства, обеспечивающие защиту информации независимо от их принадлежности к другим системам. Кроме того приведены понятия полноты и достоверности исходных данных.
2 . МЕТОД Ы ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ
2.1 Исследование м етод ов восстановления пропусков в массивах данных
С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных социологических, экономических и статистических исследований [6]. Традиционными причинами, приводящими к появлению пропусков, являются невозможность получения или обработки, искажение или сокрытие информации. В результате на вход программ анализа собранных данных поступают неполные сведения.
Самым простым решением обработки данных является исключение некомплектных наблюдений, содержащих пропуски, и дальнейший анализ полученных таким образом "полных" данных. Понятно, что такой подход приводит к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии.
Поэтому более перспективным является иной путь - заполнение пропусков перед анализом фактических данных. Можно выделить следующие преимущества данного подхода: ясное представление структуры данных; вычисление необходимых итоговых значений; уверенная интерпретация результатов анализа, так как можно опираться на традиционные характеристики и суммарные значения.
Сегодня создано множество методов восстановления пропусков, однако единая методология обработки подобных данных отсутствует, несмотря на ее необходимость.
Основной задачей данной работы является сравнительный анализ существующих методов восстановления пропущенных значений в массивах (рядах, таблицах) данных, в том числе с практической проверкой восстанавливающей способности наиболее известных алгоритмов.
Для решения поставленной задачи использовалось изучение литературных источников и компьютерное моделирование ряда алгоритмов (замена пропуска общим средним, замена пропуска средним из ближайших, метод сплайн-интерполяции, Zet-алгоритм) с анализом их эффективности для реальных массивов данных.
Поясним постановку задачи предсказания (восстановления) значений пропущенных элементов на примере обработки таблицы размером не содержащей пропусков [7].
Пусть в нашем распоряжении имеется набор различных методов (алгоритмов) , предназначенных для предсказания значений пропущенных элементов. Закроем в таблице известный элемент , стоящий на пересечении строки и столбца , и предскажем его с помощью всех методов поочередно. Каждый метод предскажет свое значение , при этом относительная ошибка предсказания будет определена как
Восстановим в таблице элемент , уберем элемент и повторим процедуру, получив при этом относительную ошибку . Проделав это по очереди со всеми элементами таблицы и просуммировав обнаруженные ошибки, получаем величину относительных ошибок для каждого метода. Наилучшим из них естественно считать такой метод , который дает минимальную сумму ошибок.
Методы из набора могут отличаться друг от друга лежащими в их основании эвристическими предположениями (гипотезами). Возможность использования методов разной степени сложности связана с тем, насколько простым или сложным является механизм, согласно которому данные оказываются пропущенными. Используя терминологию, предложенную в [1], будем называть пропуски в данных полностью случайными (data are missing completely at random - MCAR), если условная вероятность ( пропущено/прочие ) не зависит ни от , ни от прочих (то есть эта вероятность постоянна для всех наблюдений, и наблюдаемые являются случайной подвыборкой тех , которые должны были получиться в эксперименте). Пропуски в данных называются случайными (missing at random - MAR), если вероятность ( пропущено/прочие ) не зависит от , но может зависеть от других X. Оказывается, что в этих случаях механизм пропусков несущественен (ignorable), и к данным применимы вариации методов восстановления пропусков. Наконец, если ( пропущено/прочие ) зависит от самого , то механизм пропусков является существенным (non-ignorable), и для корректного анализа данных необходимо знать этот механизм. Введенные понятия относятся к отдельным переменным, и в пределах одной и той же базы данных можно, в принципе, наблюдать все приведенные варианты. Можно построить тесты, отличающие MAR от MCAR, однако по данным невозможно отличить, являются ли они MAR, или же механизм пропусков существенен.
Характеристика известных методов восстановления пропусков по литературным данным. Первый возможный подход к обработке данных с пропусками - это просто исключение некомплектных объектов. Данный метод легко реализуется, но необходимым условием его применения является следование данных требованию MCAR. Кроме того, необходимо, чтобы количество пропусков было небольшим, иначе происходят сильные смещения, кроме того, как показывает практика, данный метод не очень эффективен.
Следующим подходом, реализованным в большом числе алгоритмов, является подход с заполнением пропусков. Наряду с очевидными преимуществами данного подхода ему присущи недостатки: «...Опасность этого подхода в том, что он не позволяет отличать ситуации, где задача не очень трудна и может быть корректно решена таким способом, от ситуаций, где обычные оценки по реальным и подставленным данным сильно смещены» [6].
Выделяют следующие два принципиальных недостатка данного подхода.
1. Как правило, параметры для алгоритма заполнения пропусков вычисляются по присутствующим данным, что вносит зависимость между наблюдениями. Конечно, такой искусственной зависимости не возникает, если проводится заполнение константой или случайными значениями, не зависящими от присутствующих наблюдений в выборке, или методом подстановки без подбора. Но на практике эти методы представляют малую ценность. Зависимости можно также избежать, разделяя исходную выборку на две подвыборки и вычисляя подстановки (например средневыборочные значения) для анализируемой подвыборки по значениям наблюдений во второй подвыборке. При таком подходе приходится жертвовать частью информации, чтобы заполнить пропущенные значения.
2. Распределение данных после заполнения будет отличаться от истинного, даже если пренебречь зависимостью, указанной выше. Этот факт особенно нагляден для простых методов заполнения (средневыборочных, по регрессии и т.п.). Различные варианты данных методов заполнения приведут к смеси истинного и вырожденных распределений с вырождением на гиперплоскостях, на которых располагаются предсказываемые значения.
Отметим, что анализ подобных полных данных стандартными методами неправомерен и приводит к таким недостаткам, как несостоятельность и смещенность оценок параметров. Однако методы данной группы широко применяются. Приведем особенности наиболее известных методов глобального заполнения (то есть заполнения с использованием данных всей выборки) [6 - 9].
Заполнение средними (средним по всей выборке или средними по группам) - применение имеет смысл только в случае следования данных условию MAR, данная группа методов легко реализуема; недостатки - искажение распределения данных, уменьшение дисперсии.
Методы заполнения с подбором - подобны методам заполнения средними, легко реализуемы, кроме того, при применении данных методов больше разброс дисперсии предсказанных значений пропусков, не искажается распределение. Недостаток - выявление распределения обрабатываемой генеральной совокупности данных по полученной выборке комплектных данных.
Заполнение по регрессии. В основу данной группы методов положены хорошо известные алгоритмы регрессионного анализа [10]. Из условий применения данного метода можно выделить требование о следовании данных условию MAR (хотя для частных случаев возможно применение более слабых требований) и требования, относящиеся к выполнению предпосылок регрессионного анализа. Недостатки подобных методов очевидны: качество предсказания (восстановления пропусков) напрямую зависит от успешного выбора взятой за основу регрессионной модели.
Метод сплайн-интерполяции - обоснованный математически метод интерполяции, показывающий хорошие результаты. Для успешного применения необходимо, чтобы данные следовали условию MAR. Недостатки метода следуют из самой его идеи. Например, в случае восстановления группы пропусков, следующих подряд друг за другом, результат аппроксимации сплайном данной группы не всегда может дать оценки, приближающиеся с достаточной точностью к значениям, которые могли бы быть на месте пропусков.
Методы многократного заполнения. Основное их преимущество в том, что они преодолевают недостаток методов однократного заполнения в смысле большего разброса дисперсии оценки; посылки применимости данного метода полностью определяются используемыми методами формирования множества вариантов восстановления пропуска.
МП-оценивание (EM-алгоритм) - относится к категории методов моделирования [6]. Особенность данных методов - построение модели порождения пропусков с последующим получением выводов на основании функции правдоподобия, построенной при условии справедливости данной модели, с оцениванием параметров методами типа максимального правдоподобия. Отметим, что если другие методы восстановления пропусков требуют, чтобы данные отвечали условию MAR (или MCAR как более жесткому), то для данных методов возможно построение моделей, учитывающих конкретную специфику области, как следствие, возможна постановка более слабых условий к данным. Недостаток - необходимость построения модели порождения пропусков.
Использование методов факторного анализа [9]. Особенности метода: отсутствие требования априорного заполнения пропусков, необходимость в предварительной нормировке данных, наличие требований факторного анализа. В случае использования нелинейных моделей данных метод имеет очевидное преимущество по сравнению с регрессионными методами. В связи с большим количеством шагов алгоритма данному методу присуща некоторая трудоемкость реализации.
Использование методов кластерного анализа [11]. Особенность метода - его применение не опирается на какую-либо вероятностную модель, но при этом оценить его свойства в статистических терминах не представляется возможным. Однако данный метод обладает существенным достоинством, а именно, он позволяет указать предпочтительный порядок восстановления данных и выявить случаи, когда пропуски не могут быть восстановлены по имеющимся данным.
Локальные алгоритмы восстановления пропусков [7, 8]. Алгоритмы семейства Zet (Wanga), по сути, являются детально проработанной и апробированной технологией верификации экспериментальных данных, основанной на гипотезе их избыточности. Внешне они сходны с методом локального заполнения. Данные алгоритмы хорошо показали себя, но необходимость задания ряда важных параметров приводит к необходимости убедиться в правдоподобности восстановленных значений.
Существуют другие альтернативные подходы к восстановлению данных. В качестве примера отметим использование нейросетей [12]. Несмотря на некоторую эквивалентность моделей статистики и нейросетевых парадигм, трудно выявить явные преимущества и недостатки применения нейросетевых технологий для восстановления данных.
Практическое исследование восстанавливающей способности выбранных методов заполнения пропущенных значений было программно реализовано в системе Mathcad и частично в Microsoft Excel с тестированием на большом множестве реальных временных рядов с различной структурой пропусков (создаваемых в процессе исследования искусственно).
Итоговые результаты по исследовавшимся методам таковы.
1. Метод замены пропущенного значения общим средним из присутствующих элементов.
Данный метод был выбран для исследования в связи с тем, что это наиболее известный, простой способ восстановления пропусков, включенный как средство борьбы с ними в большинство статистических пакетов. Эксперименты показали полную несостоятельность данного метода даже на простых рядах данных.
2. Метод замены пропущенного значения средним из ближайших присутствующих элементов переменной.
информация массив восстановление неопределенность
Данный метод является эффективным развитием метода замены пропусков общим средним, и эксперименты показали хорошую точность метода в случае одиночных пропусков на достаточно гладких рядах данных. Благодаря простоте реализации можно даже рекомендовать использование данного метода в приведенных выше условиях, но только в них. Наличие в данных групповых пропусков или сильные флуктуации значений ряда сводят эффективность метода к нулю.
Таким образом, этот метод можно использовать только для восстановления одиночных пропусков в рядах данных.
3. Метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам.
Все эксперименты показали, что в случае наличия в данных одиночных пропусков настоящий метод показывает лучшие результаты восстановления среди всех методов независимо от сложности поведения ряда, за исключением, конечно, вырожденных случаев, в которых количество пропусков намного превышает количество существующих наблюдений.
Однако в случае групповых пропусков результаты применения данного метода оказались неожиданно сильно зависящими от структуры пропусков, особенно в случае большой протяженности группы. Причины подобной особенности этого алгоритма понятны: по сути, метод просто строит наилучшую аппроксимирующую поверхность для существующих наблюдений и не более того. Такие же особенности ряда, как периодичность, наличие линии тренда и т.п., никак не принимаются в расчет при восстановлении группового пропуска. Поэтому при применении данного метода возрастает степень участия исследователя в процессе восстановления пропусков, который должен не просто выполнить программу алгоритма, но и проконтролировать полученные результаты и, если необходимо, даже отменить их.
4. Метод восстановления пропущенного значения на основе использования Zet-алгоритма [6, 7].
Данный алгоритм интересен для исследования тем, что при восстановлении учитывает закономерности ряда, может работать как с одномерными рядами данных, так и с таблицами данных, состоящих из множества взаимосвязанных рядов, указывает случаи, в которых имеющихся данных недостаточно для восстановления пропусков. И действительно, эксперименты показали целесообразность применения Zet-алгоритма.
Так, в случае одиночных пропусков данный метод имеет несомненное преимущество перед простыми методами восстановления пропусков (общего среднего, среднего из ближайших) и несколько уступает методу сплайн-интерполяции. Однако в случае наличия в данных групповых пропусков качество восстановления пропущенных значений при помощи Zet-алгоритма лучше остальных рассматриваемых методов, причем результаты применения метода стабильны, учитывают закономерности исследуемого ряда, достаточно слабо зависят от структуры пропусков и иногда являются единственно достоверными по сравнению с результатами применения других методов. Особо следует отметить возможности этого метода при восстановлении групповых пропусков в таблицах данных. Ни один из остальных исследуемых методов не способен выполнить такую задачу с приемлемой точностью, в то время как Zet-алгоритм показывает хорошие результаты.
Конечно, у данного метода есть ограничения. Например, между данными должна прослеживаться причинно-следственная (вероятностная) связь, а количество существующих наблюдений, по которым восстанавливаются пропуски, не должно быть малым. Если данные сильно зашумлены и искажены, обладают большой долей пропусков, то результат восстановления, естественно, будет некорректен: здесь как нельзя более ясно работает правило "мусор на входе - мусор на выходе". Однако даже в такой ситуации описываемый алгоритм будет искать закономерности в присутствующих данных и осуществлять восстановление пропусков, в отличие от других методов, для которых в подобной ситуации пропуск заполняется совершенно фантастическими значениями.
Приведенные результаты отражают поставленную задачу исследований и, более того, позволяют предложить следующую, как представля
Реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации курсовая работа. Программирование, компьютеры и кибернетика.
Эссе Основные Характеристики Речи
Реферат по теме Дослідження Шекспірівської комедійної творчості
Аттестационная Работа По Математике 4 Класс
Курсовая работа: Кино в дореволюционной России . Скачать бесплатно и без регистрации
Эссе Без Борьбы Нет Прогресса Обществознание
Реферат: Передача Дискретных сообщений
Реферат: My Traffic Accident Essay Research Paper My
Курсовая Работа На Тему Семья В Системе Общественных Отношений
Курсовая работа: Розробка системи пошуку автомобілів
Производственная Практика В Школе Дневник
Реферат по теме Численная модель эволюции плавающих на сферической мантии и взаимодействующих континентов
Схема Написания Сочинения Егэ По Русскому Языку
Александр Пушкин Полное Собрание Сочинений
Дипломная Работа На Тему Договор Найма Жилого Помещения
Доклад: Музеи и зрители. Проблемы восприятия
Лабораторная Работа На Тему Интегральные Логические Элементы
Реферат по теме Эксперимент в исследовании социально-экономических процессов
Курсовая работа по теме Имидж преприятия в рекламе
Дипломная работа по теме Формирование траектории и скорости для многозвенных манипуляторов
Реферат Вулканы И Землетрясения
Либерализации и демократизации в Тунисе при президенте Бен Али - Политология реферат
Характеристика водорослей - Биология и естествознание презентация
Учет реализации готовой продукции (работ, услуг) и формирование финансовых результатов - Бухгалтерский учет и аудит курсовая работа


Report Page