Машинное кодирование политических текстов с помощью грамматики институтов
Дуглас Райс - профессор UMass Amherst со специализацией на публичном праве
Саба Сидики - доцент Школы гражданства и общественных дел им. Максвелла Сиракузского университета со специализацией на разработке и имплементации государственных политик, анализе институтов
1. “Грамматика институтов” для анализа политических текстов (policy texts)
“Грамматика институтов” представляет собой подход, предложенный Сью Кроуфорд и Элионор Остром в 1995 году и предполагающий анализ институтов через фокус на синтаксических структурных элементах, которые составляют и формируют воплощенные в языковой форме институты.
Вместе с тем, широкому распространению подхода “грамматики институтов” препятствуют значительные затраты времени и ресурсов, связанные с его применением. В данной статье предлагается использовать машинное обучение (компьютерный анализ текстов и обработку естественного языка) и разбираются результаты такого анализа на примере 19 документов, регламентирующих работу пищевой отрасли.
Анализ текстов проводится в два этапа. Общая схема представлена на рисунке:
1. На первом этапе текст обрабатывается и специальным образом размечается при помощи методов «обработки естественного языка» (Natural language processing, NLP). Это делается в первую очередь для обработки нестандартного форматирования политического текста: политический текст может содержать специфическое форматирование в виде отдельных не связанных между собой пунктов, абзацев, специфическое построение предложений, а также специфическую пунктуацию (тире, «буллеты» и т.п.). Для этого используется пакет Stanford CoreNLP на языке статистических расчетов R.
2. На втором этапе полученный текст размечается в соответствии с правилами “грамматики институтов”. Для этого используется вероятностная ассоциация синтаксических элементов с элементами “грамматики институтов” путем использования «машинного обучения с учителем» (supervised machine learning).
Суть подобной обработки состоит в выделении в каждом утверждении текста (в статье разделяются понятия «утверждение» и «предложение»: в одном предложении может быть несколько утверждений) следующих 6 специфических синтаксических элементов:
- Атрибут (Attribute, [A]) – актор, к которому применяется данное утверждение;
- Цель (Aim, [I]) – цель данного утверждения (действие);
- «Деонтика» (Deontic, [D]) – предписание, которое указывает, что именно Атрибут должен или не должен делать, что ему разрешено или запрещено, и т.п.;
- Объект (Object, [B]) – одушевленный или неодушевленный объект, которому применяется основное («фокальное») действие;
- Условие (Condition, [C]) – временные, пространственные или регуляторные ограничения, в рамках которых действие утверждения должно или не должно выполняться;
- «Или что» (Or else, [O]) – указание стимула для выполнения или невыполнения «фокального» действия (например, наказание в случае нарушения).
Эти 6 элементов объединяются в набор, который носит сокращенное обозначение ABDICO.
В качестве примера в статье приводится разбор предложения “Операции, сертифицированные как органические в соответствии с Национальной программой США по органическому производству, должны ежегодно представлять план органической системы, в противном случае сертификация будет отменена”. В результате разбора “грамматики институтов” получается следующий набор:
- Атрибут = “Операции, сертифицированные как органические в соответствии с Национальной программой США по органическому производству”;
- Деонтика = “должны”;
- Цель = “представлять”;
- Объект = “план органической системы”;
- Условие = “ежегодно”;
- Or else = “в противном случае сертификация будет отменена”.
Не всегда каждое утверждение политического текста содержит все 6 элементов, но обязательно содержит минимум три: Атрибут, Цель и Условие.
Авторы грамматики институтов (Сью Кроуфорд и Элионор Остром) относили:
- утверждения, содержащие Атрибут, Цель и Условие, к стратегиям
- утверждения, содержащие Атрибут, Цель, Условие и “Деонтику” к нормам
- утверждения, содержащие все 6 элементов, – к правилам.
Object может присутствовать в любом виде утверждений. Элементы “Деонтика” и “или что” – ключевые элементы, отличающие «правила» от «норм» и «стратегий».
2. Результаты
В статьей использовался набор из 19 документов, регламентирующих работу пищевой отрасли. Все слова, размеченные ручным способом человеком как элементы “грамматики институтов”, были разделены на два множества – обучающее множество (8320 слов) и множество для оценки (922 слова).
Далее разметка текстов в соответствии с правилами “грамматики институтов” производится с использованием «машинного обучения с учителем», в качестве конкретной реализации которого были выбраны нейронные сети.
1). Классификация с использованием метода опорных векторов SVM (support vector machines). В этом случае данные представляются в многомерном пространстве, в котором проводится гиперплоскость, которая наилучшим образом разделяет данные.
Точность работы модели оценивалась по нескольким показателям:
- общая точность (Accuracy)
- коэффициент корреляции Мэтьюза (Matthews correlation coefficient, MCC).
Для оценки точности работы модели по каждому из элементов использовались показатели:
- доля корректных классификаций среди всех наблюдений, классифицированных в данную категорию (Precision)
- доля всех наблюдаемых классификаций в данной категории, которые классификатор корректно восстановил (Recall).
Результаты оценки точности в подходе SVM приведены в следующей таблице (правая колонка содержит общее количество слов в тестируемом множестве – всего и в каждой категории по отдельности).
Общая точность распознавания текстов составила примерно 70%. Поскольку общий уровень приемлемой надежности перекодировщиков лежит в диапазоне от 70 до 90 процентов, полученный уровень точности является первым доказательством полезности автоматического анализа текстов в рамках “грамматики институтов”.
Большинство случаев ошибок при анализе текстов связано с пограничными словами типа «a» и «the», удаление таких слов значительно повышает точность анализа.
Также для анализа текстов применялись модели глубокого обучения.
2). Модель с нейронной сетью, включающая в себя 3 слоя. Первый состоял из 256 «нейронов», второй из 128 «нейронов», третий – из 6 «нейронов» (по числу классов, по которым предполагается разносить слова, в соответствии с количеством элементов ABDICO). Для обучения основного классификатора используются пакеты Keras и TensorFlow, оба пакета имеют открытый код и реализацию на языке R. Далее модель обучается с использованием пакета Adam, в качестве функции потерь использовалась «разреженная категориальная перекрестная энтропия» (sparse categorical crossentropy loss function).
Результаты работы этой модели приведены в следующей таблице.
Модель с трехслойной нейронной сетью в целом работает с меньших количеством ошибок, однако точность работы модели в SVM-подходе с элементами Aim и Attribute оказывается заметно выше, чем в подходе, связанном с глубоким обучением, а с элементом Deontic точность оказывается сравнимой. В то же время по показателю Recall трехслойная модель глубокого обучения работает заметно лучше для всех элементов, кроме элемента Object.
3). Модель с нейронной сетью, включающая в себя 5 слоев. Первые два слоя включали в себя, как и ранее, 256 и 128 «нейронов», последний слой, как и ранее, состоял из 6 «нейронов», а после первых двух слоев были добавлены еще два слоя, состоящие соответственно из 64 и 32 «нейронов». Эта модель также обучается с использованием пакета Adam, в качестве функции потерь использовалась «разреженная категориальная перекрестная энтропия» (sparse categorical crossentropy loss function).
Результаты работы этой модель с пятью слоями представлены в следующей таблице:
Пятислойная модель в целом показала примерно такую же точность, как и трехслойная (разница лежала в пределах ошибок округления). Показатели точности Precision и Recall для элементов Aim и Attribute оказались несколько лучше, чем для трехслойной модели, в то время как для остальных элементов заметного улучшение не наблюдалось. По мнению авторов, дальнейшее совершенствование модели должно происходить не столько в направлении увеличения количества слоев, сколько в совершенствовании разметки обучающих данных.
3. Выводы
“Грамматика институтов”, предложенная более двух десятилетий назад, открывает огромные перспективы для ученых, занимающихся государственной политикой и администрированием и заинтересованных в систематическом изучении структуры и понимания политических текстов (policy texts).
Полученный уровень точности автоматической классификации является первым доказательством полезности такого анализа текстов в рамках подхода «грамматики институтов». Увеличение точности может быть достигнуто путем увеличения количества текстов, классифицированных в соответствии с «грамматикой институтов», в сочетании с робастными методами обработки естественного языка и совершенствованием методов машинного обучения.
В качестве направления для дальнейшего совершенствования модели можно отметить расширение обучающей выборки, которое, вероятно, приведет к улучшению out-of-sample результативности модели.