Машинное кодирование политических текстов с помощью грамматики институтов

Rice, Douglas, et al. "Machine Coding of Policy Texts with the Institutional Grammar." Public Administration. December 2020

Дуглас Райс - профессор UMass Amherst со специализацией на публичном праве

Саба Сидики - доцент Школы гражданства и общественных дел им. Максвелла Сиракузского университета со специализацией на разработке и имплементации государственных политик, анализе институтов

1. “Грамматика институтов” для анализа политических текстов (policy texts)

“Грамматика институтов” представляет собой подход, предложенный Сью Кроуфорд и Элионор Остром в 1995 году и предполагающий анализ институтов через фокус на синтаксических структурных элементах, которые составляют и формируют воплощенные в языковой форме институты.

Вместе с тем, широкому распространению подхода “грамматики институтов” препятствуют значительные затраты времени и ресурсов, связанные с его применением. В данной статье предлагается использовать машинное обучение (компьютерный анализ текстов и обработку естественного языка) и разбираются результаты такого анализа на примере 19 документов, регламентирующих работу пищевой отрасли.

Анализ текстов проводится в два этапа. Общая схема представлена на рисунке:

1. На первом этапе текст обрабатывается и специальным образом размечается при помощи методов «обработки естественного языка» (Natural language processing, NLP). Это делается в первую очередь для обработки нестандартного форматирования политического текста: политический текст может содержать специфическое форматирование в виде отдельных не связанных между собой пунктов, абзацев, специфическое построение предложений, а также специфическую пунктуацию (тире, «буллеты» и т.п.). Для этого используется пакет Stanford CoreNLP на языке статистических расчетов R.

2. На втором этапе полученный текст размечается в соответствии с правилами “грамматики институтов”. Для этого используется вероятностная ассоциация синтаксических элементов с элементами “грамматики институтов” путем использования «машинного обучения с учителем» (supervised machine learning).

Суть подобной обработки состоит в выделении в каждом утверждении текста (в статье разделяются понятия «утверждение» и «предложение»: в одном предложении может быть несколько утверждений) следующих 6 специфических синтаксических элементов:

Атрибут (Attribute, [A]) – актор, к которому применяется данное утверждение;
Цель (Aim, [I]) – цель данного утверждения (действие);
«Деонтика» (Deontic, [D]) – предписание, которое указывает, что именно Атрибут должен или не должен делать, что ему разрешено или запрещено, и т.п.;
Объект (Object, [B]) – одушевленный или неодушевленный объект, которому применяется основное («фокальное») действие;
Условие (Condition, [C]) – временные, пространственные или регуляторные ограничения, в рамках которых действие утверждения должно или не должно выполняться;
«Или что» (Or else, [O]) – указание стимула для выполнения или невыполнения «фокального» действия (например, наказание в случае нарушения).

Эти 6 элементов объединяются в набор, который носит сокращенное обозначение ABDICO.

В качестве примера в статье приводится разбор предложения “Операции, сертифицированные как органические в соответствии с Национальной программой США по органическому производству, должны ежегодно представлять план органической системы, в противном случае сертификация будет отменена”. В результате разбора “грамматики институтов” получается следующий набор:

Атрибут = “Операции, сертифицированные как органические в соответствии с Национальной программой США по органическому производству”;
Деонтика = “должны”;
Цель = “представлять”;
Объект = “план органической системы”;
Условие = “ежегодно”;
Or else = “в противном случае сертификация будет отменена”.

Не всегда каждое утверждение политического текста содержит все 6 элементов, но обязательно содержит минимум три: Атрибут, Цель и Условие.

Авторы грамматики институтов (Сью Кроуфорд и Элионор Остром) относили:

утверждения, содержащие Атрибут, Цель и Условие, к стратегиям
утверждения, содержащие Атрибут, Цель, Условие и “Деонтику” к нормам
утверждения, содержащие все 6 элементов, – к правилам.

Object может присутствовать в любом виде утверждений. Элементы “Деонтика” и “или что” – ключевые элементы, отличающие «правила» от «норм» и «стратегий».

2. Результаты

В статьей использовался набор из 19 документов, регламентирующих работу пищевой отрасли. Все слова, размеченные ручным способом человеком как элементы “грамматики институтов”, были разделены на два множества – обучающее множество (8320 слов) и множество для оценки (922 слова).

Далее разметка текстов в соответствии с правилами “грамматики институтов” производится с использованием «машинного обучения с учителем», в качестве конкретной реализации которого были выбраны нейронные сети.

1). Классификация с использованием метода опорных векторов SVM (support vector machines). В этом случае данные представляются в многомерном пространстве, в котором проводится гиперплоскость, которая наилучшим образом разделяет данные.

Точность работы модели оценивалась по нескольким показателям:

общая точность (Accuracy)
коэффициент корреляции Мэтьюза (Matthews correlation coefficient, MCC).

Для оценки точности работы модели по каждому из элементов использовались показатели:

доля корректных классификаций среди всех наблюдений, классифицированных в данную категорию (Precision)
доля всех наблюдаемых классификаций в данной категории, которые классификатор корректно восстановил (Recall).

Результаты оценки точности в подходе SVM приведены в следующей таблице (правая колонка содержит общее количество слов в тестируемом множестве – всего и в каждой категории по отдельности).

Общая точность распознавания текстов составила примерно 70%. Поскольку общий уровень приемлемой надежности перекодировщиков лежит в диапазоне от 70 до 90 процентов, полученный уровень точности является первым доказательством полезности автоматического анализа текстов в рамках “грамматики институтов”.

Большинство случаев ошибок при анализе текстов связано с пограничными словами типа «a» и «the», удаление таких слов значительно повышает точность анализа.

Также для анализа текстов применялись модели глубокого обучения.

2). Модель с нейронной сетью, включающая в себя 3 слоя. Первый состоял из 256 «нейронов», второй из 128 «нейронов», третий – из 6 «нейронов» (по числу классов, по которым предполагается разносить слова, в соответствии с количеством элементов ABDICO). Для обучения основного классификатора используются пакеты Keras и TensorFlow, оба пакета имеют открытый код и реализацию на языке R. Далее модель обучается с использованием пакета Adam, в качестве функции потерь использовалась «разреженная категориальная перекрестная энтропия» (sparse categorical crossentropy loss function).

Результаты работы этой модели приведены в следующей таблице.

Модель с трехслойной нейронной сетью в целом работает с меньших количеством ошибок, однако точность работы модели в SVM-подходе с элементами Aim и Attribute оказывается заметно выше, чем в подходе, связанном с глубоким обучением, а с элементом Deontic точность оказывается сравнимой. В то же время по показателю Recall трехслойная модель глубокого обучения работает заметно лучше для всех элементов, кроме элемента Object.

3). Модель с нейронной сетью, включающая в себя 5 слоев. Первые два слоя включали в себя, как и ранее, 256 и 128 «нейронов», последний слой, как и ранее, состоял из 6 «нейронов», а после первых двух слоев были добавлены еще два слоя, состоящие соответственно из 64 и 32 «нейронов». Эта модель также обучается с использованием пакета Adam, в качестве функции потерь использовалась «разреженная категориальная перекрестная энтропия» (sparse categorical crossentropy loss function).

Результаты работы этой модель с пятью слоями представлены в следующей таблице:

Пятислойная модель в целом показала примерно такую же точность, как и трехслойная (разница лежала в пределах ошибок округления). Показатели точности Precision и Recall для элементов Aim и Attribute оказались несколько лучше, чем для трехслойной модели, в то время как для остальных элементов заметного улучшение не наблюдалось. По мнению авторов, дальнейшее совершенствование модели должно происходить не столько в направлении увеличения количества слоев, сколько в совершенствовании разметки обучающих данных.

3. Выводы

“Грамматика институтов”, предложенная более двух десятилетий назад, открывает огромные перспективы для ученых, занимающихся государственной политикой и администрированием и заинтересованных в систематическом изучении структуры и понимания политических текстов (policy texts).

Полученный уровень точности автоматической классификации является первым доказательством полезности такого анализа текстов в рамках подхода «грамматики институтов». Увеличение точности может быть достигнуто путем увеличения количества текстов, классифицированных в соответствии с «грамматикой институтов», в сочетании с робастными методами обработки естественного языка и совершенствованием методов машинного обучения.

В качестве направления для дальнейшего совершенствования модели можно отметить расширение обучающей выборки, которое, вероятно, приведет к улучшению out-of-sample результативности модели.

Машинное кодирование политических текстов с помощью грамматики институтов

Report Page