Политический учёный

Политический учёный

@politscience

По просьбе коллег из @msmprapn публикую несколько комментариев по статье А.С. Ахременко, Д.К. Стукала и А.П. Петрова "СЕТЬ ИЛИ ТЕКСТ? ФАКТОРЫ РАСПРОСТРАНЕНИЯ ПРОТЕСТА В СОЦИАЛЬНЫХ МЕДИА: ТЕОРИЯ И АНАЛИЗ ДАННЫХ" (1)

Хочу отметить великолепную вводную часть с обзором литературы, формулированием теоретической рамки исследования и постановкой проблемы. Мне показалось очень важным то, что авторы обосновали и концептуализировали сложившийся в политической науке консенсус, касающийся предмета их исследования: 

"топологии типа “малых миров” и сопутствующие им дальние связи способствуют эффективной диффузии информации о протесте, тогда как топологии с плотными кластерами и сопутствующие им сильные связи способствуют распространению протестного поведения" 

Это действительно важное наблюдение, хотя у меня и есть определённые сомнения относительно того, как можно верифицировать распространение протестного поведения в социальных медиа. Но мой скепсис относится скорее к работам, на которые ссылаются авторы данной статьи.

Насколько я понимаю, молодые политологи попросили меня разобрать эту статью в связи с тем, что им интересен методический аппарат исследования.  Эмпирическая часть действительно довольно сложна для понимания. Это как раз очень хороший пример научного симбиоза политологов и математиков. 

Итак, что делают авторы, если объяснять совсем простыми словами? 

1. Используя API Twitter и, видимо, с помощью собственного веб-краулера они выкачивают более 5,7 млн твитов, опубликованных с марта по май 2019 года во время политического кризиса в Венесуэле. В базу попадает две группы данных. Первая - характеристики самого твита (текст, хэштеги, ссылки, число ретвитов и т.д.). Вторая - сетевые характеристики (число подписчиков и число тех, на кого аккаунт подписан).  

2. Эти характеристики распределены неравномерно, поэтому их логарифмируют. Таким образом, далеко отстающие от среднего значения данные не так сильно влияют на результаты регрессии. Не буду вдаваться в подробности - гуглите или проконсультируйтесь с преподавателем политического анализа.

3. Затем проводится регрессия с LASSO-регуляризацией и скользящим контролем. Честно признаюсь, такой метод вижу впервые, но авторы достаточно убедительно доказывают, что он подходит для того, чтобы в "больших данных" найти переменные, обладающие наибольшей предсказательной силой при прогнозировании значений зависимой переменной. Исследовательский вопрос заключается в выявлении того, какая группа предикторов лучше предсказывает количество ретвитов: индикаторы сетевой позиции автора или содержательные параметры самого твита. Результаты проведенного анализа говорят о том, что сетевые параметры в большей степени обусловливают популярность твитов в ходе массовых политических протестов.

4. После этого авторы взяли случайную выборку из 50 000 твитов и вычистили из нее твиты ботов с помощью программы "Ботометр". Все 5,7 млн твитов так чистить было очень долго, а так удалось проверить, что и на полученной выборке результаты анализа сходятся с основными. 

И все-таки несмотря на положительное впечатление от самого исследования и текста статьи я хотел бы выделить два замечания конкретно по тексту, а также пару мыслей общего плана.

Во-первых, очень понравившаяся мне теоретическая часть не до конца находит свое отражение в эмпирическом разделе. Авторы уделяют много внимания структурным особенностям сетей, топологическим характеристикам, дальним и ближним связям, центру и периферии, но в исследовании эти параметры почти пропадают. В итоге так и не ясно, как в изучаемом кейсе топология влияет на диффузию информации и распространение протеста. Если задача объяснить не стояла, тогда зачем было столько внимания уделять этому во вводной части?

Во-вторых, мне кажется, что авторы облегчают свою задачу тем, что в качестве сетевых характеристик берут количественные показатели по подпискам. Они, конечно, важны, но для выявления позиций аккаунтов в сетевой структуре важно понимать, кто на кого подписан. Если измерять различные сетевые атрибуты аккаунтов (есть несколько типов центральности), то можно выйти на более значимые взаимосвязи между сетевыми характеристиками и популярностью твитов. Я ни в коем случае не хочу обвинять авторов в этой "недоработке" - они и так обработали огромный объем данных. Да это и не слабое место работы, а скорее моё пожелание. Но вообще-то они могли сделать соответствующую оговорку. На мой взгляд, это очень важно для понимания результатов исследования.

Кроме того у меня есть ещё два общих соображения, навеянных данной статьёй. Первое заключается в том, что многие исследователи не случайно любят Twitter: эта социальная сеть дает самый удобный для веб-краулеров API, выкачивать и обрабатывать твиты проще всего, глубина данных достаточная. Поэтому я наблюдаю перекос в количестве исследований, основанных на анализе данных из Твиттера. И у меня возникают сомнения в том, что результаты этих исследований показательны и их можно как-то экстраполировать на другие социальные медиа. К сожалению, авторы часто об этом умалчивают.
Наконец, я вообще скептически отношусь к эвристическому потенциалу исследований влияния коммуникации в онлайн на политическое поведение в оффлайн. Несмотря на то, что исследований огромное множество, как-то обобщить выводы довольно сложно. Грубо говоря, мы все согласны, что коммуникация в социальных медиа влияет на протестное поведение граждан или на их выбор в электоральном процессе. Но даже мета-исследования не дают возможность построить более-менее работающую теорию, которая позволяет измерять это влияние. Посмотрите, например, работу Boulianne (2). Компаративистских исследований тоже мало, так как методики почти каждой работы уникальны и сравнивать результаты практически невозможно.

(1) Ахременко А.С., Стукал Д.К., Петров А.П. Сеть или текст? Факторы распространения протеста в социальных медиа: теория и анализ данных. – Полис. Политические исследования. 2020. №2. С. 73-91. https://doi.org/10.17976/jpps/2020.02.06
(2) Boulianne S. (2015) Social media use and participation: a metaanalysis of current research, Information, Communication & Society, 18:5, 524-538. https://doi.org/10.1080/1369118X.2015.1008542


Report Page