Спящие красавицы и статьи бустеры: (не-)удачный эксперимент

Спящие красавицы и статьи бустеры: (не-)удачный эксперимент

Выше квартилей

Пользуясь методом ван Раана, мы проанализировали массив российских публикаций, вышедших до 1990 года, и выявили 12 работ, подходящих под наши критерии:

  • «Cон» должен быть глубоким — не более 2 цитирований в год вплоть до момента «пробуждения»;
  • Долгим — не менее 16 лет от момента публикации до момента «пробуждения»;
  • Интенсивность «пробуждения» должна быть высокой — то есть соотношение между цитируемостью в период затишья и в период возобновления интереса должно быть значимым.

Для дальнейшего исследования мы выбрали статью “Extra space-time dimensions: Towards a solution to the cosmological constant problem”. Эта статья физиков В. А. Рубакова и М. Е. Шапошникова вышла в журнале Physics Letters B в 1983 г. Она отличается не самым долгим «сном» — всего 16 лет (тут рекорд принадлежит публикации “Formation of vertical fractures by means of highly viscous liquid", которая вышла в 1955 г., а интерес к ней вернулся уже в нашем тысячелетии), однако интенсивность пробуждения поражает: если в 1999 г. статья Рубакова и Шапошникова была процитирована 4 раза, то в 2000 г. — уже 52 раза.

В оригинальной работе Хауншильда, Маркса и Вайса для определения взаимосвязей между цитирующими статьями используются ключевые слова, однако мы решили строить свой анализ на данных OpenAlex, и поэтому выбрали N-граммы с рядом фильтров — не менее 4 вхождений N-граммы в статью, не менее двух токенов, не более одного токена, состоящего из одного символа. Также мы удалили токены, содержащие в себе символы, которые не входят в набор кодировки ISA/ASCII.

В итоге для 552 статей, цитирующих исследование Рубакова и Шапошникова, было выделено 9208 уникальных токенов, из которых мы выбрали те, что встречаются не менее чем в 20 публикациях из рассматриваемого массива (таких получилось всего 70).

Сеть связей оказалась слишком густой — дело в том, что многие термины универсальны для большинства работ в этой области физики и встречаются почти во всех публикациях. Таким образом, на основе данных OpenAlex повторить эту часть анализа затруднительно — поле keywords в модели данных присутствует, но почти всегда не заполнено или заполнено некорректно.

Попытка воспроизвести анализ сети связности между ключевыми словами, основываясь на ключевых словах в Scopus, оказалась более успешной. Мы анализировали 541 статью, из которых у 283 было заполнено хотя бы одно из полей, содержащих ключевые слова («ключевые слова автора» или «ключевые слова указателя»). Был выделен 581 уникальный токен, из которых мы дополнительно исключили ключевые слова “article”, “gravity”, “cosmos”, “mathematical analysis” как слишком широкие термины, а также отфильтровали те, что встречаются менее 4 раз. В итоге осталось 66 ключевых слов, связи между которыми мы визуализировали на диаграмме ниже:

Следующая часть исследования, которую мы попытались повторить — это визуализация сети связей между авторами работ, цитирующих оригинальное исследование. Анализируя тот же массив из 552 публикаций (по данным OpenAlex), мы выделили 111 исследователей, отвечающих следующим условиям: 1) встречаются среди цитирующих авторов не менее 3 раз, 2) связаны как минимум с 1 из прочих цитирующих авторов.

Итоговая сеть разделилась на два относительно крупных кластера, не связанных между собой. В первом присутствует М.Е. Шапошников, один из авторов работы, во втором центральную часть занимает Ю-Сяо Лю (Yu-Xiao Liu), наиболее плодовитый исследователь среди всего датасета (с его участием написаны 33 работы).

Кластер 1
Кластер 2


К сожалению, Лиза Рэндалл (Lisa Randall) и Раман Сандрум (Raman Sundrum), чья работа, по всей вероятности, пробудила интерес к исследованию советских ученых, на диаграмме вообще не присутствуют — в датасете они упоминались всего однажды, со статьей “An Alternative to Compactification”, которая набрала более 6 тысяч цитирований.

Итак, наш эксперимент оказался не вполне удачным (по крайней мере на открытых данных), но тема всё еще кажется крайне интересной и требует дальнейшего изучения.


Report Page