История библиометрических баз данных и их разновидностей. Часть 1

История библиометрических баз данных и их разновидностей. Часть 1

Выше квартилей

Использование обширных цифровых баз данных стало неотъемлемым элементом академической деятельности. Они позволяют не только искать материалы в отдельных областях, но и отслеживать публикационную активность, а также проводить сложные аналитические исследования научных материалов. В этом контексте мы хотели рассказать об истории ключевых наукометрических платформ, таких как Web of Science (WoS), Scopus, Google Scholar, исследуя их эволюцию и вклад в развитие наукометрии.

Web of Science

Web of Science (WoS) является одной из старейших и наиболее авторитетных систем. Истоки индекса научного цитирования (SCI), самого раннего воплощения того, что мы сейчас называем Web of Science, лежат в попытках преодолеть трудности, связанные с поиском информации в научной литературе. Библиотекари и ученые-информатики в 1950-1960-х годах искали способы индексировать растущую научную литературу, используя современные им технологии автоматической обработки данных, в основном компьютеры, использующие ввод информации с помощью перфокарт:

«‎В 1950-1960-х годах коммерческие организации впервые применили автоматическое индексирование для небольших коллекций отчетов о внутренних исследованиях, определив тем самым цели и возможности, которые должны были реализовать и последовательно совершенствовать более поздние системы. В то время перфорация была излюбленным методом перевода текста в машиночитаемую форму, а для механизации индексирования использовались такие громоздкие инструменты, как перфокарты и табуляторы в сочетании с различными видами систем кодирования»‎ (Bellis, 2009, с. 26).

Основная проблема библиометрии заключалась в том, что не существовало эффективного способа отслеживать, как научные идеи и исследования взаимосвязаны через цитирования. Учёным было трудно оценивать влияние отдельных работ, находить важные исследования и следить за развитием научных тем.

Как мы писали в прошлом посте, для решения этого затруднения доктор Юджин Гарфилд обратился к уже известной в юриспруденции системе цитирований Шепарда. Он предложил с ее помощью концептуализировать библиографические упоминания в научных статьях, чтобы отслеживать связь цитирований между разными документами.

С самого начала своего существования Web of Science разрабатывался с использованием последовательного редакционного процесса, в котором особое внимание уделялось отбору лучших мировых журналов. Ценность отбора ядра лучших журналов основывалась на понятии закона Брэдфорда, первоначально опубликованном С. К. Брэдфордом в 1934 году. Он предположил, что для данной научной дисциплины основная литература включает статьи, опубликованные в ограниченном числе журналов, и что наиболее значимые работы можно обнаружить в сравнительно небольшом количестве источников (Bradford, 1934). Гарфилд расширил это понятие, сформулировав принцип селективности, известный как «закон концентрации Гарфилда», который гласит, что основная литература по всем научным дисциплинам сосредоточена в небольшом наборе основных журналов, набор которых меняется по мере изменения характера исследований в конкретных дисциплинах (Garfield, 1972). Эти два принципа, закон Брэдфорда и закон Гарфилда, легли в основу процесса отбора журналов, используемого в Web of Science (Schnell, 2017, с. 18). Таким образом, селективность и сегодня остается главной характерной чертой WoS как базы данных.

С быстрым внедрением World Wide Web в 1990-х годах индексы цитирования Гарфилда трансформировались в 1997 году в Web of Science. Доступность Web of Science в качестве интернет-платформы, внедрение электронных издательских платформ и распространение количественного управления в академических кругах — все это привело к тому, что Web of Science стал де-факто инструментом оценки научной результативности во многих странаъ.

В середине 2000-х годов начали появляться альтернативные индексы цитирования, такие как Scopus и Google Scholar, что спровоцировало новый интерес к методам оценки исследовательской деятельности и цитируемости.

Теперь Web of Science включает в себя расширенный индекс научного цитирования (SCIE), индекс цитирования социальных наук (SSCI), индекс цитирования искусств и гуманитарных наук (AHCI), а также недавно относительно недавний индекс цитирования новых источников (ESCI), запущенный в 2015 году. Современный Web of Science эволюционировал, чтобы отразить реалии научного мира, который во многом зависит от преодоления междисциплинарных границ. Он охватывает исследования, созданные в развивающихся научных сообществах, что позволяет обеспечивать более комплексное и инклюзивное представление научных достижений по всему миру.

Scopus

Другим флагманом в области наукометрических платформ является Scopus, быстро завоевавший популярность благодаря обширной и мультидисциплинарной базе данных.

Scopus еще относительно молод и является новичком в этой области. Создание Scopus началось в 2002 году небольшой командой из компании Elsevier в Амстердаме, а в марте 2004 года была выпущена первая бета-версия для широкого пользовательского тестирования группой библиотекарей и исследователей. На основе их отзывов, в том числе отзывов об интуитивно понятном пользовательском интерфейсе Scopus, дизайн продукта был доработан, и в конце 2004 года Scopus был запущен в коммерческую эксплуатацию. Elsevier — крупный издатель и информационно-аналитическая компания, выпускающая более 2500 научных журналов (например, таких как The Lancet и Cell). Название происходит от лейденского издательства Elzevir, которое в 1638 году опубликовало последнюю работу Галилея «Discorsi e Dimostrazioni Matematiche Intorno a Due Nuove Scienze», тем самым спасая его от инквизиции католической церкви (Schotten и др., 2017, с. 32).

Название Scopus было придумано во время командной вылазки в лес: оно было дано в честь африканской птицы «‎молотоглав»‎ (Scopus umbretta) — вида настолько уникального, что он заслужил собственный род Scopus и известен своими выдающимися навигационными навыками — подобно тому, как Scopus помогает исследователям ориентироваться в мире научной литературы (Schotten и др., 2017, с. 34). Само слово Scopus первоначально произошло от латинского, означающего «цель» или «задача», и даже нашло свое место в философии Спинозы, который использовал слово scopus для обозначения цели, ведущей к счастью. Латинское слово scopus, в свою очередь, происходит от греческого σκοπός (от глагола σκέπτομαι, «видеть»), которое означает «наблюдатель» или «тот, кто наблюдает», как в слове телескоп (буквально «далеко смотрящий») (ibid.). Таким образом, Scopus предоставляет своим пользователям уникальный взгляд на мировую научную литературу, помогая им легко ориентироваться в ней и быстро достигать желаемой цели или пункта назначения.

Когда Elsevier только запускали Scopus, конкуренты уже пользовались широкой известностью: в то время большинство университетов мира уже были подписаны на WoS, которая привлекала пользователей в том числе за счет рейтинга импакт-факторов научных журналов. Однако за свою относительно короткую историю Scopus добился невероятных успехов: он быстро развился с 27 миллионов проиндексированных статей в 2004 году до 97,2 миллионов документов всех типов на настоящий момент.

Уже в 2016 году Scopus представил свою собственную метрику CiteScore в качестве аналога импакт-фактора для оценки эффективности журналов. В отличие от WoS, Scopus направлен на более широкий охват научных публикаций, включая как журналы (более 25 тысяч источников), так и конференционные материалы и научные монографии. Эта платформа предоставила исследователям мощные инструменты для анализа цитируемости и отслеживания развития научных направлений, что стало возможным благодаря её продвинутым аналитическим функциям, частично распространяемым в качестве надстройки SciVal.

Google Scholar

Google Scholar представляет собой специализированную поисковую систему, разработанную корпорацией Google и предназначенную для поиска научной литературы, включая статьи, диссертации, книги, рефераты и отчеты различных дисциплин. Создание Google Scholar стало ответом на запрос о создании унифицированного и доступного инструмента, работающего по аналогии с обычной поисковой системой.

История появления GS — это пример того, как поисковая система, в силу естественного развития и попыток исследователей использовать её в научных целях, превратилась в специализированный научный инструмент. Со временем у команды разработчиков возникла идея воспользоваться данным потенциалом и создать отдельный ресурс исключительно для научного поиска документов.

Один из сооснователей GS Анураг Ачарья так рассказывает об этом в интервью:

«‎Я пришел в Google в 2000 году, когда у меня был годовой перерыв в научной работе в Калифорнийском университете в Санта-Барбаре. Было совершенно ясно, что в академической среде я вряд ли смогу добиться большего успеха, чем в Google, — сделать так, чтобы люди повсюду могли находить информацию. Поэтому я отказался от академической деятельности и четыре года руководил командой Google по веб-индексации. Это было очень суматошное время, и, по сути, я выгорел. Мы с Алексом Верстаком [коллегой Ачарьи по команде веб-индексации] решили взять творческий отпуск на полгода, чтобы попытаться сделать поиск научных статей более удобным. Идея заключалась не в том, чтобы создать Google Scholar, а в том, чтобы улучшить ранжирование научных документов в веб-поиске. Но при попытке сделать это возникает проблема — нужно выяснить намерения пользователей. Нужны ли им научные результаты или они не являются специалистами? Мы сказали: “Предположим, вам не нужно решать такую сложную задачу; предположим, вы знаете, что пользователь имеет научные цели”. […] Тогда Scholar явно показался очень полезным и очень важным, так что в итоге я так и остался с ним»‎ (Van Noorden, 2014, с. 1)

Официально Google Scholar был представлен широкой аудитории 18 ноября 2004 года. Появление академических поисковых систем стало началом новой эры. Теперь веб-инструменты автоматически индексируют академические материалы, независимо от их типологии и языка, предоставляя данные сторонним приложениям, которые генерируют библиометрические показатели (Jacsó, 2011).

С первых дней своего существования Google Scholar привлек внимание благодаря удобно спроектированному интерфейсу и возможности свободного доступа к огромному количеству научных материалов. Интерфейс Google Scholar интуитивно понятен и прост в использовании. Пользователи могут быстро находить нужные материалы, вводя ключевые слова, авторов или названия статей. Поиск в Google Scholar похож на обычный интернет-поиск, что делает его относительно удобным для пользователей, не знакомых с научными базами данных.

Создатели проекта подчеркнули свою приверженность идее демократизации доступа к научным знаниям, что способствовало росту популярности сервиса. Google Scholar отличается в первую очередь своим режимом доступа: GS не требует подписки и является абсолютно бесплатным. Кроме того, база данных обладает упрощенным интерфейсом, не отягчающим пользователя большим количеством информации. Оба этих фактора делают GS невероятно популярным как среди ученых или студентов, так и у государств с ограниченным финансированием НИОКР. Однако политика открытого доступа по аналогии с обычной поисковой системой Google, из которой и выросла GS как специализированный академический поиск, имеет свои естественные ограничения: за бесплатный доступ приходиться платить непрозрачностью алгоритмов базы данных и поисковой системы. Проще говоря, никто, кроме самих разработчиков, не может сказать что у GS «‎под капотом»‎. Кроме того, упрощенный интерфейс сильно ограничивает работу библиометристам, так как фактически главные показатели поисковой системы — это количество цитирований документа и ссылки процитировавшие работы. Для более сложной аналитики требуются специальные надстройки и программы, например, такие как Publish or Perish.

На момент запуска его функционал был сконцентрирован на предоставлении исследователям быстрого доступа к научным статьям и их цитатам. Одной из ключевых особенностей стала возможность поиска по полному тексту публикаций, что существенно повысило точность и релевантность результатов. Google Scholar также активно использует технологии машинного обучения и искусственного интеллекта для повышения качества поиска и ранжирования научных публикаций.

Google Scholar индексирует не только рецензируемые статьи из научных журналов, но и диссертации, книги, конференционные материалы, а также предпечатные версии и отчеты. Это обеспечивает гораздо более широкий спектр результатов поиска по сравнению с более традиционными базами данных, такими как Web of Science и Scopus, которые обычно сосредоточены на рецензируемых журналах. Google Scholar также включает возможность поиска по патентам, что является огромным плюсом для исследователей, работающих в области технологического развития и инноваций. Кроме того, база данных включает материалы из судов, что может быть полезно для юридических исследований. Это может быть как преимуществом, так и недостатком: с одной стороны, пользователи получают доступ к более разнообразному контенту, а с другой стороны, это может привести к тому, что в выдаче будут встречаться менее качественные или ненадежные источники.

В последующие годы Google Scholar значительно расширил свой функционал. Были добавлены такие возможности, как создание профилей авторов, отслеживание их публикационной активности, и система оповещений о новых статьях и цитатах. Кроме того, Google Scholar стал интегрироваться с другими сервисами и базами данных, что облегчило доступ к полнотекстовым версиям статей через институциональные подписки и открытые архивы (López-Cózar и др., 2017).

С момента своего появления Google Scholar существенно повлиял на академическое сообщество. Этот сервис не только значительно упростил процесс поиска и анализа научной информации, но и способствовал расширению доступа к знаниям. Google Scholar, пройдя путь от поискового инструмента до интегрированной платформы для научных исследований, стал неотъемлемой частью современного академического мира. Его история — это история технологического прогресса и стремления к созданию доступного и эффективного инструмента для поиска научной информации, который продолжает развиваться и адаптироваться под запросы исследователей по всему миру.

Microsoft Academic Graph (MAG) и OpenAlex

Microsoft Academic Graph (MAG) был представлен компанией Microsoft в 2015 году (Sinha и др., 2015) и стал популярным благодаря использованию передовых алгоритмов машинного обучения для анализа научной информации. MAG быстро закрепился как важный ресурс для исследователей благодаря глубокому автоматизированному подходу к индексации и структурированию данных, что предполагало попытку, с одной стороны, повторить успех Google Scholar с его всеохватностью, а с другой, создать базу данных, на основе которой можно проводить глубокие библиометрические исследования наравне с WoS и Scopus. Так при сравнении нескольких баз данных с MAG исследователи отмечают, что общий охват последнего превосходит все остальные (Visser и др., 2021).

На момент своего появления MAG в отличие от других баз предоставлял пользователям возможность работать с метаданными через API, что открывало широкие возможности для анализа и визуализации исследовательских данных, а также позволяло исследователям свободно использовать и интегрировать данные MAG в свои проекты и приложения.. Одной из уникальных особенностей MAG являлась его графовая структура, которая позволяла моделировать и анализировать связи между различными объектами: статьями, авторами, организациями и так далее. В отличие от более традиционных баз данных с плоской или табличной структурой графовая природа MAG делала его уникальным инструментом для анализа научных коллабораций, цитирований и других метрик. На таких данных можно выполнять сложные запросы, позволяющие, например, выявлять ключевых авторов и организации в конкретной научной области. MAG использовал систему Entity Linking (соотношение сущностей), которая связывает статьи с соответствующими предметными областями, авторами, организациями и конференциями. Это позволяло более точно классифицировать научную литературу и улучшало качество поиска и фильтрации результатов.

В мае 2021 года в блоге Microsoft было объявлено, что 31 декабря 2021 года MAG прекратит свою работу. В то же время некоммерческая организация OurResearch объявила, что сохранит и включит последний полный корпус MAG, исключая патентные данные.

После закрытия MAG в 2021 году ему на смену пришел OpenAlex, запущенный в январе 2022 года и фактически унаследовавший многие функции своего предшественника. OpenAlex продолжает развивать идеи MAG, предоставляя открытые данные и инструменты для анализа научной активности. На данный момент инициатива открытого знания университета Кёртина занимается мониторингом развития OpenAlex и анализом его вклада в сравнении с MAG и Crossref (Scheidsteger & Haunschild, 2023).

Перечисленные базы данных имеют ряд недостатков, включая ограниченную доступность, слабый охват книг и материалов конференций, а также неадекватные механизмы для различения авторов. Чтобы ознакомиться с сегодняшним положением дел можно обратиться к нашему майскому дайджесту, в котором упоминалось подробное сравнение метаданных в разных базах данных.

Эволюция библиометрических баз данных демонстрирует прогресс в области научных исследований и анализа данных, начиная с первых попыток систематизации знаний и до современных мультидисциплинарных и открытых платформ. Web of Science и Scopus заложили основы для развития данной области, предоставив надежные и широко используемые метрики и инструменты. Таким образом, история развития библиометрических баз данных представляет собой непрерывный процесс эволюции, направленный на улучшение и доступность научной информации для исследователей по всему миру. Эти базы данных не только способствуют росту и развитию науки, но и обеспечивают инструменты для глубокого анализа, взаимосвязей и ретроспективных исследований, которые являются неотъемлемой частью современного научного процесса.

Источники

  1. Bellis, N. D. (2009). Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics. Scarecrow Press.
  2. Bradford, S. C. (1934). Sources of information on specific subjects. Engineering, 137, 85–86.
  3. Garfield, E. (1972). Citation Analysis as a Tool in Journal Evaluation: Journals can be ranked by frequency and impact of citations for science policy studies. Science, 178(4060), 471–479. https://doi.org/10.1126/science.178.4060.471
  4. Jacsó, P. (2011). Google Scholar duped and deduped–the aura of “robometrics”. Online information review, 35(1), 154–160.
  5. López-Cózar, E. D., Orduña-Malea, E., Martín-Martín, A., & Ayllón, J. M. (2017). Google Scholar: The big data bibliographic tool. В Research Analytics (сс. 59–80). Auerbach Publications. https://www.taylorfrancis.com/chapters/edit/10.1201/9781315155890-4/google-scholar-big-data-bibliographic-tool-emilio-delgado-lópez-cózar-enrique-orduna-malea-alberto-martín-martín-juan-ayllón
  6. Orduña-Malea, E. (2016). La revolución Google Scholar: Destapando la caja de Pandora académica. https://www.torrossa.com/it/resources/an/4431066
  7. Scheidsteger, T., & Haunschild, R. (2023). Comparison of metadata with relevance for bibliometrics between Microsoft Academic Graph and OpenAlex until 2020. El Profesional de la información, e320209. https://doi.org/10.3145/epi.2023.mar.09
  8. Schnell, J. D. (2017). Web of Science: The first citation index for data analytics and scientometrics. Research Analytics (сс. 15–30). Auerbach Publications. https://www.taylorfrancis.com/chapters/edit/10.1201/9781315155890-2/web-science-first-citation-index-data-analytics-scientometrics-joshua-schnell
  9. Schotten, M., Meester, W. J., Steiginga, S., & Ross, C. A. (2017). A brief history of Scopus: The world’s largest abstract and citation database of scientific literature. В Research analytics (сс. 31–58). Auerbach Publications. https://www.taylorfrancis.com/chapters/edit/10.1201/9781315155890-3/brief-history-scopus-world-largest-abstract-citation-database-scientific-literature-michiel-schotten-hamed-el-aisati-wim-meester-susanne-steiginga-cameron-ross
  10. Sinha, A., Shen, Z., Song, Y., Ma, H., Eide, D., Hsu, B.-J. (Paul), & Wang, K. (2015). An Overview of Microsoft Academic Service (MAS) and Applications. Proceedings of the 24th International Conference on World Wide Web, 243–246. https://doi.org/10.1145/2740908.2742839
  11. Van Noorden, R. (2014). Google Scholar pioneer on search engine’s future. Nature. https://www.nature.com/articles/nature.2014.16269
  12. Visser, M., van Eck, N. J., & Waltman, L. (2021). Large-scale comparison of bibliographic data sources: Scopus, Web of Science, Dimensions, Crossref, and Microsoft Academic. Quantitative Science Studies, 2(1), 20–41. https://doi.org/10.1162/qss_a_00112
  13. Wilder, E. I., & Walters, W. H. (2021). Using Conventional Bibliographic Databases for Social Science Research: Web of Science and Scopus are not the Only Options. Scholarly Assessment Reports, 3(1), 4. https://doi.org/10.29024/sar.36

Report Page