Preview

Наука и научная информация

Расширенный поиск

ОТКРЫТЫЙ ДОСТУП СЕГОДНЯ: ШИРОКОМАСШТАБНЫЙ АНАЛИЗ РАСПРОСТРАНЕННОСТИ И ВЛИЯНИЯ СТАТЕЙ ОТКРЫТОГО ДОСТУПА

https://doi.org/10.24108/2658-3143-2019-2-4-228-247

Полный текст:

Аннотация

Хотя интерес к открытому доступу (ОД) к научной литературе выразился в большом количестве публикаций, пока остается неудовлетворенной потребность в широкомасштабном современном исследовании с воспроизводимыми результатами, которое оценило бы распространенность и характеристики публикаций открытого доступа. Мы откликаемся на эту потребность с помощью oaDOI, общедоступного онлайнового сервиса, определившего статус ОД для 67 миллионов статей. Для исследования мы используем три группы статей объемом 100 тысяч каждая: (1) статьи c DOI от CrossRef; (2) статьи последних лет, проиндексированные в Web of Science; и (3) статьи, открытые пользователями Unpaywall, общедоступного браузерного расширения, позволяющего пользователям находить статьи ОД с помощью oaDOI. Наша оценка процента научной литературы открытого доступа — не менее 28% (19 миллионов), причем этот процент растет в основном за счет Золотого и Гибридного ОД. Последний проанализированный период, 2015 г., показал наивысший процент ОД — 45%. Благодаря этому росту и c учетом того, что пользователи чаще всего обращаются к свежим статьям, мы обнаружили, что пользователи Unpaywall достаточно часто просматривают статьи ОД: 47% всех открытых статей. Интересно, что самый распространенный тип ОД — не Золотой, Зеленый или Гибридный, а дискуссионный тип, который мы называем Бронзовым. Это статьи в свободном (бесплатном) доступе на сайте издателя, не имеющие открытой лицензии. Мы также исследуем влияние открытого доступа на цитирование статей, подтверждая так называемое преимущество статей ОД в аспекте цитирования: с учетом времени публикации и тематики статей ОД они получают в среднем на 18% больше цитирований. Этот эффект обеспечивается в основном за счет Зеленого и Гибридного ОД. Мы призываем к дальнейшим исследованиям с использованием сервиса oaDOI с целью выработки обоснованной политики и практики открытого доступа.

Для цитирования:


Пивовар Х., Прим Д., Ларивьер В., Алперин Х.П., Маттиас Л., Норландер Б., Фарли Э., Вест Д., Хауштайн С. ОТКРЫТЫЙ ДОСТУП СЕГОДНЯ: ШИРОКОМАСШТАБНЫЙ АНАЛИЗ РАСПРОСТРАНЕННОСТИ И ВЛИЯНИЯ СТАТЕЙ ОТКРЫТОГО ДОСТУПА. Наука и научная информация. 2019;2(4):228-247. https://doi.org/10.24108/2658-3143-2019-2-4-228-247

For citation:


Piwowar H., Priem J., Larivière V., Alperin J.P., Matthias L., Norlander B., Farley A., West J., Haustein S. THE STATE OF OA: A LARGE-SCALE ANALYSIS OF THE PREVALENCE AND IMPACT OF OPEN ACCESS ARTICLES. Scholarly Research and Information. 2019;2(4):228-247. (In Russ.) https://doi.org/10.24108/2658-3143-2019-2-4-228-247

Введение

Движение за открытый доступ (ОД) ко всей на­учной литературе насчитывает более пятнадцати лет. В последние годы ряд событий говорит о том, что многолетняя работа привела к кардиналь­ным изменениям. Во-первых, фонды все больше внедряют поддержку публикаций ОД для гран- тополучателей. После Национального института здравоохранения США, утвердившего мандатом политику ОД в 2008 г. (https://publicaccess.nih.gov/index.htm), сделали обязательной публика­ции в открытом доступе для своих грантополу- чателей фонд Билла и Мелинды Гейтс (http://www.gatesfoundation.org/How-We-Work/General-Information/Open-Access-Policy), Европейская ко­миссия (http://ec.europa.eu/research/participants/data/ref/h2020/grants manual/hi/oa pilot/h2020-hi-oa-pilot-guide en.pdf), Национальный фонд науки США (https://www.nsf.gov/pubs/2015/nsf15052/nsf15052.pdf), the Wellcome Trust (https://wellcome.ac.uk/press-release/wellcome-trust-strengthens-its-open-access-policy) и другие. Во-вторых, был разработан ряд сервисов, повы­шающих удобство пользования ресурсами ОД и увеличивающих их ценность. Среди них — плат­формы дискавери ScienceOpen и 1Science, а так­же браузерные расширения Open Access Button, Canary Haz и Unpaywall. В-третьих, то, что Sci-Hub (сайт, предлагающий пиратский свободный до­ступ к полным текстам статей) собрал огромное количество пользователей, вызвало интенсивное обсуждение этики и эффективности платного до­ступа [1, 2]. Научные социальные сети ResearchGate и Academia.edu предлагают авторам все более популярные, но сомнительные решения по архи­вации своих работ [3, 4]. Наконец, возрастающая стоимость подписки, особенно в рамках Big Deals (крупных сделок), вынудила организации массово отказываться от подписок. Среди недавних приме­ров — Caltech, the University of Maryland, University of Konstanz, Universite de Montreal и национальная система Перу [5-8]. Поскольку платный доступ в су­ществующем виде становится слишком дорогим, организации начинают рассматривать ОД как не­кий «План Б» для поддержания доступа к необхо­димой литературе [9].

Таким образом, открытый доступ вызвал новую волну вовлеченности и полемики в больших груп­пах заинтересованных лиц. Возможно, мы при­ближаемся к очень важному моменту в развитии ОД и более того — в развитии системы научной коммуникации. Однако, несмотря на заметное оживление разработок и обсуждений ОД, мы ну­ждаемся в больших объемах достоверных данных о количественном росте и структуре литературы открытого доступа. Конкретизируя: нам необхо­дим обзор состояния ОД, основанный на данных, который был бы (а) масштабным, (б) современным и (в) воспроизводимым. Эта статья пытается дать та­кой обзор, опираясь на новый свободно доступный сервис oaDOI, который находит ссылки на доступ­ные легально научные статьи ОД. На основе данных oaDOI мы отвечаем на следующие вопросы.

Каков процент научной литературы открытого доступа и как он меняется в зависимости от изда­тельства, дисциплины и года публикации?

Действительно ли публикации ОД цитируются лучше, чем платные?

В следующем разделе приводится краткий обзор литературы по теме статьи, описание наборов дан­ных и используемых методов, а также детали опре­делений категорий, используемых oaDOI. Далее приводятся результаты ответов на каждый вопрос исследования, за которыми следует общее обсуж­дение и выводы.

Обзор литературы

За пятнадцать лет исследований открытого до­ступа было опубликовано много литературы, ис­черпывающий обзор которой не входит в задачи данной статьи. Последние глубокие обзорные ис­следования представлены в [10, 11]. Здесь мы сосре­доточимся на кратком рассмотрении трех основ­ных тем литературы по ОД: определении ОД и его подтипов, оценке распространенности ОД и иссле­дованиях сравнительного влияния публикаций ОД.

Несмотря на обилие литературы по открытому доступу, сам термин остается несколько размытым [9]: слишком сложно предложить его авторитет­ное общепринятое определение. Наиболее рас­пространенное определение содержится в тек­сте Будапештской инициативы открытого доступа (Budapest Open Access Initiative — BOAI) 2002 г. В нем ОД определяется как доступ, разрешающий сво­бодное чтение контента и его вторичное исполь­зование, а именно возможность индексирования статей, выгрузки их программными средствами или использование для любых других законных целей. На практике определение BOAI пример­но эквивалентно популярной лицензии Creative Commons CC-BY [12]. Однако ряд других источников предпочитают менее строгое определение ОД, тре­буя лишь возможности бесплатно читать научную литературу онлайн [13] или чтобы она была цифро­вой, онлайновой и бесплатной [14]. Некоторые ав­торы считают, что ОД следует понимать как некий диапазон возможностей использования [15].

Исследователи выделяют несколько подти­пов ОД; некоторые из них признаются практиче­ски всеми, некоторые остаются дискуссионными. Мы не стремимся дать их полный перечень, а при­ведем те, которые актуальны в контексте данного исследования.

  • Libre ОД [16] очень похоже на определение BOAI: оно декларирует права пользователей на чтение и вторичное использование доку­ментов, в частности для автоматического ин­дексирования, архивации и иных целей.
  • Gratis ОД [16], в противоположность Libre, про­возглашает право только на чтение.
  • Золотой ОД: статьи публикуются в журнале от­крытого доступа (в котором все статьи открыты на сайте журнала). На практике журналы откры­того доступа определяются как включенные в DirectoryofOpenAccessJournals (DOAJ) [17,18].
  • Зеленый ОД: статьи публикуются в журна­ле, распространяемом по платной подписке, но архивируются авторами в открытом архиве. Открытые архивы — это либо тематические ре­позитории, такие как ArXiv, либо репозитории организаций (institutionalrepositories — IRs), обычно поддерживаемые университетами; архивированные статьи могут быть как опу­бликованными версиями, так и электронными препринтами [19]. Большинство статей Зеле­ного ОД не соответствуют определению BOAI: для них не разрешено вторичное использова­ние; они относятся к типу Gratis ОД.
  • Гибридный ОД: статьи публикуются в подпис­ном журнале, но немедленно предоставляются в свободный доступ под открытой лицензией за счет оплаты автором стоимости публикации (articleprocessingcharge — APC) [20, 21].
  • Отложенный ОД: статьи публикуются в подпис­ном журнале, но становятся свободно доступ­ными по прошествии периода эмбарго [21, 22]).
  • Научные социальные сети (AcademicSocialNetworks — ASN): статьи распространяются их авторами через коммерческие социаль­ные сети, такие как ResearchGate и Academia. edu. Одни исследователи рассматривают это явление как тип ОД [4, 23], другие считают, что это вообще не открытый доступ. В отли­чие от репозиториев Зеленого ОД в сетях ASN не проверяется лицензионная чистота, поэто­му примерно половина статей размещена там нелегально [24]. Этот факт вызывает озабочен­ность стабильностью контента, так как в октя­бре 2017 г., например, издатели потребовали удаления из ASN большого количества неле­гально размещенных статей [25]. Поднимает­ся также вопрос надежности и этики ASN [26]. В силу этих обстоятельств мы исключаем кон­тент ASN из нашего определения ОД.
  • Черный ОД: статьи, распространяемые на нелегальных пиратских сайтах, прежде все­го, на SciHub и LibGen. Хотя в [27] эти статьи называются подтипом ОД, этот подход не по­лучает поддержки в литературе по ОД. Учиты­вая это, мы исключаем контент SciHub и LibGen из нашего определения ОД.

Основываясь на консенсусе (а иногда на отсут­ствии такового) относительно определения ОД и его подтипов, будем использовать в этой статье следующее определение: статьи открытого досту­па — это статьи, которые можно свободно читать в онлайне на сайте издателя или в репозитории.

Распространенность ОД

Оценка того, какой процент литературы пред­ставлен в открытом доступе, проводилась во мно­гих работах, например в [17, 18, 23, 28-31]. Нам неиз­вестны подобные исследования, опубликованные после 2014 г. Две последние работы оценивают процент публикаций свободного доступа более чем в 50%, причем одна из них учитывает и ОД в строгом понимании, и публикации, размещенные в научных социальных сетях (ASN). Наиболее пол­ное исследование [17] приводит следующие дан­ные для статей 2011-2013 гг.: 12% статей свободно доступны на сайтах журналов, 6% — в репозитори­ях и 31% — через другие механизмы, включая ASN. В нем также отмечено, что количество документов ОД, опубликованных между 1996 и 2011 гг., возросло на 4% с апреля 2013 по апрель 2014 г., причем раз­мещение работ прошлых лет происходит в основ­ном в Зеленом ОД. Анализ на уровне отдельных дисциплин совпадает с данными других исследо­ваний: наиболее высокий процент публикаций ОД наблюдается в биомедицинских науках и матема­тике, наиболее низкий — в инженерных науках, хи­мии и гуманитарных науках.

Особенно интересно исследование [17], в кото­ром для поиска и идентификации документов ОД применялось автоматизированное «прочесыва­ние» Интернета; более ранние исследования ос­новывались на ручной проверке DOAJ, сайтов из­дателей, Google и Google Scholar (хотя было одно исключение — работа [32]). Применив автоматизи­рованные методы формирования выборки, авторы [17] получили сотни тысяч статей, значимо повысив статистическую достоверность и нюансировку ре­зультатов. Более того, разработав систему индек­сирования ОД-контента, они сняли главную озабо­ченность исследователей ОД, как отмечено в [29]: «Главным вызовом для исследователей... было отсутствие надежного индексирования журналов ОД и опубликованных в них статей». Представлен­ная в [17] автоматизированная система очень точ­на: она неверно определяет ОД лишь в 1% случаев, находя при этом 75% всех онлайновых докумен­тов ОД; однако она не может различить Золотой и Гибридный ОД. Недостатком системы для ис­следователей является ее закрытость: ее нельзя использовать онлайн для дальнейших изысканий. Напротив, впоследствии данные были использо­ваны для разработки коммерческой базы данных 1science (http://www.1science.com/oanumbr.html).

Преимущества ОД в аспекте цитирования

Сравнению показателей цитирования докумен­тов ОД и документов по платной подписке посвяще­ны многочисленные исследования. Большинство из них фиксировало превышение цитирования документов ОД, обозначенное специальным тер­мином «преимущества ОД в цитировании» (open access citation advantage — OACA); были даже соз­даны аннотированные библиографические указа­тели, отражающие эту литературу [33-35]. Однако единодушной поддержки явление OACA не получи­ло. Многие работы, доказывающие преимущества ОД в цитировании, критиковались с точки зре­ния методологии [36], а исследование с примене­нием метода случайной выборки не подтвердило этого преимущества [37]. Однако недавние работы, использовавшие разнообразные методы, вновь обнаружили явление OACA. Например, в [38] с использованием сложной статистической моде­ли для снижения эффекта выборочного размеще­ния авторами в ОД своих лучших работ показано небольшое, но значимое преимущество ОД в 8%. В работе [17] преимущество в 40% продемонстри­ровано на огромном массиве более чем в миллион статей с учетом нормализованного по дисципли­не показателя цитирования. В [39] был применен естественный (не зависящий от выбора авторов) отбор статей, перешедших в ОД по истечении пе­риода эмбарго; превышение цитирования для них составило 19%.

Методы

Определение ОД

■ Классификации

Мы распределяем все публикации на две ка­тегории: открытого (ОД) и закрытого доступа (ЗД). Как было сказано выше, мы считаем, что доку­мент находится в открытом доступе, если его мож­но свободно читать в онлайне на сайте издателя или в репозитории, все другие документы счита­ются закрытыми. Далее мы выделяем четыре не- пересекающиеся подкатегории ОД и в результате получаем пять категорий статей.

  • Золотая категория: статьи, опубликованные в журнале открытого доступа, зарегистриро­ванного в
  • Зеленая категория: статьи, платные на изда­тельском сайте, для которых имеется свобод­ная копия в открытом репозитории.
  • Гибридная категория: статьи, опубликованные в платных журналах на условиях открытой ли­цензии.
  • Бронзовая категория: статьи, свободно доступ­ные для чтения на сайте издателя, у которых отсутствует лицензия, явно описывающая ре­жим использования.
  • Закрытая категория: все другие статьи, вклю­чая все, доступные только через ASN или Sci-Hub.

Хотя эти категории, по сути, соответствуют по­ниманию соответствующих терминов в литера­туре по ОД, необходимы некоторые пояснения. Во-первых, мы, как многие другие авторы, не учи­тываем контент, распространяемый через науч­ные социальные сети (ASN). Во-вторых, катего­рии не пересекаются — и статьи на издательских сайтах имеют приоритет перед архивированными в репозиториях, то есть если статья опубликована в Золотом журнале и открытом репозитории, она попадает в Золотую категорию. Другими словами, издательский контент «отодвигает в тень» статьи, которые могли бы относиться к Зеленой катего­рии. Такое понимание Зеленых статей (доступных в репозитории, но недоступных на сайте издателя) часто встречается в литературе по ОД (в том чис­ле у автора терминов «Зеленый ОД» и «Золотой ОД» Стивена Харнада [19]), но признается не всеми. В некоторых работах допускается, что одна и та же статья может принадлежать и Золотой, и Зеленой категории; по сравнению с этим подходом наше исследование недооценивает количество Зеленых статей. Гибридные и Золотые статьи имеют общие характеристики, будучи открыты для чтения и вто­ричного использования, но различаются местом публикации, так как Гибридные статьи публикуются в журналах, не относящихся к журналам ОД соглас­но DOAJ, и тем, что они могут иметь период эмбарго. Мы также вводим новую Бронзовую подкатегорию. Бронзовые статьи похожи и на Золотые, и на Ги­бридные тем, что публикуются на сайтах издателей. Но их нельзя считать Золотыми, так как опубли­ковавшие их журналы не учтены в DOAJ, и нельзя считать Гибридными, поскольку для них отсутству­ет явным образом обозначенная лицензия. И хотя отсутствие лицензии может быть ненамеренным, по умолчанию такие статьи доступны только для чтения, но не для вторичного использования. Кроме того, для Бронзовых статей нельзя опре­делить, будут ли они доступны для чтения всегда или только в определенный период.

Наконец, необходимо отметить, что хотя выбран­ные нами категории отражают понимание их в ли­тературе по ОД, они не вполне отражают сложную картину современной системы научных публика­ций. К примеру, латиноамериканские организации SciELO и Redalyc являются одновременно и изда­телями, и репозиториями, поэтому многие статьи на их сайтах невозможно однозначно отнести к од­ной из выделенных нами категорий [40].

■ Система oaDOI

Присвоение категорий происходило через за­просы к сервису oaDOI по DOI статей. Сервис воз­вращает ссылку на легально доступную ОД-версию статьи при наличии таковой (https://oadoi.org/). База oaDOI включает записи для всех 88 милли­онов DOI CrossRef. Сервис обходит, агрегирует и нормализует данные из множества источни­ков, в числе которых — PMC (https://www.ncbi.nlm.nih.gov/pmc/). BASE (https://www.base-search.net/about/en/), DOAJ (https://doai.org/) и множество сайтов репозиториев организаций и издателей. Система oaDOI предоставляет доступ к API без ка­ких-либо ограничений, что позволяет поддержи­вать другие сервисы и разработки. На момент под­готовки статьи oaDOI обрабатывал около 500 тысяч запросов в день, что примерно вдвое больше, чем в Sci-Hub [1, 41]. Большинство запросов приходит из примерно 700 научных библиотек в ситуациях, когда они помогают читателям найти статьи, недо­ступные по подписке, решая тем самым проблему их обнаружения [31]. Сервис oaDOI — основа рабо­ты браузерного расширения Unpaywall, помогаю­щего пользователям найти легально доступные ОД-версии документов; сейчас Unpaywall активно используют около 80 тысяч человек. oaDOI основан на открытом коде, он бесплатен и открыт через об­щедоступный API.

■ Точность oaDOI

Для оценки точности автоматического опреде­ления ОД мы отобрали случайным образом 500 ста­тей из нашей основной выборки Crossref-DOIs, опи­санной ниже. Мы вручную провели поиск каждой статьи в Интернете, чтобы определить, доступна ли она на сайте издателя или на другом сайте: репозитории организации, научной социальной сети или на персональной странице. Разреше­ние DOI проводилось со страницы https://doi.org. Если полный текст был доступен через эту ссылку, статья маркировалась как доступная на сайте из­дательства. Если требовался оплаченный доступ, проводился поиск по заглавию в Google Scholar (GS) и Google, чтобы найти альтернативные вер­сии (препринты или архивированные копии). Если полный текст был найден на любом издательском сайте или в открытом репозитории, он маркиро­вался как свободно доступный в архиве. Если един­ственная открытая копия была доступна в научной социальной сети (Academia.edu или ResearchGate), делалась пометка об этом, но в рамках этого иссле­дования она не относилась ни к одной из катего­рий ОД, а маркировалась как Закрытый доступ.

Ниже показаны итоговые показатели работы oaDOI в сравнении с ручной проверкой доступно­сти статей. В онлайновых приложениях (см. раз­дел «Дополнительная информация») приводится полный набор сравниваемых данных. На их основе вычислялись полнота и точность работы системы. Показатель полноты отвечает на вопрос «Если ста­тья находится в открытом доступе, насколько часто oaDOI верно определяет ее открытость?». Полу­ченное значение полноты составило 77%, то есть для 77% свободно доступных статей oaDOI пра­вильно определил это. Показатель точности отве­чает на вопрос «Когда oaDOI определяет, что ста­тья свободно доступна, в каком проценте случаев это верно?». Полученное значение точности соста­вило 96,6%, то есть в 96,6% случаев ответ oaDOI был правильным.

Эти результаты примерно соответствуют по­лученным в исследовании [17] в результа­те работы их автоматизированной системы: 86,4 и 99,1% соответственно. Показатели полно­ты и точности также рассчитывались на выборке в 500 документов; статистическая погрешность в обоих исследованиях составила ±4,5%. В работе [17] выборка формировалась на временном ин­тервале с 1996 г., в то время как в данной работе ограничения по времени не применялись. Период с 1996 г. был более однородным в плане распро­страненности ОД, что отчасти объясняет лучшие показатели исследования коллег.

Сервис oaDOI оптимизирован под показа­тель точности в большей степени, чем под полноту. Очень высокий показатель точности говорит о том, что любые оценки на основе базы oaDOI можно счи­тать консервативными по отношению к реальным показателям ОД в потоке литературы. То есть мы мо­жем с уверенностью утверждать, что если oaDOI показывает определенный процент ОД, реальный процент не ниже этого, а скорее выше, учиты­вая то, что показатель полноты далек от идеала. Другими словами, oaDOI порождает очень мало ложноположительных результатов (случаев, когда он ошибочно считает статью открытой), но относи­тельно много ложноотрицательных (когда он оши­бочно считает статью закрытой), как показано в таблице 1. Мы планируем усовершенствовать си­стему, чтобы повысить полноту, не снижая показа­тель точности.

 

Таблица 1. Показатели работы прототипа сервиса oaDOI, использованного в данной работе

Table 1. Accuracy of the prototype version of the oaDOI service used in this study

 

oaDOI определяет как ОД / oaDOI reports Open

oaDOI определяет как ЗД / oaDOI reports Closed

Подсчет вручную всего / Manual count Total (ground truth)

Открытый доступ / Open

144

43

187

Закрытый доступ / Closed

5

308

313

Всего/Total

149

351

500

DOI: 10.7717/peerj.4375/table-1

 

Выборки, сформированные для данного исследования

Показатели трех выборок научных ресурсов, имеющих DOI, представлены в таблице 2 и описа­ны ниже.

 

Таблица 2. Обобщенные данные выборок, использованных в данной работе

Table 2. Summary of samples used in this study

Название выборки / Sample name

Размер выборки / Sample size

Наполнение выборки / Population sampled

Целевое назначение / Purpose

Объем выборки / Population size

Crossref-DOIs

100,000

All journal articles with Crossref DOIs, all years

Estimate percentage of the literature that is OA

66,560,153

WoS-DOIs

100,000

All citable WoS articles with DOIs, 2009-2015

Estimate citation impact of recent OA papers, and also OA prevalence by discipline

8,083,613

Unpaywall-DOIs

100,000

All articles accessed by Unpaywall users over a 1-week period in 2017

Estimate percentage of OA experienced by users of the Unpaywall extension

213,323

DOI: 10.7717/peerj.4375/table-2

 

■ Выборка из Crossref

Первая выборка «Crossref-DOIs» — случай­ная выборка в 100 тысяч журнальных статей, имеющих DOI, любых лет публикации. На май 2017 г. в базе Crossref было 88 млн записей. Чтобы исключить книги, наборы данных и другой контент, мы делали отбор по значению элемента метадан­ных type равному journal-article; всего таких запи­сей в базе оказалось 66 млн. Для проверки точности Crossref мы проверили вручную 150 единиц контен­та и обнаружили, что 93% действительно были жур­нальными статьями, а оставшиеся 7% — в основном первыми разделами журналов типа страницы со­держания или инструкции для авторов.

Назначение этой выборки — грубая оценка на­учной литературы в целом. Это определяет ее сильные и слабые стороны. Одна из слабых сто­рон — то, что хотя в Crossref есть информация о цитировании и дисциплине, эти данные далеко не полные, следовательно, их нельзя было исполь­зовать. Другая заключается в том, что исследова­тели в области наукометрии и ОД в основном по­лагаются на иные источники, особенно на Scopus и Web of Science (WoS) для оценки потока литера­туры в целом, поэтому наши результаты трудно сравнивать с результатами прежних исследований. Наконец, известно, что DOI реже присваиваются публикациям в некоторых дисциплинах, в частно­сти в гуманитарных науках [42], в некоторых ре­гионах, в особенности в развивающихся странах, и для более старых работ [43]; следовательно, эти сегменты хуже представлены в нашей выборке. Однако известно, что Scopus и Web of Science так­же недостаточно учитывают важные сегменты ли­тературы [44], так что этот недостаток свойствен не только Crossef. Кроме того, выборка из Crossref имеет важное преимущество по сравнению с ин­дексами. Хотя никакая выборка научной литерату­ры не может быть полной во всех аспектах, Crossref содержит больше записей: в июле 2017 года в нем было 67 млн журнальных статей, а в Scopus — 30 млн (https://www.elsevier.com/solutions/scopus/content). Crossref — система, открытая для ис­пользования, а Scopus и Web of Science доступны по подписке; благодаря этому преимуществу дан­ные исследования по Crossref можно размещать в открытом доступе, что позволяет воспроизво­дить и повторять результаты нашего исследова­ния. Однако нам пришлось обратиться и к Web of Science, чтобы оценить цитирование и распреде­ление по дисциплинам статей ОД, поскольку дан­ных Crossref для этого недостаточно.

■ Выборка из Web of Science

Вторая выборка, WoS-DOIs, — случайная выборка в 100 тысяч журнальных статей с DOI, индексируе­мых в Web of Science. Она была сформирована из ло­кальной базы WoS, используемой в Observatoire des sciences et des technologies (OST) в Университе­те Квебека в Монреале. В выборку включены толь­ко статьи, определяемые WoS как потенциально цитируемые (citable items), благодаря чему в нее не попадает нерецензируемый контент типа мате­риалов «от редактора» и новостей. Выборка огра­ничена периодом с 2009 по 2015 г. — периодом, когда присвоение DOI стало распространенным явлением. Выборка формировалась случайным образом из массива в 8 млн статей и обзоров, име­ющих DOI, по состоянию на май 2017 г.

Поскольку выборка из WoS ограничивалась определенным периодом и наличием DOI, она не подходила для оценки процента документов ОД в общем массиве литературы. Однако в дру­гих аспектах она лучше, чем выборка из Crossref: для каждой статьи есть информация о количестве цитирований и информация о дисциплине (о чем подробнее ниже). Поэтому мы используем эту вы­борку для оценки распространенности ОД в раз­личных дисциплинах и влияния на цитирование ОД в последние годы. Мы не рекомендуем сравни­вать показатели ОД в двух первых выборках, по­скольку они по-разному формировались.

Документы в выборке WoS-DOIs классифициро­вались по журнальной классификации Националь­ного фонда науки (National Science Foundation — NSF). Каждому журналу в ней присваивается одно название дисциплины (категория верхнего уровня) и одно название специальности (категория деталь­ного уровня). Поскольку это классификация жур­налов, все статьи журнала получают названия дис­циплины и специальности, присвоенные журналу. Недостаток этой классификации — в том, что мультидисциплинарные журналы (например, Nature, PNAS, PLOS ONE) относятся к одной категории био­медицинских исследований, хотя публикуют мно­жество статей других направлений исследований. Для таких журналов мы выполнили постатейное индексирование. Каждая статья из списка мульти- дисциплинарных журналов была приписана к той специальности NSF, которая чаще всего фигуриро­вала в ее списке цитируемой литературы. Другими словами, каждая статья из этих журналов класси­фицировалась на уровне статьи, а не журнала, и относилась к той специальности, статьи по кото­рой она чаще всего цитировала.

Мы оцениваем относительное влияние закры­тых и открытых статей с помощью ссылок на них как показателя их научного влияния. Но есть ряд свойств статей, которые могут отрицательно вли­ять на такую оценку. Главные из них — дисциплина (некоторые области исследования цитируются луч­ше, чем другие) и возраст статьи (у статей прошлых лет больше времени для накопления ссылок). Что­бы учесть это обстоятельство, мы вычислили нор­мализованное ожидаемое число ссылок (цитат) для каждой статьи на базе ее возраста и специаль­ности, сравнив его со средним количеством цитат для подобных статей.

На основе этого подхода каждая статья получила показатель среднего относительного цитирования (average relative citation — ARC). Значение ARC 1.0 по­казывает, что документ был процитирован в соот­ветствии с ожидаемым значением для документов, опубликованных в тот же год по той же специаль­ности NSF, а значение ARC больше или меньше еди­ницы означало, что документ был процитирован лучше или хуже среднего значения соответствен­но. Используя эти показатели, нормализованные по области исследования, мы можем сравнить ци­тирование между дисциплинами и годами публика­ции. Мы можем также вычислить средние значения ARC для групп статей «все открытые статьи» и «все закрытые статьи» и сравнить их нормализованные показатели цитирования. При анализе результа­тов на уровне дисциплин NSF мы не показываем данные по гуманитарным наукам и искусству, по­скольку они слабо представлены и в Web of Science вообще и в плане наличия DOI в частности.

■ Выборка Unpaywall

Третья выборка, Unpaywall-DOIs, — случай­ная выборка в 100 тысяч статей, которые от­крыли пользователи браузерного расширения Unpaywall в течение одной недели. Мы собрали данные об IP-адресах и DOI для запросов к oaDOI через Unpaywall, поступивших с 5 по 11 июня 2017 г. За этот период всего поступило 374 703 за­проса с 213 323 уникальными DOI с 42 894 уникаль­ными IP-адресами; из этих данных случайным об­разом было выбрано 100 тысяч DOI.

На основе этой выборки мы оценивали распро­страненность документов ОД в запросах пользо­вателей Unpaywall. Эта выборка удобна для оцен­ки того, что хотят прочитать пользователи; она позволяет нам приблизительно оценить про­цент литературы ОД в их предпочтениях. Одна­ко эта выборка серьезно ограничена демографи­ей: мы не знаем, откуда приходят пользователи, а по IP-адресам видим, что превалируют пользова­тели США. Кроме того, мы не можем обобщить ре­зультаты с учетом уровня образования пользова­телей, их специальности и целей изучения научной литературы.

Результаты

Вопрос 1. Каков процент литературы открытого до­ступа?

  • Сколько литературы находится в открытом до­ступе?

На выборке Crossrf-DOIs мы обнаружили, что 27,9% (95% CI [27,6-28,2]) всех статей, имеющих DOI, находятся в открытом доступе. Это означает, что имеется 18,6 млн статей ОД с DOI Crossref (95% CI [18,4-18,8]). Таково общее количество статей, кото­рые может идентифицировать oaDOI. С учетом того что, как было описано в разделе «Методы», сервис oaDOI находит только 77% документов ОД по срав­нению с поиском вручную, мы можем приблизи­тельно оценить количество документов ОД, кото­рые не обнаруживает oaDOI, еще в 3,5 млн.

Те, кто читает литературу, пользуясь расширени­ем Unpaywall, обнаруживают гораздо больше доку­ментов ОД: 47% документов из выборки Unpaywall (95% CI [46,7-47,3]) — открытого доступа. В основ­ном это обусловлено годом публикации статьи: поскольку эта выборка базируется на поведе­нии реальных читателей, в ней преобладают ста­тьи последних лет; половина из них опубликованы за последние два года. Как показано ниже, в разде­ле «Как меняется количество документов ОД в за­висимости от года публикации», статьи последних лет чаще являются общедоступными, чем более старые.

  • Какие типы открытого доступа наиболее распро­странены?

Как показано на рисунке 1 и в таблице 3, соотно­шение подтипов ОД довольно ровное для всех трех выборок. Отчасти это объясняется тем, что само- архивированные статьи считаются относящимися к Зеленому ОД, только если для них нет соответ­ствия на сайте издательства; таким образом, статьи Зеленого ОД находятся в тени Золотого, Гибрид­ного и Бронзового ОД. Во всех выборках преоб­ладает процент Бронзового ОД. Это особенно ин­тересно, поскольку очень мало исследователей обращали внимание на его роль. Мы просмотрели небольшое количество статей Бронзового ОД, что­бы лучше понять особенности этой подкатегории; мы обнаружили, что хотя многие «бронзовые» статьи имели период эмбарго на сайтах платных издательств, почти половина была опубликована в журналах полностью открытого доступа (100% ОД), но они не были зарегистрированы в DOAJ и не обо­значали явным образом условия лицензии (CC-BY или другие). Такие журналы лучше было бы назы­вать «темно-золотыми» или «тайными золотыми», чем бронзовыми. Углубленное изучение Бронзового ОД не входит в задачи настоящего исследова­ния, оно будет выполнено в последующих работах.

 

Рис. 1. Процент статей со статусом ОД: выборка Crossref-DOIs против выборки Unpaywall-DOIs

Fig. 1. Percent of articles by OA status, Crossref-DOIs sample vs Unpaywall-DOIs sample

DOI: 10.7717/peerj.4375/fig-1

 

 

Таблица 3. Процент литературы ОД по типам в трех выборках в 100 тысяч статей с доверительными интервалами в 95%

Table 3. Percent of the literature that is OA, by type, in three samples of 100,000 journal articles, with 95% confidence intervals

Тип доступа / Access type

Все журнальные статьи с DOI за все годы / Crossref-DOI All journal articles with Crossref DOIs, all years. (“Articles with DOIs" in Fig. 1)

Все потенциально цитируемые ста­тьи WoS с DOI с 2009 по 2015 г. / WoS-DOIs All citable WoS articles with DOIs, 2009-2015

Все статьи, к которым обрати­лись пользователи Unpsywall за одну неделю 2017 г. / Unpaywall-DOIs All articles accessed by Unpaywall users over a 1-week period in 2017

 

estimate, %

95% CI

estimate, %

95% CI

estimate, %

95% CI

ОД (все типы) / OA (all types)

27,9

27,6-28,2

36,1

36,0-36,2

47,0

46,7-47,3

Бронзовый ОД / Bronze OA

16,2

16,0-16,5

12,9

12,6-13,2

15,3

15,0-15,6

Гибридный ОД / Hybrid OA

3,6

3,3-3,9

4,3

4,0-4,6

8,3

8,0-8,6

Золотой ОД Gold OA

3,2

2,9-3,5

7,4

7,1-7,7

14,3

14,0-14,6

Зеленый ОД / Green OA

4,8

4,5-5,1

11,5

11,2-11,8

9,1

8,8-9,4

Закрытый доступ / Closed

72,0

71,8-72,4

63,9

63,8-64,0

53,0

52,7-53,3

■ Как меняется количество документов ОД в зависи­мости от года публикации?

На рисунке 2 представлены данные по количе­ству (рис. 2A) и процентам (рис. 2B) документов в зависимости от категории и года публикации. В последние 20 лет количество статей ОД непре­рывно возрастает, причем эта тенденция не замед­ляется. Чем «моложе» статья, тем более вероятно, что она окажется открытой; среди статей послед­него обследованного года, 2015-го, обнаружено наибольшее число открытых: 44,7% (95% Cl [43,3­46,2%]), из них 17,6% бронзовых (95% Cl [16,2-19,1]), 9,4% гибридных (95% Cl [8,0-10,9]), 11,3% золотых (95% Cl [9,9-12,8]) и 6,3% зеленых (95% Cl [4,9-7,8]). В 2015 году было опубликовано более 1 млн статей. Тенденция роста числа статей ОД в основном об­условлена значительным увеличением Золотого и Гибридного ОД с 2000 г. Тем не менее более 20% статей, опубликованных до наступления «цифро­вого века», находятся в свободном доступе. Боль­шинство таких статей — Бронзовые; можно пред­положить, что это связано с окончанием периода эмбарго, но это требует дальнейшего изучения. Процент статей Бронзового ОД остается порази­тельно стабильным для всех лет издания.

 

Рис. 2. Число статей (A) и процент статей (B), открытого доступа по случайной выборке из 100 000 статей с Crossref DOI

Fig. 2. Number of articles (A) and proportion of articles (B) with OA copies, estimated based on a random sample of 100,000 articles with Crossref DOIs

DOI: 10.7717/peerj.4375/fig-2

 

Следует с особой осторожностью подходить к оценке количества и процентов Зеленых статей. Это обусловлено несколькими факторами. Во-пер­вых, в отличие от статей ОД на издательских сай­тах (Золотых, Бронзовых и Гибридных) дата пре­доставления статьи в открытом доступе обычно отличается от даты первой официальной публи­кации. Нередко авторы самоархивируют статьи го­раздо позже (а иногда и раньше, если речь идет о препринтах) даты их официальной публикации. В статье [17] это явление Зеленого ОД называется backfilling (ретроспективное наполнение). Таким образом, графики не могут отразить рост Зеленого ОД во времени: это требовало бы продолжитель­ных наблюдений за несколько лет, что не входит в задачи настоящей работы. Фактически графики отражают только число и проценты Зеленых ста­тей в зависимости от года их официальной публи­кации. Во-вторых, многие статьи нельзя легально самоархивировать до истечения периода эмбарго, что предположительно влияет на появление види­мого плато на графике рисунка 2 для Зеленого ОД. Наконец, как было отмечено выше, многие само- архивированные статьи могли бы считаться Зеле­ными, если бы не были «затенены» Золотой, Брон­зовой или Гибридной версией этой статьи. Более подробно рост «затененных» Зеленых статей пока­зан на рисунках SA2 и SA3.

■ Как меняются показатели ОД в зависимости от из­дательства?

Мы проанализировали подмножество выборки Crossref-DOls по издательствам (указанным в мета­данных Crossref), чтобы понять, как распределяет­ся процент ОД и типы ОД для разных издательств за период с 2009 по 2015 г. Как видно на рисунке 3A, крупнейшие издательства, возглавляемые «Эльзе­виром», публикуют наибольшее количество статей открытого доступа. Что касается процента статей ОД, только издательства PLOS и Hindawi в первой двадцатке показывают 100% открытый доступ. Из­дательства Oxford University Press, Nature Publishing Group, IOP Publishing и the American Physical Society (APS) предоставляют в открытый доступ более по­ловины статей. В случае APS ОД обеспечивается в основном размещением статей в репозиториях, таких как arXiv. Более подробно данные по репози­ториям приведены на рисунке SA1.

 

Рис. 3. Количество (A) и процент (B) статей ОД по издательствам для 20 крупнейших издательств. На основе выборки в 21894 статей с Crossref DOI, опубликованных в период 2009-2015 гг.

Fig. 3. Number (A) and proportion (B) of articles with OA copies, by publisher, for the 20 most prolific publishers. Based on sample of27,894 Crossref DOI-assigned articles published between 2009-2015

DOI: 10.7717/peerj.4375/fig-3

■ Как распределяются статьи открытого доступа по дисциплинам?

Для определения распространенности статей ОД в отдельных дисциплинах мы использовали выбор­ку WoS-DOIs, поскольку из метаданных индекса WoS легко извлечь информацию о дисциплине. Резуль­таты представлены на рисунке 4. В биомедицин­ских науках и математике больше половины публи­каций свободно доступны, в то время как в химии и инженерных науках этот показатель меньше 20%.

 

Рис. 4. Процент различных типов доступа в случайной выборке статей и обзоров из WoS, имеющих DOI, опубликованных в пе­риод с 2009 по 2015 г. по дисциплинам NSF (кроме Arts and Humanities)

Fig. 4. Percentage of different access types of a random sample of WoS articles and reviews with a DOI published between 2009 and 2015 per NSF discipline (excluding Arts and Humanities)

DOI: 10.7717/peerj.4375/fig-4

 

На рисунке 4 явно обозначена популярность Зеле­ного ОД в физике и математике, где более 20% ра­бот доступны только в репозиториях (в основном в arXiv). Гибридные статьи особенно распростра­нены в математике (9,4%), биомедицинских иссле­дованиях (8,1%) и клинической медицине (6,3%); в журналах Золотого ОД чаще всего публикуют­ся авторы исследований по биомедицине (15,3%), здравоохранению (11,7%), математике (11,2%) и кли­нической медицине (10,3%).

Большое разнообразие в пропорциях ОД наблю­дается на более детальном уровне специальностей NSF (рис. SA5). Более 80% статей ОД мы наблюдаем в астрономии и астрофизике (87%), фертильности (86%), тропической медицине (84%) и эмбриологии (83%). На противоположной стороне спектра нахо­дятся фармакология (7%), неорганическая и ядер­ная химия (7%), химическая технология (9%), где за платежным барьером (paywall) находится более 90% статей.

Вопрос 2. Каково цитатное влияние статей открыто­го доступа?

Преимущества ОД в цитировании (OACA) под­тверждается сравнением средних относительных показателей цитирования разных категорий досту­па. Платные статьи цитируются на 10% ниже сред­немировых значений (ARC = 0,90), а свободно до­ступные статьи получают в среднем на 18% больше цитирований, чем среднее ожидаемое значение (ARC = 1,18). Однако цитатное влияние различно для разных типов ОД. Наиболее ярко преимуще­ство проявляется для статей, доступных только в Зеленом ОД (ARC = 1,33) и Гибридном ОД (ARC = 1,31), которые наиболее часто цитируются (более чем на 30% выше ожидаемых значений). Бронзовые статьи цитируются на 22% лучше среднемировых значений; Золотые статьи получают значение ARC в 0,83, что на 17% ниже среднемировых значений и на 9% ниже значений для платных статей. Эти данные показаны на рисунке 5.

 

Рис. 5. Средние относительные значения цитирования для различных типов доступа по случайной выборке статей и обзоров из WoS, имеющих DOI, опубликованных с 2009 по 2015 г.

Fig. 5. Average relative citations of different access types of a random sample of WoS articles and reviews with a DOI published between 2009 and 2015

DOI: 10.7717/peerj.4375/fig-5

 

Как показано на рисунке 6, эти тенденции меня­ются с годами. Хотя показатель ARC платных статей остается ниже среднемировых значений весь изу­ченный период, он меняется от 0,86 в 2009 г. до 0,93 в 2014 и 2015 гг. Для всех типов ОД показатель ARC всегда выше среднемировых значений, меняясь в интервале от 1,15 до 1,22. Эти флуктуации связа­ны с типом доступа, причем цитатное влияние Ги­бридных документов с годами возрастает. Среднее значение цитирования Зеленых статей остается относительно стабильным, а наивысшее значение достигается в 2015 г. Бронзовыми и Гибридными статьями. Из всех типов ОД только Золотые статьи показывают снижение от года к году. Однако ре­зультаты последних лет основаны на узком окне цитирования и могут меняться в дальнейшем с на­коплением цитат.

 

Рис. 6. Процент и влияние статей разных типов доступа по случайной выборке из статей и обзоров WoS, имеющих DOI, по го­дам публикации

Fig. 6. Percentage and impact of different access types of a random sample of WoS articles and reviews with a DOI, by year of publication

DOI: 10.7717/peerj.4375/fig-6

 

Обсуждение и выводы

В наши дни доступ к научной литературе — это центральная тема обсуждений в научном сообще­стве. Все больше научных фондов требуют от сво­их грантополучателей предоставлять результаты ис­следований в открытом доступе. В то же время рост стоимости подписки вынуждает отказываться от нее все больше университетских библиотек. В этих усло­виях возник ряд способов получить доступ к лите­ратуре, легальных или нелегальных. Используя дан­ные, полученные одним из таких способов, oaDOI, настоящая работа пытается ответить на два важных для исследователей вопроса: какой процент лите­ратуры свободно доступен в разных типах ОД и ка­ково в среднем научное влияние этой литературы. Для ответа на них мы использовали три больших выборки (1) 100 тысяч статей, имеющих DOI Crossref, что позволило нам оценить процент статей ОД в об­щем объеме статей; (2) 100 тысяч журнальных статей из WoS, имеющих DOI, что позволило оценить науч­ное влияние статей ОД и не-ОД; (3) 100 тысяч статей, к которым обращались пользователи браузерно- го расширения Unpaywall, что позволило оценить процент статей ОД в этом массиве.

Мы обнаружили, что 28% журнальных статей в онлайне свободно доступны (в выборке Crossref- DOIs). К радости сторонников ОД, этот процент стабильно растет на протяжении последних 20 лет, особенно для Золотых и Гибридных статей. Последний обследованный год, 2015-й, показал наибольший процент ОД, 45%, а также рекордное количество статей ОД, опубликованных за год. Вы­сокий процент статей ОД в последние годы наря­ду с предпочтениями читателей к свежим статьям приводит к благоприятной ситуации: фактически процент статей ОД, к которым они обращаются, выше среднего по большой выборке. Пользовате­ли Unpaywall через oaDOI получают свободный до­ступ к почти половине статей — к 47%. Этот эффект определенно имеет место не только для пользова­телей Unpaywall: скорее всего, все читатели обыч­но предпочитают новые статьи, а значит, и они вы­игрывают от роста количества Золотых, Бронзовых и Гибридных статей в текущем потоке. Для того чтобы оценить это количественно, нужны допол­нительные исследования.

Интересно отметить, что большинство статей ОД — Бронзовые, то есть размещенные на сайтах издателей без лицензии вообще или без открытой лицензии. Это особенно удивительно, поскольку об этом типе статей редко пишут, а они явно за­служивают большего внимания со стороны сто­ронников ОД. В частности, Бронзовому ОД нужно уделить больше внимания при разработке поли­тики ОД, так как в отличие от других статей на из­дательских сайтах для Бронзовых разрешено толь­ко чтение, но не вторичное использование (Gratis OA). Дальнейшего изучения требуют характеристи­ки Бронзового ОД. Какое количество статей это­го типа, в принципе, доступны под открытыми ли­цензиями, но это не обозначено явным образом? Возможно, Бронзовые статьи преимущественно не рецензируются? Каков процент статей отложен­ного доступа в этой категории? Сколько Бронзовых статей свободно доступны в целях продвижения и рекламы и как долго они остаются в свободном доступе? Сколько из них публикуются в неявных Зо­лотых журналах, не включенных в DOAJ? Почему та­кие журналы не размещают лицензии для своего контента и можно ли стимулировать их идти в этом направлении? Ответы на эти и другие вопросы нельзя дать в настоящей статье, но они могут стать стимулом для дальнейших исследований ОД.

Лишь 7% всей литературы (и 17% литературы ОД) — в Зеленом открытом доступе. На первый взгляд это может показаться разочаровывающим резуль­татом, учитывая годы пропаганды Зеленого ОД и растущее количество мандатов Зеленого ОД [45]. Однако для ОД в целом есть основания для опти­мизма. Во-первых, много статей, архивированных в репозиториях, в данном исследовании не счита­лись Зелеными, поскольку на платформах издате­лей они доступны по модели Золотого, Гибридного или Бронзового ОД. Такие «затененные» Зеленые статьи образуют надежную страховочную сеть, ко­торая обеспечит свободный доступ к контенту, если издатели его прекратят. Для определения распро­страненности «затененных» статей в различных дисциплинах нужны дополнительные исследова­ния. Во-вторых, многие авторы архивируют свои статьи не только текущего, но и прошлых лет; это означает, что хотя график Зеленого ОД не показы­вает стабильного ежегодного роста, как Золотой и Гибридный, это может измениться по мере того, как авторы будут все больше наполнять архивы ра­нее опубликованными работами. Это предполо­жение подтверждается результатами работы [46]. Наконец, сравнительно низкое количество Зеле­ных статей оставляет надежду на грядущий устой­чивый рост. Хотя большинство журналов крупней­ших издательств (Elsevier, Wiley, Springer и других) разрешают самоархивирование, некоторые иссле­дования показали, что лишь небольшой процент статей этих издателей заархивирован в репозито­риях. Например, в [47] на выборке статей по иссле­дованию здоровья в мире продемонстрировано, что только для 39% из них авторы воспользовались правом на самоархивирование.

Полученные нами результаты подтверждают преимущество статей ОД в цитировании, ранее вы­явленное в других исследованиях: открытые статьи получают на 18% больше ожидаемого количества цитирований. Отчасти это преимущество можно объяснить тем, что при открытом доступе со ста­тьей могут ознакомиться, а значит и процитиро­вать, больше читателей, но такое объяснение труд­но подтвердить объективными данными и против него есть много возражений. Наиболее распро­страненное — так называемый «постулат смещения выбора» (selection bias postulate) [48]. Он подразу­мевает, что авторы продвигают в открытый доступ свои наиболее сильные работы. В настоящей рабо­те не изучались причины и направленность преи­мущества статей ОД в цитировании, в нем только подтверждено его существование на очень боль­шой выборке, репрезентативной для всего потока литературы. В преимуществе статей ОД в цитиро­вании также могут иметь значение требования фондов: наиболее влиятельные фонды чаще вы­двигают требование открытого доступа; кроме того, хорошо профинансированные работы имеют пре­имущества в цитировании над работами, выпол­ненными на скромные средства[49]. Интересный факт: меньше всего цитируются Золотые работы, вероятно, из-за роста количества новых неболь­ших журналов этой категории. Часть этих журналов издается в регионах, которые исторически не охва­тываются WoS, публикуются не на английском язы­ке и не считаются престижными, поскольку у них не было достаточного времени на завоевание по­зиций и накопление цитирования [23]. С другой сто­роны, на проигрыш Золотых статей в цитировании, вероятно, влияет рост числа мегажурналов, таких как PLOS ONE [50]. Каковы бы ни были причины, от­носительно низкое влияние Золотого ОД означает, что общее преимущество в цитировании ОД име­ет место благодаря Зеленому, Гибридному и Брон­зовому контенту. Суммируя полученные результаты, скажем, что хотя на наблюдаемую разницу в цити­ровании могут влиять некоторые факторы, кото­рые трудно оценить, факт остается фактом: ученые скорее прочтут и процитируют доступные работы, чем недоступные. Мы надеемся, что наличие сво­бодно доступного индекса контента ОД поможет дальнейшим исследованиям явления преимуще­ства ОД в цитировании.

Сравнительно высокий процент статей ОД, осо­бенно среди пользователей Unpaywall, может силь­но повлиять на деятельность научных библиотек. Им все труднее оплачивать подписные пакеты в рамках «крупных сделок», цены на которые ра­стут, а отказ от них, о котором раньше нельзя было и помыслить, становится реальностью. Знание того, что около половины востребованной литературы доступно без подписки, может склонить некото­рые библиотеки к отказу от нее, особенно с уче­том того, что этот процент стабильно растет. Инте­ресно, что информация об отказе Монреальского университета от подписки на пакет журналов из­дательства Taylor & Francis [5] сопровождалась ре­комендацией пользоваться Unpaywall и другими вариантами выхода на открытые статьи. Такое ре­шение может показаться радикальным, однако от­каз от платных подписок давно входит в дорожную карту движения за открытый доступ [51]. Даже если доля ОД недостаточна для того, чтобы отказаться от подписки, ее может вполне хватить для перего­воров о снижении цены на основе модели «пла­ты за доступ с учетом ОД» (OA-adjusted Cost Per Access) [9]). Тем не менее необходимы дальнейшие исследования распространенности контента ОД в отдельных журналах и пакетах крупных сделок; нужно также разработать средства анализа ОД для библиотекарей-практиков в помощь приня­тию решений об отказе от подписок.

Это исследование имеет несколько существен­ных ограничений. Анализируемые данные вклю­чали только журнальные статьи с DOI. Это озна­чает, что в нем плохо представлены дисциплины и регионы, где преобладают материалы конфе­ренций и статьи, не имеющие DOI. Наша выборка из Crossref содержит около 7% материалов, по­мещенных на первых страницах журналов, кото­рые имеют DOI и тип «журнальная статья», однако чаще всего это информация о редколлегии и по­добные. Бронзовая категория в нашей интерпре­тации включает статьи, фактически опублико­ванные в журналах ОД, не зарегистрированных в DOAJ; в дальнейшем необходимо идентифици­ровать их и отнести соответствующие статьи к Зо­лотому ОД. Как оговорено в нашем определении ОД, мы не учитывали открытые документы из на­учных социальных сетей. Сервис oaDOI отчасти учитывает статьи, опубликованные на персо­нальных веб-страницах, но значительно уступает в этом глобальным сервисам типа Google. oaDOI индексирует тысячи репозиториев, но отнюдь не все. Проведенная нами оценка точности пока­зывает, что около 23% контента ОД, который об­наруживается поисковиками, не охвачено oaDOI, следовательно, наши оценки преуменьшают ОД приблизительно на 30%. Наконец, наше иссле­дование не учитывает дат размещения статей в репозиториях. Поскольку репозитории часто наполняются ретроспективно, в данной рабо­те мы не измеряем увеличения или уменьшения Зеленого ОД от года к году; оценивается только процент Зеленых статей на момент сбора данных.

Помимо полученных эмпирических результа­тов, эта работа демонстрирует потенциал исполь­зования oaDOI в дальнейших исследованиях. Этот открытый сервис обеспечивает ученым возмож­ность оценки и отслеживания динамики моделей доступа к научной литературе на больших масси­вах данных, а также факторов, влияющих на них. Так, наши результаты демонстрируют рост доли ОД в потоке литературы и повышенный уровень ци­тирования работ ОД по сравнению с закрытыми статьями. Предположительно, на это влияют не­сколько факторов, но они пока недостаточно из­учены. Привлечение других наборов данных (из WoS, Scopus или Crossref-oaDOI) позволит оценить на больших массивах влияние различных манда­тов на депонирование или отследить динамику доступности документов, чтобы, например, вы­яснить, когда авторы самоархивируют статьи, или определить устойчивость доступа к матери­алам, открытым в целях продвижения контента. Обобщенные на уровне журналов и издательских платформ, эти данные обеспечат библиотекарей индикаторами для принятия обоснованных реше­ний об отказе от подписки и смягчения послед­ствий таких решений. Широкомасштабное при­менение oaDOI позволит также более тщательно изучить эффект преимущества ОД в цитировании по отдельным дисциплинам и периодам. Как пока­зано в [52], влияние осложняющих факторов мож­но ослабить за счет привлечения метаданных статей, опубликованных в тех же журнальных выпусках, на ту же тему или опубликованных ав­тором в тот же период. Мы надеемся, что другие исследователи глубже изучат такие данные, чтобы лучше понимать распространение ОД и влияющие на него факторы. Это чрезвычайно важно для на­учной коммуникации будущего.

Доступность данных

Zenodo: http://doi.org/10.5281/zenodo.837902.

Данные, анализируемые в настоящей статье, свободно доступны по следующим адресам:

Список литературы

1. Bohannon J. Who’s downloading pirated papers? Everyone. Science. 2016;352(6285):508–512.

2. Greshake B. Looking into Pandora’s Box: the content of Sci-Hub and its usage. F1000Research. 2017;6:Article 541.

3. Björk B. Hybrid open access—a longitudinal study. Journal of Informetrics. 2016;10(4):919–932.

4. Björk B-C. The open access movement at a crossroad: Are the big publishers and academic social media taking over? Learned Publishing. 2019;29(2):131–134. https://doi.org/10.1002/leap.1021

5. Université de Montréal. UdeM Libraries cancel Big Deal subscription to 2231 periodical titles published by Taylor & Francis Group. 2017.

6. Schiermeier Q., Mega E.R. Scientists in Germany, Peru and Taiwan to lose access to Elsevier journals. Nature News. 2017;541(7635):13.

7. Anderson R. When the wolf finally arrives: big deal cancelations in North American Libraries. The Scholarly Kitchen. URL: https://scholarlykitchen.sspnet.org/2017/05/01/wolf-finally-arrives-big-deal-can-celations-north-american-libraries/ (accessed 9 January 2018).

8. Universitat Konstanz. Teurer als die Wissenschaft erlaubt. 2014.

9. Antelman K. Leveraging the growth of open access in library collection decision making. Proceeding from ACRL 2017: at the helm: leading transformation. 2017.

10. Tennant J.P., Waldner F., Jacques D.C., Masuzzo P., Collister L.B., Hartgerink C.H. The academic, economic and societal impacts of Open Access: an evidence-based review. F1000 Research. 2016;5:Article 632.

11. McKiernan E., Bourne P., Brown C., Buck S., Kenall A., Lin J., McDougall D., Nosek B.A., Ram K., Soderberg C.K. How open science helps researchers succeed. eLife. 2016;5:e16800.

12. Creative Commons. Attribution 4.0 International (CC BY 4.0). 2018.

13. Willinsky J. The nine flavours of open access scholarly publishing. Journal of Postgraduate Medicine. 2003;49:263–267.

14. Matsubayashi M., Kurata K., Sakai Y., Morioka T., Kato S., Morioka T., Kato S., Mine S., Ueda S. Status of open access in the biomedical field in 2005. Journal of the Medical Library Association. 2009;97(1):4–11.

15. Chen X., Olijhoek T. Measuring the degrees of openness of scholarly journals with the open access spectrum (OAS) evaluation tool. Serials Review. 2016;42(2):108–115.

16. Suber P. Gratis and libre open access. SPARC Open Access Newsletter. 2008;124.

17. Archambault É., Amyot D., Deschamps P., Nicol A., Provencher F., Rebout L., Roberge G. Proportion of open access peer-reviewed papers at the European and world levels–1996–2013. Brussels: European Commission, 2014.

18. Gargouri Y., Larivière V., Gingras Y., Carr L., Harnad S. Green and gold open access percentages and growth, by discipline. [Preprint]. 2012.

19. Harnad S., Brody T., Vallières F., Carr L., Hitchcock S., Gingras Y., Oppenheim C., Hajjem C., Hilf E.R. The access/impact problem and the green and gold roads to open access: an update. Serials Review. 2008;34(1):36–40.

20. Walker T.J., Soichi T. Free internet access to traditional journal. Journal of Information Processing and Management. 1998;41(9):678–694.

21. Laakso M., Björk B.C. Delayed open access: an overlooked high-impact category of openly availa ble scientific literature. Journal of the American Society for Information Science and Technology. 2013;64(7):1323–1329.

22. Willinsky J. The access principle: the case for open access to research and scholarship. 1st edition ed. Cambridge: MIT Press, 2009.

23. Archambault É., Amyot D., Deschamps P., Nicol A., Provencher F., Rebout L., Roberge G. Proportion of open access peer-reviewed papers at the European and world levels–2004–2011. Brussels: European Commission, 2013.

24. Jamali H.R. Copyright compliance and infringement in ResearchGate full-text journal articles. Scientometrics. 2017;112(1):241–254.

25. Chawla D. Publishers take ResearchGate to court, alleging massive copyright infringement. Science. News. 2017.

26. Fortney K., Gonder J. A social networking site is not an open access repository. 2015. URL: http://osc.univer-sityofcalifornia.edu/2015/12/a-social-networking-site-is-not-an-open-access-repository

27. Björk B.-C. Gold, green, and black open access. Learned Publishing. 2017;30(2):173–175. https://doi.org/10.1002/leap.1096

28. Björk B.C., Welling P., Laakso M., Majlender P., Hedlund T., Guðnason G. Open access to the scientific journal literature: situation 2009. PLoS One. 2010;5(6):e11273.

29. Laakso M., Welling P., Bukvova H., Nyman L., Björk B.C., Hedlund T. The development of open access journal publishing from 1993 to 2009. PLoS One. 2011;6(6):e20961.

30. Laakso M., Björk B.C. Anatomy of open access publishing: a study of longitudinal development and internal structure. BMC Medicine. 2012;10(1):124.

31. Chen X. Journal article retrieval in an age of Open Access: how journal indexes indicate Open Access articles. Journal of Web Librarianship. 2013;7(3):243–254.

32. Hajjem C., Harnad S., Gingras Y. Ten-year cross-disciplinary comparison of the growth of open access and how it increases research citation impact. [Preprint]. 2006.

33. SPARC Europe. The open access citation advantage: list of studies until 2015. 2015.

34. Wagner A.B. Open access citation advantage: an annotated bibliography. Issues in Science and Technology Librarianship. 2010;60:2.

35. Tennant J. The open access citation advantage. 2017. URL: https://www.scienceopen.com/collection/996823e0-8104-4490-b26a-f2f733f810fb

36. Davis P.M., Walters W.H. The impact of free access to the scientific literature: a review of recent research. Journal of the Medical Library Association. 2011;99(3):208–217.

37. Davis P.M. Open access, readership, citations: a randomized controlled trial of scientific journal publishing. FASEB Journal. 2011;25(7):2129–2134.

38. McCabe M., Snyder C. Identifying the effect of open access on citations using a panel of science journals. Economic Inquiry. 2014;52(4):1284–1300.

39. Ottaviani J. The post-embargo open access citation advantage: it exists (probably), it’s modest (usually), and the rich get richer (of course). PLoS One. 2016;11(8):e0159614.

40. Packer A.L. The SciELO open access: a gold way from the south. Canadian Journal of Higher Education. 2010;39(3):111–126.

41. Himmelstein D.S., Romero A.R., McLaughlin S.R., Tzovaras B.G., Greene C.S. Sci-Hub provides access to nearly all scholarly literature. PeerJ Preprints. 2017 (No. e3100v1).

42. Gorraiz J., Melero-Fuentes D., Gumpenbergera C., Valderrama-Zuriánc J.-C. Availability of digital object identifiers (DOIs) in Web of Science and Scopus. Journal of Informetrics. 2016;10(1):98–109.

43. Boudry C., Chartron G. Availability of digital object identifiers in publications archived by PubMed. Scientometrics. 2017;110(3):1453–1469.

44. Mongeon P., Paul-Hus A. The journal coverage of Web of Science and Scopus: a comparative analysis. Scientometrics. 2016;106(1):213–228.

45. Björk B.C., Laakso M., Welling P., Paetau P. Anatomy of green open access. Journal of the Association for Information Science and Technology. 2014;65(2):237–250.

46. Archambault É., Côté G., Struck B., Voorons M. Research impact of paywalled versus open access papers. 2016.

47. Smith E., Haustein S., Mongeon P., Fei S., Ridde V., Larivière V. Knowledge sharing in global health research; the impact, uptake and cost of open access to scholarly literature. BMC Health Research Policy and System. [In Press].

48. Craig I.D., Plume A.M., McVeigh M.E., Pringle J., Amin M. Do open access articles have greater citation impact? Journal of Informetrics. 2007;1(3):239–248.

49. Berg J. Measuring the scientific output and impact of NIGMS grants [Blog post]. NIGMS Feedback Loop Blog. URL: https://loop.nigms.nih.gov/2010/09/measuring-the-scientific-output-and-impact-of-nigms-grants/

50. PLoS. Reviewer guidelines: criteria for publication. 2018.

51. Anderson R. The forbidden forecast: thinking about open access and library subscriptions. The Scholarly Kitchen. URL: https://scholarlykitchen.ssp-net.org/2017/02/21/forbidden-forecast-think-ing-open-access-library-subscriptions/ (accessed 15 July 2017).

52. Gargouri Y., Hajjem C., Larivière V., Gingras Y., Carr L., Brody T., Harnad S. Self-selected or mandated, open access increases citation impact for higher quality research. PLoS One. 2010;5(10):e13636.


Об авторах

Х. Пивовар
ИмпактСтори (Impactstory)
Соединённые Штаты Америки
г. Сэнфорд, Северная Каролина


Дж. Прим
ИмпактСтори (Impactstory)
Соединённые Штаты Америки
г. Сэнфорд, Северная Каролина


В. Ларивьер
Школа библиотечных и информационных наук Университета Монреаля; Научно-техническая обсерватория Межвузовского научно-исследовательского центра науки и техники Университета Квебека в Монреале
Канада

Павийон Лионель-Грульс, ул. Жан-Брийан, 3150, г. Монреаль, Квебек, H3T 1N8;

Павийон Поль-Жерин-Лажуа (N), ул. Сен-Дени, 1205, г. Монреаль, Квебек, H2X 3R9



Х. П. Алперин
Канадский институт исследований в издательском деле Университета Саймона Фрезера; Проект «Общественные знания» (Public Knowledge Project)
Канада

ул. Уэст Хастингс, 515, г. Ванкувер, Британская Колумбия, V6B 5K3; 

г. Ванкувер, Британская Колумбия



Л. Маттиас
Лаборатория научной коммуникации Университета Саймона Фрезера
Канада
ул. Уэст Хастингс, 515, г. Ванкувер, Британская Колумбия, V6B 5K3


Б. Норландер
Информационная школа Вашингтонского университета; ФлоришОА (FlourishOA)
Соединённые Штаты Америки

Мэри Гейтс Холл, апарт. 370, г. Сиэтл, Вашингтон, 98195-2840; 

г. Сиэтл, Вашингтон



Э. Фарли
Информационная школа Вашингтонского университета; ФлоришОА (FlourishOA)
Соединённые Штаты Америки

Мэри Гейтс Холл, апарт. 370, г. Сиэтл, Вашингтон, 98195-2840; 

г. Сиэтл, Вашингтон



Дж. Вест
Информационная школа Вашингтонского университета
Соединённые Штаты Америки
Мэри Гейтс Холл, апарт. 370, г. Сиэтл, Вашингтон, 98195-2840


С. Хауштайн
Научно-техническая обсерватория Межвузовского научно-исследовательского центра науки и техники Университета Квебека в Монреале; Школа информационных исследований Университета Оттавы
Канада

Павийон Поль-Жерин-Лажуа (N), ул. Сен-Дени, 1205, г. Монреаль, Квебек, H2X 3R9; 

Демаре Холл, Восточная Лорье-авеню, 55, г. Оттава, Онтарио, K1N 6N5



Для цитирования:


Пивовар Х., Прим Д., Ларивьер В., Алперин Х.П., Маттиас Л., Норландер Б., Фарли Э., Вест Д., Хауштайн С. ОТКРЫТЫЙ ДОСТУП СЕГОДНЯ: ШИРОКОМАСШТАБНЫЙ АНАЛИЗ РАСПРОСТРАНЕННОСТИ И ВЛИЯНИЯ СТАТЕЙ ОТКРЫТОГО ДОСТУПА. Наука и научная информация. 2019;2(4):228-247. https://doi.org/10.24108/2658-3143-2019-2-4-228-247

For citation:


Piwowar H., Priem J., Larivière V., Alperin J.P., Matthias L., Norlander B., Farley A., West J., Haustein S. THE STATE OF OA: A LARGE-SCALE ANALYSIS OF THE PREVALENCE AND IMPACT OF OPEN ACCESS ARTICLES. Scholarly Research and Information. 2019;2(4):228-247. (In Russ.) https://doi.org/10.24108/2658-3143-2019-2-4-228-247

Просмотров: 1129


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2658-3143 (Online)