摘要:当前学者们日益被要求证明其研究产生了显著的学术影响。大学普遍使用期刊排名和影响因子来衡量学者的研究影响力。近年来,单篇论文的引用次数和h指数也被用作衡量学术影响的主要工具。但是,过度依赖期刊排名、期刊影响因子和引用次数会导致诸多不良后果。本文就此展开讨论并提出破解之道,例如重视发表后同行评议和开放获取期刊。
关键词:指标;期刊影响因子;期刊排名;引文;开放获取;替代计量学;h指数;学术界
“科学固然是发现和挖掘真理的过程,但也是沟通、说服与推销的过程。可以说,我是一名‘推销员’。”
——Diederik Stapel
研究的使命在于探索新事物、创造新知识,并发布高质量的研究成果。但近期有一不良趋势愈演愈烈:机构(包括个人)对期刊指标和文章指标越发痴迷。
因此,我以“学术背离”作为文章的标题——学术界越来越多地“推销”其出版物,不只是为了传播研究成果,更是为了完成其机构设定的其他目标。在我看来,对文章引用次数和下载量的关注将进一步加剧这种现象。学者们必须“推销”自己的作品,以吸引读者和引用,从而满足所属机构的要求。在顶级期刊上发表文章并吸引大量引用,已成为学者提升个人影响力、提高所在机构声誉、促进职业发展的“必要手段”。这种行为虽然确有其现实需要,但可能对学界、社会乃至人类发展产生不利影响。
以往学者们会专注于其感兴趣的领域进行研究,发表成果后继续攻关下一个项目。但如今,英国以及其他国家的学者越来越需要证明他们的研究不仅具有学术影响,还要有经济、社会和/或文化影响。本文将重点关注学术影响。
一般而言,当研究影响到其他学者、研究人员或大学机构的研究活动时,即可认为该研究具有学术影响。
引文指标通常被用以衡量研究的学术影响力。引用已在学者的招聘、求职和晋升中起到重要作用,并在大学的排名体系中占据重要地位。在用于评估英国大学研究质量的REF2014中,部分子小组已将引用数据作为评价指标。预计未来REF的“商业与管理”评估单元也将使用引用数据作为评价指标。
当前大学普遍使用期刊排名和期刊影响因子来评估学者的研究影响力。本文接下来将讨论过度依赖期刊排名、影响因子和引用次数对学术界产生的危害,并提出破解之道。
许多人对期刊排名情有独钟,至少在英国如此。Cluley等甚至将这种现象形容为“期刊排名的拜物教”。Schekman特别指出,过分推崇所谓的顶尖期刊(他称之为“豪华期刊”)是不符合实际的,因为这些期刊并非发表卓越研究的唯一期刊,它们更像是一种“品牌”。
依赖期刊排名的问题在于,所有的期刊排名都存在局限性,不同排名中对各个期刊的打分可能有显著差异。此外,影响显著且被引率高的文章可能发表在排名较为靠后的期刊中,而无影响力且几乎零被引的文章也可能出现在排名较高的期刊上。
Curry研究了在文章评估和学者评估中过度使用期刊影响因子的现象。他指出,影响因子最初被定义为“某一期刊前两年所发表的论文的平均引用次数”,最初目的是帮助图书馆员决定订阅哪些期刊。然而,Seglen等早在20世纪90年代就发现,引用率存在明显偏差(即85%已发表文章的引用次数低于平均水平)。Curry认为,用这种“不可靠的统计指标”来评价学者及其出版物是不合理的。针对“指标弊端”和评价标准无意义的问题,Curry建议学者们应更加重视那些被广泛使用和引用的文章本身,而不是依赖于期刊影响因子。同样,Schekman指出影响因子类似于“平均值”,无法反映单篇文章的质量。
此外,Lawrence提出,追求在高影响力期刊上发表文章会使学者们将其关注点从解决科学问题转移到文章的提交、审查和发表过程上。学者们可能会倾向于追随热点,以便吸引更多同行的注意。在这种环境下,涉足新领域存在许多风险,因为这些领域可能不会吸引到同行的兴趣并获得引用。同样,Alberts认为,这会阻碍学者们进行有风险但更具开创性的研究,从而导致更多的“仿制科学”。Lawrence还提到了过度关注指标对学者行为造成的负面影响,如过分炒作工作、将研究结果分割为多篇小论文而非一篇完整的大论文、倾向于在提出简单结论的同时使材料复杂化(使审稿人难以发现错误),甚至可能选择性忽略与其试图“推销”的研究不相符的发现。
随着近年来学界的关注点从期刊层面的指标转向文章层面的指标,单篇文章的引用越来越多地被用来衡量学术工作的影响力。Woodside提出,“在评估学者的学术贡献时,应将评估重点从影响因子转移到学术影响上”。也就是说,如果其他学者认为一篇文章足够有价值并愿意在他们的工作中引用它,那么它就具有学术影响力。Google Scholar已根据学者的引用次数创建排名,点击用户个人资料中的标签就可以看到其在使用相同标签的学者中的排名(基于引用总数)。但Stremersch等指出,一篇文章能否吸引引用不仅取决于其质量,还取决于多种其他因素,如文章的领域主题、作者的出版记录、编委会成员身份、所在学院排名、个人晋升需要等。
最新研究表明,较多的引用会吸引更多的引用,“马太效应”不仅适用于著名作者,也适用于著名论文。也有研究指出论文需要快速吸引引用的必要性——“如果一篇论文未被及早引用,可能会导致它在后续学者心目中的相关性较低。”
此外,Colquhoun指出引用次数存在的问题:一是引用有正面和负面之分,引用次数本身并不能向读者传递任何有关论文质量的信息。二是引用次数不适用于评估近期的工作,因为引用需要较长时间积累,这对年轻研究人员和有过职业中断的学者不利。三是不同数据库商(如Scopus、Web of Science和Google Scholar)之间的引用次数存在显著差异。四是引用次数可能不可靠,例如评论文章可能比原创作品获得更多的引用。五是引用次数易于被操纵。六是引用某一文章的人可能并未阅读过该文章,而是从另一篇文章(如评论文章)中引用。
h指数被用来量化比较科研人员作为独立个体的研究成果。该指标以Jorge E. Hirsch的名字命名,于2005年提出。Hirsch提出的原始定义是,“一名科学家的h指数是指其发表的Np篇论文中有h篇每篇至少被引h次,而其余Np-h篇论文每篇被引均小于或等于h次”。一个学者的h指数越高,则表明其论文影响力越大。
这一指标的主要问题是它对早期职业研究人员不利,因为他们没有足够的时间发表大量文章,然后积累大量引用。
学界开始越来越多地使用更全面的数据源,包括页面浏览量(HTML浏览和PDF下载)、讨论度(期刊评论、科学博客、维基百科、Twitter、Facebook及其他社交媒体)和书签(如Mendeley)。但这些数字衡量的是关注度,不一定能衡量学者工作的学术影响。例如,有关流行主题的文章会引起关注,但这些文章并不一定是高质量的。此外,Altmetrics容易被操纵,例如只需几美元即可购买Facebook转发量和点赞量。
同样,Crotty担心“互联网创业心态”正在扩散到学术界,“产品的关注度和受欢迎程度似乎比它产生的实际价值更重要”。实际上,关注度和受欢迎程度并不一定与研究的质量正相关。
指标甚至可能导致学术不端,致使科研人员的行为背离其原本的目的。文章开头的引用出自Diederik Stapel,他曾是社会心理学界的巨星,但因伪造超过50篇出版物的数据而声名狼藉。在接受《纽约时报》采访时,Stapel将自己的行为描述为一种“瘾”,为了不断寻求更强烈的刺激而进行的越发大胆的欺诈行为。他对在顶刊上发表文章的狂热追求似乎是驱使他走上这一道路的主要原因。Schekman指出了过度追求顶刊所带来的问题—— “煽动研究走捷径,导致论文因缺陷或不端而被撤稿的现象日益增加”。
指标的另一个缺点是带来日益增加的“推销”压力。如前所述,过去的学者们会进行研究、发表结果,然后转向下一个项目。但现在,发表文章不是“推销”活动的“结束”,而是“开始”——发布推文和博客介绍最新出版物、在电子邮件签名中加入文章链接、制作视频或录制播客来宣传文章的主要发现,以及将文章放入机构知识库/Researchgate/Academia.edu等平台上……所有这些都是为了提升研究的知名度,进而(希望)带来下载和引用。当然,我知道学术界一直存在“推销”成分,但指标痴迷使这一成分的浓度过度增加,导致“学术背离”。
首先,我们不应使用期刊影响因子或期刊排名来衡量单篇文章的影响力。因为在排名较高或影响因子较高的期刊上发表的文章可能并无实质影响力,而具有重大影响的文章可能发表在排名较低或影响因子较低的期刊上。研究的质量不能单纯用数字衡量或完全代替。因此,我们应对期刊排名、影响因子和替代计量学(Altmetrics)指标持谨慎态度,更应该去关注文章本身。
其次,为抵制必须在顶刊上发文的压力(以及走捷径的诱惑),Schekman建议在开放获取期刊上发表文章,因为这些期刊没有像顶刊那样的版面限制,对图书馆也不会造成订阅压力。我认为,只要评议系统合理,开放获取期刊就可以成为传统期刊的有效替代。为了帮助评议小组做出质量判断,同时也为学术同行提供良好的概览,可以将类似“Faculty of 1000”的服务引入商业和管理领域。Faculty of 1000 Prime是由Science Navigation Group提供的发表后同行评议服务,根据文章内容对出版物进行评级,而不是依赖影响因子或期刊排名。我认为,将此类发表后同行评议服务引入商业和管理学科将是一种改进评估的方式,比依赖简单的指标更加合理。
最后,我想发出呼吁,学者们特别是资深学者,有责任帮助人们意识到过分依赖指标和排名所带来的不良后果。我们不能把希望全部寄托于年轻学者,因为他们面临着越来越大的压力,为了保障工作和职业发展而不得不去遵循这样的“游戏规则”。
(全文及参考文献见Journal of Marketing for Higher Education 2014年第24卷第2期,原文链接:https://doi.org/10.1080/08841241.2014.970248,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 邓晨菲 宋欣雨 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn