网络影响力能否反映论文质量？在不同学科中表现如何？-国家智能评价与治理实验基地

网络影响力能否反映论文质量？在不同学科中表现如何？

发布时间：2024-03-29 编辑：王译晗 来源：复旦智能评价与治理

摘要：Altmetrics是一种基于网络的，能够为引用次数提供补充信息的学术论文定量影响力或关注度指标。本文评估了来自Altmetric.com和Mendeley的Altmetrics与英国REF2021(Research Excellence Framework)论文质量评分之间的相关程度，收集了2014~2017/2018年间67,030多篇期刊论文的规范化同行评议得分。研究发现，相比与REF2014，Altmetrics与论文质量评分的相关性更强，但和原始的以及领域标准化后的Scopus引用次数相比，相关性较弱。对于大多数学科领域而言，Mendeley阅读量是最佳的Altmetrics，推文量在8个领域中也是一个中等强度的指标，优于新闻、博客和Facebook引用。总体来说，Altmetrics在健康和物理科学领域最能反映研究质量，在艺术与人文科学领域最弱。

引言

Altmetrics是一种不依赖于期刊论文引用而是来自网络的定量指标。在出版商网站上广泛可见，常见的数据来源包括Altmetric.com、PlumX或CrossRef，以及免费的学术搜索引擎Dimensions等。大多学者都对altmetrics有所了解，证明了altmetrics在学术传播生态系统中的重要性。但是，为了更有效地解读这些指标，我们需要进一步了解其所包含的信息，这一点颇具挑战，因为大部分指标缺乏质量控制，并有可能被操纵或受到无关数据的影响，因此不适合用于具有重要目的的评估中。

由于相关数据的缺乏，Altmetrics的不确定性难以具象化，例如缺少关于学术研究受关注度或社会影响力的大规模系统性证据。鉴于这种缺失，最常见的altmetrics评估方法是将altmetric得分与引用次数相关联作为评价学术影响力的指标，表明altmetric在某种程度上与学术相关。但这几乎是一个悖论，因为大多数altmetrics的价值在于其不同于引用次数，且引用次数亦不是学术影响力的直接标准，评估altmetrics的更好方法是将它们与期刊论文的同行评议质量评分相关联。因为影响力(无论是学术、社会还是其他)是研究质量的三个核心组成部分之一，另外两个是严谨性和独创性。

本文的首要目的是评估altmetrics的整体价值，其次是与引用次数这一最广泛使用的研究影响力指标进行比较，从而回答以下两个问题：(1)在所有领域中，altmetrics作为论文研究质量指标其效用如何？(2)在所有领域，与原始引用次数和领域标准化后的引用次数相比，altmetrics作为论文研究质量指标的表现如何？

数据与方法

2022年3月，REF2021团队提供了截至2020年的148,977篇期刊论文的临时评分。每个得分都由两名来自34个UoA(根据学科领域划分的评估单元)的学科专家(通常是资深学者)协商给出，并在每个领域内部进行了规范参照，34个UoA如下图所示：

每篇论文根据其在独创性、影响力和严谨性方面的表现，被评为0分(未分类)、1星(国内认可)、2星(国际认可)、3星(国际卓越)或4星(世界领先)。由于0分文章可能属于创新性低或技术不合规的文章，因此本文删除了得分为0的文章。同时剔除了缺少DOI的文章和未被Scopus收录的文章。由于2018年之后的论文缺少足够时间吸引稳定的引用量，故同样被排除在外。剩余文章的评分取自其所有副本得分的中位数(当中位数带有0.5时，随机向上或向下取整)。每篇论文的altmetric分数来自Altmetric.com和Mendeley。

鉴于引用数据和altmetric数据可能存在高度偏斜，本文使用Spearman相关性分析而不是Pearson相关性分析，以评估REF2021同行评议分数与altmetric分数之间的关联强度。

结果：Altmetrics是否可以代表论文研究质量？

在绝大多数评估单元(UoA)中，Scopus引用量、Mendeley阅读量与REF2021评分相似，但在除17和34之外的所有UoA中，Scopus的引用量显示出更高的相关性。

Mendeley阅读量在人文科学中尤为薄弱，可能是因为Mendeley是一个文献管理工具，而人文科学的参考文献格式通常基于脚注而非标准格式。因此，对人文学科学者来说，Mendeley用于质量评估的实用性较低，其记录也可能相对较少。

在数学科学、计算机科学与信息学领域，Mendeley的相关性相对较低，可能是因为这些领域经常使用LaTeX文档格式语言(部分物理学也是如此)，Mendeley的实用性有所减少。

结果表明，Scopus引用量和Mendeley阅读量在医学、健康科学、物理科学领域最具信息价值，在数学、工程和社会科学领域提供了中等价值，在人文科学领域提供的价值最少。

将领域标准化引用次数的论文质量相关性与Scopus原始引用次数的论文质量相关性相比较时，结果表明，原始引用次数在超过三分之二的UoA中能够有效反映研究质量(除10,16,18,21,25,28,31,32,33外)。这是出乎意料的，因为通过与出版领域相结合，标准化引用被设计为比原始引用更加公平，高引用学科的论文不会因此获得优势。大多数标准化引用次数论文的较低质量相关性表明领域标准化过程存在缺陷。因为Scopus通过期刊对文章进行分类，但文章级别的分类才更能接近主题。因此，结果表明，领域标准化(至少是基于期刊分类的标准化)在分析来自单一广泛领域和年份的文章时存在局限性。

在与新闻相关的来源中，Twitter用户的推文数量似乎是研究质量的最相关指标。在许多UoA中，博客和新闻引用作为研究质量指标显示出中等强度，Facebook最弱。在超过四分之三的UoA中，推文作为研究质量指标的表现弱于Mendeley，例外领域主要为社会科学、艺术与人文学科，即UoA 6、13、14、18、22、25、28、30、34。

Reddit提及、Wikipedia引用和Research Highlights评述在所有领域中都是较弱的研究质量指标，这可能是因为它们相对较少。尽管如此，Wikipedia引用在考古学中与研究质量有中等程度的相关性，并在一些艺术和人文学科领域的表现优于Mendeley和Twitter。

讨论：相较REF2014发生了哪些变化？

Altmetrics

与2008年的REF2014结果相比，REF2021更新了7~10年的数据，并且由于采用了多年数据的中值而不是单一年份，因此更为稳健。与之前研究相比，Twitter与REF2021的研究质量相关性强于REF2014。在REF2014相关研究中，艺术与设计的Twitter相关性最高，公共卫生、卫生服务和初级护理的相关性其次，其余相关性均低于0.15，平均值为0.06。而在REF2021中，相关性平均值为0.18。因此，Altmetric.com自2008年起可能改进了其数据收集方法，变得更加系统化，亦或是Twitter作为学术交流平台(以及期刊社交媒体政策)变得更加成熟。

Altmetrics在健康领域的相关性相对较高，反映出公众对可能具有重大影响的医学研究的广泛关注，体现了公众倾向于对质量较高的研究感兴趣，尽管公众对健康研究的兴趣很大程度上是受主题驱动的，比如癌症，特别是乳腺癌。

Mendeley读者量与Scopus引用量

前文中Mendeley阅读量和Scopus引用量之间的比较与REF2014相关数据形成了鲜明对比。REF2014的数据显示，Mendeley阅读量的相关性总体上只有Scopus引用量相关性的52%，在36个领域中只有5个领域Mendeley更强。原因可能在于如今Mendeley的数据收集变得更加系统化。

当前研究结果显示，在艺术和人文科学之外的大多数领域，Mendeley阅读量与Scopus引用量在作为研究质量指标方面的表现相近，尽管Mendeley通常略显逊色。先前研究声称Mendeley阅读量在艺术和人文学科中与其他学科同样有效的结论是不准确的。实际上，在艺术和人文科学领域，Mendeley作为质量指标的效用有限，甚至不如引用次数，而后者本身就是一个相对较弱的研究质量指标。

领域标准化

关于Scopus原始引用次数与领域标准化后的引用次数之间的比较，本研究结果与REF2014的发现相互印证，尽管这一点在当时的报告中未作详细分析。在REF2014的研究中，Scopus的领域加权引用影响(FWCI，类似于标准化但未经过对数转换处理)在REF2014最终评分的相关性比较中，仅有三分之一的UoA显示FWCI比原始引用次数表现出更强的相关性(36个中的12个)。因此，使用两种不同的领域标准化方法进行的数据集分析结果均表明，在比较属于同一广泛领域内的论文集合时，基于Scopus的狭义分类进行领域标准化可能并不可靠。

结论

Altmetrics作为论文研究质量指标，其效用如何？

对于第一个研究问题，作为研究质量指标，Altmetric.com提供的altmetrics在论文层级上最有效的依次是：Mendeley读者、Twitter推文、Facebook帖子、新闻报道、博客文章、维基百科、Reddit和Research Highlights。其中，Mendeley阅读量作为研究质量指标，其强度与Scopus引用量相似，在社交媒体中，Twitter推文量是表现最好的，后三项指标的价值则较弱。

在具体指标方面，本研究为Mendeley和Twitter指标提供了强有力的支持证据，并首次探讨了其他指标的价值。这些发现可以支持出版商继续将altmetrics作为研究关注度指标，尽管某些指标提供的价值信息较为薄弱。本文结果提高了Twitter在论文层面altmetrics中的价值。尽管曾经有对Twitter被过度使用和产生垃圾信息的担忧，但当前结果表明，这些问题要么已经减少，要么已被Altmetric.com有效过滤，与文章质量有所对应。

在学科差异方面，Altmetrics在健康和物理科学领域最有价值，在艺术和人文科学领域价值最弱。但是，所有的相关性都不足以断言altmetrics能够以任何方式直接“衡量”研究质量。相反，它们只是反映研究质量的弱/中等强度的指标，这意味着在这些指标上得分较高/高与其研究质量仅呈现出弱/中等的相关性，远非直接相关，在使用时需要考虑到altmetrics潜在的操纵可能性。

与引用次数相比，Altmetrics的表现如何？

对于第二个研究问题，与引用次数相比，在作为研究质量指标时，没有任何一项Altmetrics指标的表现更为出色，尽管Mendeley阅读量紧随其后。但是，当引用时间窗口过窄，无法反映引用情况时，将Mendeley阅读量作为早期影响力或质量的衡量指标使用，不失为一种合理的选择。

最后，本研究意外发现，使用Scopus的狭义领域分类对引用次数进行领域标准化，可能会降低它们作为研究质量指标的价值，至少在本文中如此，这可能是因为所依据的领域分类方法存在问题。因此，当一组文章主要来自单一广泛领域时，研究评估者应考虑避免领域标准化操作，或者采用更加客观的领域分类方案。

(全文及参考文献见JASIST2023年第74卷第5期，原文链接：https://doi.org/10.1002/asi.24751，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨邓晨菲王译晗

本期责编 | 金潇苒

基地官网：https://statevalbase.fudan.edu.cn

·end·

扩大数据库收录范围，是否有助于人文社科研究评估？