非科学因素在决定学术影响力中的作用-国家智能评价与治理实验基地

非科学因素在决定学术影响力中的作用

发布时间：2025-02-07 作者：G. Abramo 编辑：王译晗 来源：复旦智能评价与治理

摘要：在评估科学出版物的影响力时，出版物本身的质量与其他非科学因素之间的相互作用仍然存在争议。传统而言，同行评议用于评估质量，而文献计量学方法则用于衡量学术影响力。本研究探讨了非科学因素与同行评议质量评分在确定学术影响力中的作用。基于2001-2003年意大利第一次研究评估(VTR)数据及Web of Science引文数据，分析了质量评分、非科学因素与出版物短期和长期影响力之间的关系。研究结果揭示了在同行评议中常被忽视的非科学因素的重要性，为政策制定者和研究管理人员提供了评估方法的选择参考。

关键词：研究质量；基于引文的指标；非科学因素；同行评议；研究评估；意大利VTR

引言

近期，推进研究评估联盟(CoARA)的倡议重新引发了关于研究评估方法优劣的讨论。CoARA主张研究评估应主要依赖定性判断，强调同行评议的核心作用。显然，这两种方法各有优缺点。重要的是，要认识到这两种方法衡量的是研究的不同属性：一种衡量的是科学产出的质量，另一种衡量的是学术影响力。两者之间的潜在差异应由与出版物相关的非科学因素所决定，这也是本研究的核心问题。

本研究旨在探讨，除了固有质量之外，非科学因素在多大程度上影响研究产出的学术影响。为此假设同行评议能够有效衡量质量，而基于引文的指标则能够衡量学术影响力，尽管大量文献已揭示两者各自的局限性。

本研究使用了第一届意大利研究评估(VTR2001-2003)中审稿人对出版物质量的评分数据，以及Web of Science(WoS)中索引的每篇出版物的基于引文的影响力数据。其次，确定了影响每篇出版物的非科学因素。最后，拟合了一个统计模型，分析出版物影响力与评审员给出的质量评分之间的关系，并对非科学因素的影响进行控制。这一过程有助于揭示评审员在评定出版物学术影响力时，可能未能充分考虑的非科学因素的作用权重。

影响出版物影响力

的非科学因素

近年来，关于影响出版物影响力的非科学因素的研究逐渐增多，Tahamtan等人的综述对此进行了总结。Xie等识别出66个可能与影响力相关的因素。这些因素可分为外部因素和内部因素两大类：

外部因素主要包括：(1)知识传播渠道，如出版期刊的声誉水平及潜在读者对出版物的获取方式(开放获取vs非开放获取)；(2)作者在社交媒体上的传播活动，如博客、Twitter、Facebook和预印本等。

内部因素可以根据其与论文不同部分的关系分为三类：(1)作者信息；(2)正文内容；(3)参考文献。关于作者信息，和影响力相关的非科学因素包括：①作者人数；②作者的学术影响力及合作网络；③作者的性别或其他个人特征；④合作的机构数量；⑤涉及的国家数量。关于正文内容特征，影响力相关的因素包括：①文献类型(如文章、评论、会议论文、书籍等)，不同类型的文献与影响力及影响速度之间的关系不同；②语言属性(包括标题和摘要)，如可读性、术语和缩略词的使用、吸引眼球的标题等；③文本长度；④跨学科程度；⑤主题的受欢迎程度与研究兴趣；⑥所属学科；⑦研究资金。最后，关于参考文献，影响力相关的因素包括：①参考文献数量；②引用作品的影响力；③引用近期文献的频率；④被引用领域的数量及其认知距离。

数据和方法

2001-2003年的第一次意大利研究评估(VTR)采用了同行评议的方式，其主要目标是评估意大利大学和公共研究机构在指定时间范围内进行的研究。本文仅关注其中的“期刊论文”，因为它是数据集中的最主要研究成果(6,889篇文章，占研究成果总数的94%)。为了评估文章的影响力，使用WoS文献计量数据。假设影响力取决于几个非科学因素(X1，…，Xp)，将这些因素分为三组。

(1)作者信息因素

文章的作者人数
作者在2001-2003年期间出版物的平均影响力(以Y表示)
英语母语作者(以模型化可能的“语言优势”)
女性合著者的比例
作者单位列表中的机构和国家数量。由于这两个变量之间存在较强的相关性，本研究将其合并，使用一个虚拟变量(“foreign”)表示，当地址列表中包含多个国家时取值为1(否则为0)

(2)与出版物内容和出版来源相关的因素

开放获取，对于带有绿色、混合和金色OA标签的出版物，取值为1
出版物长度，以页数表示
出版期刊的影响因子，摘录自2004年版《期刊引证报告》，并对其进行规范化处理，即除以同一学科类别中所有出版源的平均影响因子
出版物的跨学科程度，通过参考文献中引用的论文在除主导学科类别之外的其他学科类别中的占比来衡量

(3)与出版物参考文献相关的因素

参考文献列表的长度(引用文献数量)
被WoS索引的参考文献占比(反映了对“高质量”文献的引用程度)
参考文献中的自引占比
被引用出版物的平均年龄
被引用出版物的平均规范化影响力(以Y为度量标准)

为了评估上述非科学因素与出版物质量及其学术影响力之间的关系，本研究采用线性随机效应模型进行分析。

结果

本研究拟合了三个模型，每个模型均包含所有相关的非科学因素。响应变量为文章影响力的对数，基于影响力的解释变量也采用对数形式。第一个模型仅包括非科学因素作为预测变量；第二个模型在此基础上加入了同行评议赋予的“质量”评分；第三个模型则用早期引文所测得的短期影响力替代了质量评分。结果见表3。

当仅考虑非科学因素时，模型的R平方值为0.248。加入同行评议评分后，R平方值略微上升至0.260；而当加入早期引文后，R平方值大幅提高至0.485。因此，同行评议所提供的价值是边际性的，且远小于通过简便且低成本的文献计量指标计算短期影响力所带来的贡献。

所有解释变量在0.01显著性水平下均具有统计学意义，除了所有模型中的开放获取变量和第三个模型中的作者数量。此外，在第二个模型中，同行评议赋予的0.2和0.6分类别未能达到统计显著性(p值分别为0.8909和0.0650)：这意味着，在控制了非科学因素之后，得分为0.2和0.6的文章与得分为0.8(基准分)的文章在学术影响力上没有显著差异。然而，最高得分1的文章具有高度显著的影响(p值<0.0001)，这表明评审员能够更好地识别优秀论文，而非差的论文。具体而言，评审员给予1分的文章，其长期学术影响力大约比得分为0.8的文章高28%。

非科学因素在所有模型的结果中始终具有显著影响。这些因素的影响在包含早期引文的模型中有所减弱。这是因为早期引文衡量的影响力是长期影响的一个中介变量，吸收了部分效应；然而，即便在控制了早期引文的影响后，大多数非科学因素仍然保持相关性。具体而言，关于作者信息，作者数量在统计上并不显著，而作者的平均影响力每增加1%与长期影响力增加0.246%相关联，且在存在外籍作者的情况下，长期影响力增加7.2%。在出版内容和来源方面，开放获取在统计上不显著，而文章页数每增加1页与影响力增加1.1%相关，期刊影响因子(IF)每增加1%与影响力增加0.267%相关。关于参考文献相关特征，我们发现不同的模式：参考文献数量和被引文章的平均影响力对长期影响力有正向效应(参考文献每增加1个，长期影响力增加0.4%；每增加1%被引文章的平均影响力，长期影响力增加0.101%)。另一方面，引用文章的年龄(每增加1年，长期影响力减少2.3%)、自引比例(每增加1个百分点，长期影响力减少0.4%)和WoS索引引用的比例(每增加1个百分点，长期影响力减少0.4%)则呈负相关。

考虑到残差方差，值得注意的是，在第二个模型中引入同行评分几乎没有影响。另一方面，在第三个模型中引入早期影响力后，期刊层级的方差保持不变，而文章层级的方差大幅减少；因此，期刊层级的残差方差占比从19.6%上升至27.3%。需要注意的是，在第三个模型中，27.3%的残差方差来源于期刊层级，即超过四分之一的未测量因素的方差归因于期刊。这意味着，即使控制了期刊影响因子，来自同一期刊的文章之间仍存在0.273的残差相关性。因此，期刊在决定长期影响力方面起着重要作用，超越了期刊影响因子的价值。

在文章学科领域层级上也进行了复制分析。表4展示了三个拟合模型的R平方值。总体模式在所有领域中得到了验证：在考虑了非科学因素之后，同行评议评分对于预测学术成果的长期影响力几乎没有帮助，而短期影响力则能够显著提高预测准确性，尤其是在物理学和生物学领域。

讨论与结论

大多数研究评估领域的学者和从业者普遍认为，同行评议是黄金标准，而基于引文的评估则是更快、更经济的替代方法。因此，大量学术研究集中于评估文献计量学方法与同行评议在不同领域（如单篇科学出版物、个体研究者、研究机构）中替代或互补的有效性。然而，关于同行评议优于文献计量学评估的基本假设，其理论依据仍显不足。

在实证研究方面，Abramo等人提供的证据表明，与同行评议质量评分相比，早期引文更能准确预测科学出版物的长期学术影响。本研究进一步支持了这一发现，且即便在控制了非科学因素对影响力的作用后，这一结论仍然成立。

类似地，理论基础方面也存在不足。近年来，政策制定者的关注逐渐转向评估研究的社会影响，而不仅仅是其质量。尽管研究成果的质量是实现研究目标的手段，但研究活动的终极目标始终是产生社会影响。这一影响不仅取决于研究机构的努力，也取决于工业和公共部门将研究成果转化为改进产品和流程的能力。在机构职能方面，需要明确区分生产与传播的角色，即研究人员与技术许可办公室之间的职责分工。研究人员不仅要产生高质量的研究成果，还应通过合理利用非科学因素，确保成果能够迅速传播到学术界，从而提升学术影响力。

近期的国家层面评估举措部分反映了这些新优先事项，要求机构通过提交相关案例研究，证明其研究的社会影响。然而，尽管如此，出版物的同行评议仍然被视为主要的评价指标，这些评估更多关注研究质量而非学术影响力。同行评议专家通常专注于特定领域，因此在评估跨领域研究的广泛科学意义时，可能存在局限性。最新的研究显示，出版物的引文主要来自不同学科领域，说明学术影响力的传播并不限于单一领域。

尽管科学成果的质量在学者评估中通常起到重要作用，但其他因素同样不可忽视。本研究表明，除了研究质量，作者声誉和出版平台等因素在发挥学术文章在学术界的影响力上也起到了重要作用。此外，尽管被引文献的平均影响力和多国作者合作等因素的影响相对较小，但也同样值得关注。采用文献计量方法，能够有效衡量学者作为“消费者”如何选择和引用其他文献，从而有助于帮助政策制定者制定更加精准的科研政策，实现共同目标。将“研究质量评估”这一传统概念替换为“研究影响评估”，能够为专业人士和利益相关者提供更加清晰的评估目标。

(全文及参考文献见Scientometrics 2024年第129卷，原文链接：https://link.springer.com/article/10.1007/s11192-024-05106-z，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

“负责任的研究评估”的法律基础：欧盟概览