指标的权力：指标在同行评议中发挥了多大作用？-国家智能评价与治理实验基地

指标的权力：指标在同行评议中发挥了多大作用？

发布时间：2024-08-23 编辑：王译晗 来源：复旦智能评价与治理

摘要：科学出版物及其引文指标易于获取，且常被用于对研究和研究人员的评估中。本文基于在三个国家进行的大规模问卷调查，探讨这些指标是否被研究人员视为研究评估中合法且不可或缺的部分。本研究对不同学术领域(心脏病学、经济学和物理学)以及研究评估的不同背景(识别领域内的高质量研究、评估资助申请和职位候选人)进行了比较。仅有少数被调查的研究人员表示，指标是他们将某项研究视为高质量的因素。在所有研究领域中，大多数人认为指标在评估资助申请和学术职位候选人时是重要或部分重要的，在这些背景下，出版物数量和引用影响尤其受到重视。尽管这些发现适用于所有分析领域，但经济学家比心脏病学家和物理学家更依赖于生产力标准。此外，在文献计量指标上表现突出的评审员似乎比其他评审员更频繁地依赖指标进行评估。因此，在进行同行评议时，应注意到评审员，尤其是那些在指标上表现突出的评审员，往往认为指标是对于项目和候选人的良好预测指标，并在评估过程中更容易依赖指标，尽管学界对于出版物指标的使用和滥用存在担忧。

关键词：同行评议；研究质量；文献计量指标；指标；研究领域

引言

研究机构、资助机构、政府部门及其他组织在研究评估中普遍依赖同行评议，而同行评议可能(部分)依赖于学术出版物及其引用相关的指标。

近年来，文献计量指标的使用引发了广泛争议，成为研究评估实践中的一个核心争论点。滥用指标的现象屡见不鲜，其对研究体系可能带来的负面影响也引起了越来越多的关注。在对个别研究人员进行评估时，对于指标使用的普遍担忧已体现在一些重要文件之中，例如《莱顿宣言》，该文件提出了衡量研究绩效的10项基本原则；此外，还有旨在避免将期刊影响因子作为衡量单篇文章质量替代性指标的《旧金山研究评估宣言》(DORA)。

背景和研究问题

通常来说，同行评议者之所以选择使用指标作为评估资助申请或学术职位候选人，至少有三个原因(无论是部分还是全部)。评估过程涉及对实体特征的分类，并将其置于一个或多个层次结构中，因此，指标在多方面都有助益：首先，指标易于获取，减少了评审所需的时间和精力；其次，评议者可能认为这些指标是评估研究质量或研究绩效的有效/公平的代理变量；最后，指标的使用可能受到评审组织者的明确鼓励，这体现在评审标准和指南中，组织者可能会提供建议使用的指标。

类似的理由(易获取性、良好/公平的替代指标、外部鼓励)也可能推动研究和资助组织在其评估实践中采用指标。在组织层面，指标提供了关于申请人的易获取信息，被视为高度相关且公正，能够减少同行评议中的偏见，并可能受到政府部门的支持。此外，同类组织使用指标的成功实践也可能成为范例，促使其他组织效仿。

在此背景下，本研究旨在探讨两个主要研究问题：

a.指标在多大程度上构成了高质量研究概念的一部分？

b.在评审研究计划和学术职位候选人时，评审员对指标的使用程度如何？

数据和方法

本文基于问卷调查数据进行探讨，调查对象为荷兰、挪威和瑞典的物理学、经济学和心脏病学研究人员。这三个领域分别属于科学的不同分支(社会科学、自然科学和医学科学)，如上所述，它们的出版物情况和指标使用存在差异。

问卷调查总计收到了1621份回复，回复率为32.7%。各国的回复率差异显著：挪威为49.1%，瑞典为38.7%，荷兰为19.9%。不同领域的回复率也有所不同，心脏病学为25.8%，经济学为31.5%，物理学为37.1%。在数据分析中使用了R语言，并通过RMarkdown进行可视化。

同行评议中的指标

4.1 高质量研究的特征

在被认为是某一领域高质量研究的特征中，期刊影响因子和引用率相对不那么重要。22%的受访者表示，期刊影响因子和/或引用率是他们认为某项研究是高质量研究的原因之一，但最常见的原因是该研究解决了该领域的关键问题(67%，见表4)。受访者可以选择多个答案，只有极少数人仅选择期刊影响因子和/或引用率作为他们认为某项研究高质量的唯一原因。

4.2 资助申请

虽然定量指标在识别领域内高质量研究时的重要性适中，但有45%的受访者表示，在评估资助申请时，出版物数量/生产力是“非常重要”的，23%认为引用率在他们的评估中“非常重要”。与其他几个方面相比，这些指标也显得相对重要(见表5)。然而，它们的重要性仍远低于“研究问题”(94%)和“方法/研究计划”(85%)，这两项被认为是资助申请评估中最为重要的因素。然而，若将那些认为“有些重要”的受访者包括在内(48%认为出版物数量重要，59%认为引用率重要)，那么绝大多数受访者表示，指标影响了他们对高质量提案的考量。

4.3 职位候选人

职位候选人评估的调查结果与资助申请评估相似：使用定量方法似乎在评估中比确认研究是否高质量的过程更为重要。42%的受访者表示，在评估候选人时，出版物数量/生产力“非常重要”(见表6)。引用影响力似乎不如出版物数量重要，只有19%的人认为它“非常重要”。值得注意的是，在心脏病学和物理学领域，研究贡献被认为比出版物数量/生产力更为重要。而在经济学领域，有较高比例的受访者认为出版物数量/生产力非常重要(54%)，而认为独立于指标评估的研究贡献非常重要的比例较低(45%)。

4.4 受访者文献计量表现对评估的影响

回归分析显示，受访者的文献计量表现并不影响他们认为某项研究是否为高质量研究的判断。然而，在实践中，受访者在评估资助申请和职位候选人时，自身的文献计量表现与他们使用指标的频率呈正相关。在评估资助申请时，受访者认为出版物数量和引用影响力“非常重要”的概率，随着他们的出版物数量、是否拥有高被引论文以及在高被引论文中所占比例的增加而提高.

同样，在评估学术职位候选人时，受访者的文献计量表现也影响了他们对指标的使用程度，但这种影响较评估资助申请要小。受访者自身的出版物数量并未显著影响他们将候选人的引用影响力或出版物数量视为“非常重要”的概率，但出版物数量重要性的对数值随着受访者的出版物数量增加而上升。此外，拥有高被引论文的受访者，更倾向于认为候选人的引用影响力“非常重要”。

4.5 不同意见和观点

在关于指标是否被视为研究评估中合法且必要组成部分的这一问题上，研究结果显示了受访者之间的意见分歧，以及不同评审背景和指标类型之间的差异。

绝大多数受访者在评审中赋予了指标重要性，并且似乎认为指标是评审过程中的合法和常规基础。特别是在评估资助申请时，绝大多数受访者认为出版物数量/生产力非常重要，只有6%的受访者表示这一点不重要。仍有相当一部分受访者(33%)表示，引用率在评估学术职位候选人时并不重要。

关于高质量提案的主要特点，受访者的自由文本回复阐述了不同的观点和看法。一些资助申请评审员强调，文献计量指标并不重要，而另一些则认为，出版物和引用率是高质量提案的关键特征，或者简单强调在顶级国际期刊上发表论文。

对于职位候选人的评估，一些评审员似乎认为在主要/顶级期刊上发表文章是基本或客观的标准，然后他们会添加一些符合特定研究领域或职位需求的重要特征。其他人则表示，候选人在期刊上的发表情况或相关指标组合在选择过程中很重要。然而，对于这些标准的充分性，受访者未有统一意见。

讨论与启示

本文探讨了指标是否构成研究者对于高质量研究概念的一部分，以及在评估中使用指标的程度。关于第一个问题，只有少数受访者将指标作为判断某项研究是否优质的依据。因此，支持这种关联性的经验证据较为薄弱。而在第二个问题上，我们发现了强有力的支持证据，因为绝大多数受访者表示，在评审资助申请和评估学术职位候选人时，指标是重要的或部分重要的。

研究质量是一个多维度的概念，在不同的背景和领域中，被视为高质量研究的关键特征可能存在显著差异。例如，根据文献计量研究的结果，引用次数、出版物数量或期刊影响因子可能反映了研究质量的不同维度：引用次数在一定程度上反映了研究的学术价值和影响力，但并不能体现其独创性、合理性/可靠性或社会价值。数据表明，受访者在评估未来项目的潜力或职位候选人时，将定量指标的表现视为能否会成功的预示，但这与他们所认为的高质量研究的特征有所不同。绝大多数受访者在评审资助申请和职位候选人时表示，指标是非常重要或部分重要的，而约有五分之一的受访者表示，判断其所在领域高质量研究的因素之一是在高影响因子期刊上发表论文或获得大量引用。因此，约五分之一的研究者似乎将指标视为识别自己领域内高质量研究的评判工具，但这并不一定意味着他们将指标本身视为高质量研究的特征。只有极少数受访者将期刊影响因子或高引用率视为其所在领域高质量研究的唯一标准，有人提出，在高影响因子期刊上发表论文正在逐渐成为科学质量的一种独立衡量标准。

此外，分析显示，不同领域在出版物指标的使用上存在显著差异：经济学家更倾向于将期刊影响因子和引用率作为评判某项研究是否为高质量研究的依据，并且在评估资助申请和职位候选人时，更加注重申请人的出版物数量。而物理学家和心脏病学家则不太依赖指标，而是更注重独立于指标的研究贡献。这些差异与各领域中研究的组织方式和价值观的差异密切相关。在经济学领域，研究通常由个人主导，并围绕一个理论核心和对个人声誉至关重要的关键期刊展开。在这种情况下，对指标的高度依赖可以解释为，期刊等级体系和研究组织结构的结合使得将研究绩效归因于个人变得更加容易。物理学则是由高度协作的领域组成，其中一些领域存在“超级作者”现象，使用出版物指标来归因个体研究者的贡献更加困难。同样，心脏病学作为医学研究的一个分支，具有高度依赖合作、资源和设施的特点，这解释了该领域相对于经济学对出版物指标的重视较低的原因，并且在评估资助申请时更加强调研究资源和设施的重要性。值得注意的是，这些领域的受访者在回答时也存在较大差异：例如，大多数物理学家和心脏病学家在评估资助申请和学术职位候选人时，认为申请人的出版物数量非常重要，而另一些人则认为这一因素不重要或仅有些重要。总之，以上表明，理解不同研究领域之间以及研究领域内部的认识论差异和组织方式差异如何影响研究和研究绩效的评估标准，对于解释指标在评估中的重要性差异至关重要。

国家背景对研究质量认知的影响相对较小，而领域差异更为显著。尽管我们研究的样本来自北欧的三个国家，代表了研究资助和评估的多样性，但如果纳入更多不同国家的样本，可能会揭示出同行评议中指标使用的更大差异。

政策意义

这些发现对于研究评估的多个方面具有重要的政策意义。最后本文将讨论与以下3个方面相关的影响：(1)研究议程和研究活动如何应对研究评估；(2)限制研究评估中(错误)使用指标的政策；(3)研究评估的设计和组织。

首先，过度强调指标可能会影响研究活动和研究议程。研究人员，尤其是年轻的和非终身职位的研究人员，不能忽视在学术职业生涯中获得认可和吸引研究资金的必要因素。他们需要考虑到哪些研究能够帮助他们获得资助和职位。值得注意的是，在我们的数据中，经济学家似乎较少重视专业知识与研究团队或单位需求的匹配，而更倾向于依赖指标。这可能意味着，相比于明确决定雇用何种类型的研究人员(包括他们的研究主题和方法)，那些更容易在经济学顶刊上发表论文的人员更有可能被聘用。因此，研究人员该如何应对指标成为研究评估以及更广泛的政策研究中的一个关键议题。

其次，尽管学界对研究指标的使用和误用日益关注，但本文结果显示，研究人员依然依赖于3种类型的指标：期刊影响因子、出版物数量和引用影响力。接近五分之一的受访者称，高影响因子是其判定某个领域高质量研究的原因之一。期刊影响因子和期刊排名已经广泛用于研究绩效评估，尤其是在医学和经济学领域。随着2012年DORA的发布，这种做法所带来的问题受到了更多关注。作为回应，许多资助机构、科学协会、学术机构和期刊出版商的政策和实践发生了变化。然而，也有报告指出，期刊影响因子仍然被用于与DORA宣言相冲突的目的。值得注意的是，DORA宣言促使人们更加关注其他评估研究的方式，包括开发替代的基于论文的指标。尽管出版物数量和引用影响力指标没有期刊影响因子所面临的类似问题，但众所周知，这些指标在应用于微观层面时也存在各种局限性和缺陷，尤其是在评审资助申请或学术职位候选人时。此外，调查中发现的领域差异表明，我们需要更好地理解为何以及如何在不同领域使用指标，并考虑在研究评估中结合学科领域进行指标调整。

最后，研究评估的设计和组织也受到了一定影响。基于出版物的指标似乎被认为是研究质量和绩效的有效代理，至少在大多数研究人员看来如此。这可能是因为他们信任其领域中主要期刊和出版机构的审稿流程，并认为将指标作为质量的代理是合理的。从这个角度来看，主要期刊的编辑和审稿人实际上掌控着学术出版、学术职位和研究资助的关键标准。在“审稿链”的末端，我们常常会发现该领域主要期刊的倾向主题、审稿流程和出版政策。因此，遵循这些期刊的主题、观点和方法的研究人员更有可能在资助竞争和学术职位上获得成功。然而，以上分析表明，审稿人对研究评估中使用指标的态度存在分歧。因此，即使某些主题、观点或方法在某一领域占据主导地位，审稿结果也可能因审稿小组成员对指标的看法而有所不同。因此，在审稿过程中，不仅需要考虑审稿小组成员的学术背景和能力，还要考虑他们对指标的偏好，这可能是决定性的。为了确保审稿过程的公平性和合理性，有必要了解审稿小组在评估中如何使用指标，并鼓励他们对指标使用进行明确讨论。如果审稿小组没有公开讨论指标的作用，或者这些作用未被论证和理解，那么我们可能会面临评审标准不透明的风险。

(全文及参考文献见Research Evaluation 2021年第30卷第1期，原文链接：https://academic.oup.com/rev/article/30/1/112/6048419?login=true，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

技术辅助研究评估：算法偏见和透明度问题