如何以更具包容性的方式衡量研究质量？英国REF实践经验-国家智能评价与治理实验基地

如何以更具包容性的方式衡量研究质量？英国REF实践经验

发布时间：2024-11-15 作者：Erin Hengel等编辑：王译晗 来源：复旦智能评价与治理

摘要：已有证据表明，常用的研究质量指标对特定群体存在系统性偏见，如期刊论文发表数量和引用次数。仅依赖这些指标来评估研究质量是否会导致学术界多样性下降？本文通过分析英国全国性研究评估活动——研究卓越框架(Research Excellence Framework，REF)的数据，试图回答这一问题。研究结果表明，基于产出的部门研究质量衡量标准的确与部门员工的多样性呈负相关，而基于研究影响力和研究环境质量的衡量标准则与员工多样性呈正相关。因此，使用包含这三类标准的综合指标，可能比单纯关注产出的指标更有助于提升员工多样性。总体而言，全面的研究质量定义相比狭义的衡量标准更能有效地提升学术界的多样性。此外，基于更广泛指标进行的资金决策可能在高等教育领域实现更有效的资源配置。

关键词：绩效衡量；研究质量；多样性

引言

研究质量和生产力的常见指标(如引用次数和发表数量)在学术就业市场中(如终身教职和晋升)发挥着至关重要的作用。近年来，这些指标也越来越多地影响哪些项目和个人能够获得竞争性、非经常性的资助。而在未来，这些指标甚至可能决定常规性研究资金在各机构之间的分配。

虽然大多数指标计算简便且易于获取，但它们只是研究项目真实质量和研究人员真实表现的代理之一。许多研究表明，这些指标存在与研究人员特征相关的误差。例如，Card等人研究表明，与男性经济学家相比，女性经济学家在顶级经济学期刊上被要求更高的接受标准。男性因其在学术网络中的联系更强，或许有助于他们在同行评议中取得更佳结果。同时，Ferber等人研究发现，男性撰写的期刊文章较少引用女性作者的研究，更多引用其他男性；Larivière等人则发现，女性作为第一或最后作者的文章的引用率显著低于同等职位的男性作者。

如果某些群体相比其他群体发表的文章和引用次数较少，那么仅依赖基于出版物或引用的指标可能会使前者受益。相对而言，更广泛的研究质量衡量标准可能会对代表性不足群体产生的劣势较小。然而，迄今为止，关于这些更广泛的指标在实际使用中的效果或者它们是否比狭义指标更能提高学术人员多样性的证据依然不足，这正是本文的贡献所在。

本文提供了关于英国REF中多种广泛的研究质量衡量标准与学术人员多样性关系的新证据。英国每6-7年会通过全国性活动REF对大学各学术部门的研究质量进行评估。REF评估范围被广泛定义，包括部门的“产出”(学术出版物)、“影响力”(展示研究如何改变政策和实践的案例研究)和“环境”(关于部门如何“支持卓越研究产出”的叙述性说明)。随后，政府根据大学各部门在这三方面表现的加权平均值分配研究经费。

通过将REF2014的部门层级评估数据与英国高等教育统计局提供的部门学术人员多样性数据相结合，我们探讨了REF广泛的评估范围，尤其是其在研究质量定义中纳入“影响力”和“环境”的方式是否比仅关注产出的狭义定义更可能促进学术人员多样性。

REF2014概述

REF的结果直接或间接决定了资源在各机构之间的分配，并对大学的研究投资策略以及招聘和晋升决策产生了深远的影响。

REF的提交是以评估单元(Units of Assessment, UoAs)为单位进行的，这些评估单元大致对应各学术部门。在REF2014中，对研究质量的评估由36个学科子小组负责，这些子小组由学术界和外部评估人员组成，并被划分为四个主小组，分别涵盖医学、健康与生命科学(A小组)、物理科学、工程学与数学(B小组)、社会科学(C小组)以及艺术与人文学科(D小组)。

在REF2014中，每个UoA向REF提交了以下三个要素：

● 精选的工作人员研究成果(如书籍和学术文章)。

● 有限数量的影响力案例研究，记录工作人员研究的广泛社会影响(如研究对政策和实践的影响)。

● 对研究环境的叙述性描述，涵盖以下四个方面：(1) 研究议程的一致性；(2) 资源、设备与基础设施；(3) 外部参与；(4)“人员”，其中包括促进UoA工作人员之间的平等性与多样性。

产出和影响力反映了部门研究的质量，环境则评估了部门支持研究的策略、流程和文化。它也是唯一具有明确前瞻性的组成部分，旨在识别能够持续维持积极研究环境的部门。

REF2014的小组成员对每个UoA提交的产出、影响力和环境的质量进行了评估，但并未正式使用引文和期刊排名等量化指标。相反，质量是根据以下广泛标准进行主观评估的：产出依据其“原创性、重要性和严谨性”进行评判；影响案例研究依据其“覆盖范围和重要性”进行评判；研究环境依据其“活力和重要性”进行评判。根据这些标准，研究质量被划分为4*(最高)至1*(最低)等级。每个子小组和主小组还通过基准测试确定每个等级的具体标准。许多子小组还对提交材料进行了双重评分以提高评估一致性，影响案例研究则由学术界以外的外部评估人员进行评估。

评估结束时，每个UoA的产出、影响力和环境的评分等级会被公布在REF官网。每个UoA还会获得一个综合等级，即三个要素评分的加权总和，用于确定政府资金的分配。

研究方法

本研究的方法论基于一个简单的概念框架，旨在阐明不完全测量研究质量时可能引入的偏差，并为后续的实证分析提供理论支持。研究假设部门的研究质量由部门的才能决定，但由于无法直接观测到这一点，政府只能观察到一个与之相关的替代指标。然而，这个替代指标往往偏向某些群体，导致资源分配的不公。

为检验替代指标与多样性之间的关系，研究采用普通最小二乘法(OLS)回归分析。通过分析REF2014中不同研究质量指标(如研究产出、影响力和研究环境)与部门学术人员多样性(特别是非白人和女性比例)之间的关系，估算这些指标对多样性的影响。

此外，为探讨这些评分与未来多样性变化之间的关系，研究进一步分析了REF2014提交后五年内部门多样性的变化情况，并将这些变化与部门的研究产出、影响力和研究环境评分进行了关联分析。

通过这些分析，研究旨在揭示当前研究质量评估体系中的偏差，并探讨如何通过调整评估指标来更好地促进学术界的多样性和公平性。

研究结果

4.1 主要结果

(1)研究产出评分与多样性之间呈负相关关系：研究发现，研究产出(如学术论文和出版物)的较高得分与部门中非白人和女性学术人员的比例呈负相关关系。这意味着在REF2014提交期间，研究产出得分较高的部门通常在多样性方面较弱。

(2)研究影响力评分与多样性之间呈正相关关系：与研究产出不同，研究影响力评分与学术人员多样性之间存在正相关关系。这表明，影响力得分较高的部门在多样性方面表现更好，且这一结果在控制学科领域和机构的固定效应后依然稳健。

(3)研究环境评分与多样性之间呈现复杂关系：研究环境评分与部门多样性之间的关系较为复杂。尽管研究环境评分要求考虑多样性和平等，但结果显示该评分与部门在REF2014提交期间的多样性呈负相关。然而，在考察研究环境评分与未来多样性改善之间的关系时，研究发现两者存在正相关关系，这表明积极的研究环境可能有助于未来的多样性提升。

(4)不同评分对多样性提升的影响：进一步分析显示，得分较高的研究产出与随后的多样性改善呈负相关，这意味着这些部门在提交后的几年内多样性有所下降。相比之下，研究环境评分的正相关性表明，环境得分较高的部门在未来几年内的多样性有所改善。

结果表明，研究质量的不同衡量标准与多样性的关系各异，综合的质量衡量方法可能有助于缓解单一指标引发的偏差，从而更好地促进学术界的多样性。

4.2 进一步思考

部门的流程和文化特征是否与本文所衡量的多样性提升相关？对这一问题进行探究有助于制定关于代表性不足群体的策略，也可以为设计更具针对性的方案提供依据。本文考虑了两个可能的路径——Athena SWAN认证(英国一项旨在提高高等教育中性别平等的全国性倡议)和部门层面的管理实践质量。

（1）Athena SWAN

Athena SWAN章程于2005年推出，最初在STEM领域实施，后扩展至所有学术领域。Athena SWAN奖项分为铜奖、银奖和金奖，授予那些在性别平等方面做出承诺的部门。申请该奖项通常需要数年，涉及对性别平等的全面审查和一系列具体的变革提案。REF的许多环境声明中提及了Athena SWAN——要么是因为部门已获得该奖项，要么是因为部门正在申请这一奖项。

引入Athena SWAN认证这一变量的分析结果显示，尽管提及Athena SWAN的部门在2014年提交时多样性水平较低，但这些部门在随后的几年内多样性改善幅度较大。这表明，申请Athena SWAN认证可能是对多样性不足的改善，且该认证确实与多样性提升有关。然而，这些关联未表现出统计上的显著性，表明可能存在其他起作用的因素。

（2）管理实践

部门的管理方式是决定其战略、流程和文化的重要因素，环境得分可能反映了一个部门的管理质量。经济学文献中有大量关于不同组织管理质量衡量的研究，表明组织在运营和人力资源管理方面的实践质量与其整体绩效呈正相关。这种关系适用于多个领域，包括英国高等教育。同时有证据表明，管理较好的组织拥有更好的工作与生活平衡举措，如灵活的兼职工作、家庭事务休假、儿童照顾支持和远程办公。这表明，管理更好的组织可能为女性比例较高的工作环境提供支持，但这一假设尚未得到明确验证。

2012年，McCormack、Propper和Smith收集了160个部门(包括英语、心理学、商学和计算机科学)的管理质量评分(特别是运营管理质量和人力资源管理质量)。将这些(标准化的)管理评分作为进一步的控制变量，旨在探讨管理实践是否可解释观察到的环境评分效果。研究结果显示，管理较好的部门(尤其在人力资源管理方面)确实表现出更高的多样性。在纳入管理实践评分后，环境评分与REF后多样性改善之间的正相关关系依然存在且幅度有所增加，但不再显著，这可能是由于样本规模较小所致。

鉴于样本规模有限，这些结果仅供参考。此外，尚不确定这些结果是否仅适用于特定学科(如商学、计算机科学、英语和心理学)或是否具有更广泛的适用性。尽管如此，这些结果为人员管理过程作为积极环境的重要组成部分提供了初步证据，表明其可能有助于提高历史上代表性不足群体的比例，也为未来研究指明了方向。

讨论

论文提供了来自REF2014的新证据，证明了学术部门研究质量的替代衡量标准与其学术人员多样性之间的关系(通过历史上代表性不足的群体的比例来衡量)。主要发现，产出研究质量的衡量标准与多样性衡量标准呈负相关，而研究影响力和研究环境质量的衡量标准则与之呈正相关。

一个重要启示是，研究质量衡量标准范围的选择对于高等教育的多样性至关重要。一些拥有国家研究评估程序的国家一直存在关于评估研究质量的最佳方法的争论。虽然基于指标的评估系统具有实施成本较低的吸引力，但证据表明，如果狭义和基于指标的方法对某些群体存在偏见，那么这种方法会导致资源在该领域的错误分配。例如，澳大利亚研究委员会在其“澳大利亚研究卓越评估(ERA)”中使用了一个强烈依赖文献计量指标的评估系统，这种基于狭义指标的方法可能会导致资源分配的不公平。

另一个启示是，扩大研究质量衡量标准的范围可以减轻对多样性的负面影响。通过将研究影响力和环境质量的衡量标准与产出质量的衡量标准结合起来，可以促使资金向那些多样性较高的部门倾斜（虽然实际分配的资金差异不大）。为了量化纳入环境得分的效果，可以比较部门在REF提交前后多样性的平均变化，首先只考虑“产出”指标，然后再将“环境评分”也纳入考量。

本文的重点是提供证据以证明研究质量衡量的范围很重要，并且对代表性不足的群体有影响。采用英国REF作为案例是因为它提供了不同的质量衡量标准，但这并不意味着对当前REF措施的认可。如前所述，评估中可能存在高度的主观性。此外，环境衡量中包含的四个不同要素也存在模糊性。揭示这些要素并准确理解哪些研究环境因素对多样性有利仍然是需要进一步讨论和研究的课题。

(全文及参考文献见Research Evaluation 2024年4月，原文链接：https://academic.oup.com/rev/advance-article/doi/10.1093/reseval/rvae013/7642424，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

研究评估中的科学价值与社会价值：社会影响评价方法综述