践评价

首页 > 评价前沿 > 践评价 > 正文

迈向负责任的研究评估:如何奖励研究质量?

发布时间:2024-11-08 作者:Gärtner A等 编辑:王译晗 来源:复旦智能评价与治理

undefined

“如果学术体系的激励机制能够与这一目标保持一致,研究人员将更愿意优先考虑研究质量而非数量。”——2023年爱因斯坦基金会研究质量促进奖的获奖者介绍了他们如何应对这一挑战。

学术界似乎正在达成越来越广泛的共识,不再主要通过定量指标(如发表论文的数量、期刊影响因子或h指数)来评估个人的学术成就,而是更加重视其科学工作的质量、透明性、可重复性以及创新能力。这种转变是对当前研究评估体系的一种回应,尽管该体系在某些方面是有效的,但它可能无意中鼓励了一些阻碍知识进步的行为。为应对这一挑战,已经有多个相关举措。例如,早在2012年,旧金山研究评估宣言(DORA)就呼吁停止使用不适当的定量指标(如期刊影响因子),这一倡议不仅得到了许多著名的第三方资助机构的支持,还得到了众多科学协会的签署。最近,DORA推出了Reformscape这一在线工具,旨在探讨如何在机构中实施负责任的研究评估机制,尤其是在招聘、晋升和终身教职方面,并分享各领域和机构的具体做法。在欧洲,一些签署DORA的机构也加入了推进研究评估联盟(CoARA),该联盟旨在从根本上改革研究绩效的评估方式。

然而,大学聘任程序的实际执行表明,易于测量的定量指标仍然被优先考虑,而对候选人科学工作的质量、严谨性、可靠性、稳健性、透明性以及创新性等方面的评估似乎不那么重要。聘任程序中的各种“标准”实际上构成了一种隐性的激励系统,只奖励一些特定活动,例如发表大量论文,而对研究的透明度、可重复性或领导和管理技能的进一步培训则重视不够。因此,这些激励系统可能对整个科学系统产生不利影响,尤其是在质量控制机制(例如同行评议)和系统自我纠正机制不够有效的情况下。

在评估和预测优质科研绩效时,过于强调纯粹研究产出数量的指标是有问题的,因为这些指标的可靠性存在争议。此外,期刊排名(通过期刊影响因子衡量)与期刊发表论文的方法学质量之间的相关性较弱,甚至可能呈现负相关。学术界的环境十分激烈,因此在招聘和晋升过程中的激励措施直接影响个人行为,包括其是否可能会参与存在问题的研究实践,这反过来会危及已发表研究结果的稳健性。

因此,我们的“负责任的研究评估”倡议旨在通过提出一个更全面、更细致且更具操作性的评估框架来应对这一问题,该框架名为RESQUEhttps://www.resque.info/。我们中的一位成员(Anne Gärtne)因参与该倡议中的一个项目而荣获了柏林爱因斯坦基金会2023年早期职业研究质量促进奖。与荷兰研究组织的“认可与奖励”计划及欧洲研究型大学联盟的立场文件一致,RESQUE提出了四项指导原则:应当重视多样化的学术贡献(不仅限于期刊文章),包括数据集发布和研究软件开发;定量指标必须有效并被负责任地使用;在评估研究时,应独立考量方法的严谨性、影响力和数量;质量应被视为比影响力和数量更为重要的因素。尽管这些基本原则与其他倡议(如DORA和CoARA)有相当大的重叠,但RESQUE项目是首个提出具体研究产出评估标准的系统之一。目前,一个免费的在线评估工具正在开发中。

目前,整个项目已经演变为一个由社区驱动的共同努力。多个自下而上的工作组正在对项目进行修订和扩展,学术界的各学科院系也开始讨论并着手各领域的扩展模块。这些成果也将被纳入更广泛的CoARA进程中。

首个具体提案(于2022年作为预印本发布)包含了一个两阶段的评估流程,该流程结合了使用量化指标的客观性和效率(第一阶段),以及对实际研究内容的深入且辩证的评估(第二阶段)。为了拓宽“研究贡献”的范畴,我们的提案引入了研究论文、数据集和研究软件的质量标准。这些标准强调各类贡献的方法论严谨性(因为方法论决定了研究的严谨性)。一些相关的问题包括:研究是否进行了预注册;数据和分析代码是否以公开、全面且可重复使用的方式提供(例如FAIR格式);研究是否具备可复制性,计算结果是否能够被独立复现;以及理论表述是否遵循形式逻辑的原则

这些标准以及由此形成的多维度研究档案(如图1所示)将在评估流程的第一阶段被应用,以筛选掉那些方法论严谨性不足、生产力偏低或在其他类型的学术贡献(如教学)方面未达到必要标准的申请者(例如通过设定最低门槛)。通过这一负向筛选的候选人将被列入候选名单。

评估过程的第二阶段更加关注候选人研究的实际内容和学术价值,不再依赖已被过度使用的指标。在此阶段,其他标准如目标、相关性、创新性和创造力将被纳入评估(正向筛选)。这需要通过与候选人、委员会成员以及外部评审员对其工作进行深入讨论来完成

用于第一阶段评估的免费在线工具现已发布,能够支持衡量研究成果的方法严谨性。其他类型的学术贡献(如教学、领导力、治理、社会影响)的质量标准尚待开发和测试。RESQUE系统最初是为心理学领域开发并在心理学领域内应用,但我们相信它也可能适用于许多其他领域,因为许多促进研究质量的实践(如开放数据和预注册)同样适用于大多数实证科学分支。但特定领域可能仍需进行一定的适应性调整。

在招聘和晋升流程中摒弃对出版物数量指标的依赖,最终可能为整个学术体系提供发展蓝图,并有助于辅助研究经费、奖学金和奖励的分配决策。通过将评估重点转向质量导向,我们可以建立一种研究文化,不仅奖励真正的学术贡献,也为建设一个更为稳固和有影响力的科学未来奠定基础

(原文链接:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3002553,本期推文为节选摘编,略有删减和编辑。)




本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 金潇苒 王译晗

本期责编 | 金潇苒

基地官网:https://statevalbase.fudan.edu.cn



·end·


下一篇

研究社会影响评估的负责任框架

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433