研究评估正在吞噬幸福感？——负责任研究评估的边界探析-国家智能评价与治理实验基地

研究评估正在吞噬幸福感？——负责任研究评估的边界探析

发布时间：2025-09-26 编辑：王译晗 来源：复旦智能评价与治理

摘要：本研究将研究评估概念化为一种情感实践，发现研究人员在评估中所经历的负面情绪体验与负责任研究评估(RRA)的核心主张大体一致。RRA并不能完全化解评估过程中固有的情感张力，这源于研究评估本身所具有的主观性。通过阐释研究评估的程序性层面(尤其是对同行评议的依赖)以及组织约束如何加剧这种复杂性，本研究拓展了对RRA边界的理解。本研究以芬兰为背景，基于问卷调查数据考察研究人员对评估实践的偏好，以及他们认为应当得到认可与奖励的技能和专业知识类型。研究基于情感理论，重点分析了问卷调查中的开放性问题，特别是社会科学与人文学科研究人员(样本数181)的回答。从这一视角看，研究评估不仅是一项技术性工作，更是一种塑造研究人员学术劳动体验的情感实践。若要推动研究文化的可持续发展，必须承认研究评估在研究人员负面情绪体验中的双重角色：既包括其基本的排名与资源分配功能，也涉及程序性层面(RRA仍需改进)。若RRA的发展不能正视评估的固有主观性，或可能导致研究人员的体验与政策理想脱节。若不直面这些局限性，一切改革努力可能滑向一种理想化的评估愿景，最终陷入自我循环的困境。

关键词：负责任研究评估；科研评价；情感；学术工作；SSH；研究人员

引言

评估在学界发挥着关键作用，既是研究质量的守门人，也是有限资源在众多潜在贡献中进行分配的机制。在当今常被描述为新自由主义、强调效率与绩效的大学环境中，研究评估已成为科研日常组织与学术文化建构的核心要素，甚至被形容为一种“颠覆性技术”的治理工具，蔓延至学术工作的各个层面。尽管如此，该领域对研究评估的情感维度的关注仍然有限。

从研究评估的角度看，人文社会科学(SSH)领域因依赖多元化的质量标准而显得尤为脆弱。这些学科以研究质量概念的多样性为特征，因而为主观判断提供了更大空间。与自然科学相比，SSH领域的规范化程度更低，研究成果常以随笔式文本呈现，而非遵循标准化格式。此外，SSH领域呈现的是多种竞争范式并存，而非单一主导范式。这些特性及由此产生的评估不确定性，共同营造了特殊的情境，使SSH研究人员在成果评估中更易面临紧张关系与挑战。

本研究引入了一个分析框架，将研究评估视为学术界生产与传播“负面情绪”的关键机制。本研究旨在深化对RRA潜力与局限的理解。对RRA的承诺提出批判性视角，从两个层面界定了与评估相关的负面情绪：一是RRA能够产生实质性影响的层面，二是超出RRA能力范围的层面。为实现这一研究目标，本文提出以下问题：评估机制如何使研究人员将负面情绪附着于评估之上？RRA又能在多大程度上回应这些问题？

数据与方法

本研究的实证案例立足于芬兰——该国研究机构积极践行RRA原则，所有13所大学均已签署《改革研究评估协议》。此外，2020年芬兰发布了《负责任研究人员评估国家建议》。芬兰的大学主要依赖公共经费，核心经费约占总收入的一半，而竞争性外部资金则主要来自国内外公共资助渠道(芬兰Vipunen教育统计数据)。教育与文化部下属大学的资助模式高度指标化，例如14%的资金按出版物数量分配，且出版物需依据名为JUFO的四级评级体系对主要国内外出版渠道加权。换言之，芬兰大学的资助模式在实质上采用了以期刊为基础的指标来分配经费。在组织层面，这种做法尚不构成严重问题，但当组织层面的指标逐级传导至院系甚至个人层面时，就会与RRA原则产生矛盾。既有研究表明，各大学为最大化核心经费，往往在内部复制国家层面的资助模式。

本研究的数据来自一项调查，该调查旨在探索研究人员对评估实践的偏好，并识别他们认为应在评估中得到认可与奖励的技能和专业知识类型。该调查由芬兰学会联合会于2023年开展，面向不同学科领域、职业阶段与机构的研究人员。本文重点分析其中一个子集，即隶属于大学的SSH领域研究人员的回答(样本数181)，其中包括大学雇员(149人)以及虽无雇佣关系但仍活跃于大学的人员(32人)，例如退休研究人员或授予头衔的讲师。

不同学科的价值评判方式存在差异，而SSH研究人员——尤其是人文学者——更易受到“科学卓越性”导向的挑战：这一体系主要期望研究成果以国际期刊论文的形式发表，并要求研究人员适应项目制工作所特有的高强度、快节奏的研究周期。这些领域与科技政策优先事项之间的关系，不仅体现在其与科学卓越性的紧密联系上，也反映在其对“影响力议程”的独特参与方式中。尽管学界对研究影响力的多元性认知逐渐提升，SSH领域在主导性的“影响力”话语中仍处于弱势地位，该话语体系往往更看重“快速成果”，如经济回报、技术创新与科学突破。多样性、概念开放性与主观判断的交互作用，使SSH成为检验RRA边界的一个极具代表性的研究场域。

研究问题

本研究重点分析了调查中的若干定性开放式问题，特别关注以下四个方面：

1.对研究人员评估中存在的问题与不足的认知；

2.亲身经历过被采用错误方法或标准进行评估的情境；

3.在参与评估时遭遇目标、标准或所用材料未向所有相关方公开的情境；

4.基于以往贡献未获充分认可的前提，研究人员对科研与教学活动及社会影响应如何评估的看法。

此外，调查还包括一个开放性问题，邀请受访者描述其参与过的其他评估经历，以及提出其他意见。这些问题被认为最有助于深入揭示研究评估如何在学术界引发负面情绪，以及RRA能够在多大程度上回应这些问题。

在分析过程中，我们以RRA的四大核心主张为指导：(1)承认并尊重研究活动、成果、职业发展与学科的多样性；(2)将定量方法仅作为定性评估的辅助手段；(3)避免对期刊与出版物指标的不当使用；(4)确保评估标准、数据及分析方法的公开与透明。为此，我们人工逐一通读所有开放性回答，并系统性地将其归类至上述主题，以厘清受访者的叙述与RRA四大核心主张之间的对应关系。初步分类旨在检验RRA在多大程度上能够回应研究人员负面体验所引发的情感效应。在此基础上，我们进一步分析了哪些与评估相关的负面体验超出了这四大主张的覆盖范围。

结果与讨论

4.1

情感负担远超RRA四大主张

研究结果表明，用于界定RRA的核心文件(《旧金山科研评估宣言》(DORA)、《莱顿宣言》《Metric Tide》《香港原则》以及《改革研究评估协议》)所共同提出的四大主题，准确反映了研究人员在不同评估情境中所经历的问题。由此可见，若在评估实践中忽视这些原则，将加剧学术界的负面体验，这也说明RRA原则在发展过程中较好地识别了研究人员的核心关切。然而，RRA所提供的解决方案并非没有局限。我们的分析显示，与评估相关的情感负担远超出RRA四大主张的覆盖范围。

本研究揭示，评估在某些程序性环节与RRA的发展目标存在错位，这拓展了我们对RRA边界的理解。结果表明，尽管在RRA框架下开展的工作对于构建更加可持续的评估文化至关重要，但仍无法完全解决评估过程所固有的复杂性。这种复杂性主要源于对同行评议的高度依赖，而同行评议在现实中受到社会偏见、内容偏见以及权力更迭等多重因素的制约。

4.2

同行评议中的主观偏好与局限

关于主观判断在科研评估中的作用，在SSH领域的语境下显得格外重要。由于该领域知识生产的特性，评估缺陷更加突出。具体而言，SSH领域知识的编码化程度较低，且多种范式并存，这为主观因素介入评估留下了更大空间。研究结果表明，这些主观因素会引发研究人员的负面体验。这些情感并非偶发个例，而是揭示了当前评估框架与SSH学科的认识论与文化特性之间的错位。因此，任何推动RRA的举措都必须承认并重视学科差异。同时，本研究也引发了更广泛的讨论：科研评估中固有的某些因素(例如评审者主观视角的有意或无意影响)可能对所有学科的研究人员产生塑造作用。

已有研究表明，评估中的获益者(如基金申请成功者)往往对评估流程的满意度更高，而排名靠后的研究人员则更容易表达不满。本研究虽未直接考察评估体验与结果之间的关系，但结果表明，负面体验不仅源于结果，更根植于流程本身。这一区分对于理解我们的数据尤为重要：既有研究强调基于结果的满意度差异，而我们的研究表明，即便是在相对稳定与优势的学术群体中，也普遍存在对程序的不满。

可见，即便是取得一定优势的研究人员，仍表现出强烈的情感反应，这表明与研究评估相关的情感扰动并非仅限于处境不稳定或临时合同的人员。我们可将这些负面情感理解为深深嵌入学术评价体系结构之中的现象。虽然这些情感可能在一定程度上与个体境遇或学术身份有关，但并非仅限于此。基于情感理论的视角，我们的发现强调：研究评估不仅是技术性或程序性的操作，更是一种深刻的情感实践，它塑造着研究人员对工作及其学术地位的体验。尽管RRA的四大主张能够回应大部分负面情绪的根源，但未能捕捉与评估和固有主观性相关的情感扰动。借助情感理论，我们将这些扰动理解为这不仅仅是个体的情绪反应，而是嵌入于社会与制度结构之中，并通过评估实践不断流动的情感能量。这一视角强调，评估不可避免地引发情感张力，使其成为学术生活中持续存在的情感负荷。因此，本研究指出，任何改革研究评估的努力不仅要注重程序公正，还必须正视评估本身所具有的情感属性——这是无法通过政策干预彻底消除的领域。

4.3

个人理想受阻于组织制度的现实

除了主观性因素外，本研究还揭示了制度性条件——如机构政策与隐性组织实践——对RRA变革潜力的限制。研究人员的叙述表明，结构性与组织性约束(如绩效评估后的薪资调整、合作研究中的功劳再分配)可能削弱评估过程的完整性，从而引发挫败感与不公平感。鉴于主观性是评估的固有属性，改革努力或许更应聚焦于组织与制度层面上可被改变的条件，以期取得更具实效的成效。

本文的量化结果显示，性别与从业年限可能影响研究人员对科研评估问题的感知，这为未来研究提供了重要方向。例如，后续研究可进一步探讨：所报告的问题或负面体验中是否存在性别化模式？哪些潜在因素导致了这些差异？研究人员在学术生涯的不同阶段是否会对评估持有更负面的认知？这些都值得深入探讨。

RRA强调，组织是实施评估的主要行动者，而作为知识创造的贡献者、被评估对象与评估执行者，研究人员在RRA的成功实施中同样发挥着关键作用。虽然本研究并未专门聚焦研究人员在RRA中的能动性，但数据表明，研究人员已经意识到RRA的重要价值，例如弱化对传统指标的依赖、采用符合RRA理念的替代方案，以及通过建设性对话支持同行。这一发现再次印证了本文关于RRA边界的核心论点：要应对科研评估中固有的主观性，必须让研究人员积极参与到评估发展的进程中。

综上所述，本研究强调，RRA原则的落实必须以充分认识评估的主观性本质与制度性约束为前提。若忽视这些维度，负责任评估政策的实施便可能陷入“所有问题皆可技术化解决”的误区，从而加剧研究人员与这些政策之间的鸿沟。当前国际学界正在探索减轻评估所引发的负面效应的途径，例如国际科研管理学会联合会(INORMS)提出的SCOPE框架。该框架的两大核心理念——与被评估者共同进行评估(尊重其专业知识)，以及仅在确有必要时开展评估——对本研究尤其具有启示意义。需要警惕的是，若科研评估体系持续缺乏参与度与公信力，将导致研究人员士气下降与动力减退，最终影响研究成果的质量。更为根本的是，当研究人员的实际体验与政策理想之间出现裂痕时，二者的联系将被削弱甚至彻底割裂，使得改革举措陷入自我循环的困境，最终背离其促进学术发展的初衷。

(全文及参考文献见Research Evaluation 2025年第34卷，原文链接：https://academic.oup.com/rev/article/doi/10.1093/reseval/rvaf034/8226065，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 金潇苒王译晗

本期责编 | 金潇苒

基地官网：https://statevalbase.fudan.edu.cn

·end·

大语言模型时代，AI能否评价研究质量？