学术晋升“罗生门”：评估的灵活性与隐藏标准探讨-国家智能评价与治理实验基地

学术晋升“罗生门”：评估的灵活性与隐藏标准探讨

发布时间：2025-05-23 编辑：王译晗 来源：复旦智能评价与治理

摘要：近年来，学术讨论主要聚焦于基于指标的定量评估与基于同行评议的定性替代方案之间的优劣。学界就此已形成共识：应减少对量化指标的依赖，转而支持开放性与多样化的评估标准。然而，支撑此类改革的理论与实证依据仍显不足。本研究基于一项国际调查收集了121名活跃研究者的定性自由文本回答，探讨以下问题：研究者如何看待晋升过程中实际应用的评估标准？被评估者如何感知非正式标准对评估结果的影响？研究发现，尽管受访者普遍认同对过度量化的批评，但他们更强调正式标准与实际评估实践之间的脱节。隐性标准（包括社会、政治和人口因素）被认为具有重要影响，尤其在非透明的评估流程中，评估者可“灵活”调整标准的应用。这一发现深化了关于评估标准效力的持续讨论，并揭示了评估标准的刚性与灵活性之间的紧张关系以及透明度问题。

关键词：研究评估；学术职业；研究指标；评估改革；透明度

引言

过去十年间，学界日益认识到需更负责任地使用指标，同时发现开放科学实践需要配套的评估机制。在此背景下，研究评估改革已成为政策制定者的优先议程。2022年成立的“推进研究评估联盟”（CoARA）——以共同原则、承诺和时间表为支撑的全球改革联盟，以及美国“高等教育开放学术领导力倡议”（Helios），标志着改革进程的转折点。

研究机构对学者的审查、晋升与终身教职（Review, Promotion and Tenure, RPT）评估被认为是改革的关键领域。尽管RPT标准通常涵盖教学、服务与研究三大维度，但各维度的实际权重仍存争议。尽管越来越多的工作表明需要对RPT标准中的开放和负责任的实践提供更多的关注，或者在出版物数量、研究经费或期刊影响因子等质量代理指标方面减少量化的目标，但对标准的具体实施机制仍缺乏深入探讨。

本文通过分析在一项国际调查中收集到的121名研究者的质性回答，探究两大研究问题：① 研究者对机构现行RPT评估标准的总体看法如何？② 哪些因素（如社会、政治或绩效相关）虽未被正式列为标准，但在评估过程中仍然十分重要？

研究方法

本研究数据源于2021年6月29日至7月30日开展的全球性调查，聚焦研究者对RPT标准（特别是开放科学与负责任创新相关标准）的认知。目标群体为多学科领域的活跃研究者，通过CORE学术聚合平台随机抽取2014-2020年通讯作者邮箱发送问卷。最终回收有效问卷198份，其中121人对开放式问题作出回应。研究团队于2021年5-6月对11名非相关人员开展预测试，通过电子邮件与Google表单收集反馈，并完成两轮深度认知访谈。自由文本数据采用NVivo R1软件进行扎根理论分析：首先由本文第一作者进行开放式编码，随后三位作者通过多轮讨论确定主题框架，最终达成编码共识。

讨论

总体而言，研究发现表明，尽管部分受访者对当前RPT标准表示总体满意，但仍有不少人对其所在机构的相关标准及其应用表达了普遍的挫败感或不适感。这种不适主要集中在对量化指标的过度强调上，尤其是在出版物数量和所获经费方面。特别是，有回答指出，这种对数量的关注往往压倒了对研究质量及其更广泛影响的考量。这一观点与多方利益相关者在研究评估问题上长期以来表达的关注相一致。然而，我们也发现，至少在部分受访者看来，近年来情况有所改善。

扭转对量化过度依赖的趋势，是一个广泛而持续的改革项目。近年来，这一改革与人们日益意识到研究评估体系应当促进而非阻碍开放与负责任研究的开展密切相关。这意味着，必须重视比单一的出版物数量或经费额更广泛的一系列学术活动。

为应对这些问题，目前关于研究评估改革的讨论提出，应以更广泛的指标作为取代，或至少大幅补充现行以量化为主的狭隘指标。以CoARA提出的首项“核心承诺”为例，研究评估应“承认根据研究的需求和性质，对研究贡献与职业发展的多样性”。此外，研究评估“应以同行评议为中心的定性判断为基础，并在适当情况下辅以定量指标的负责任使用”。量化指标已不再被单独强调，而是作为定性与叙述性指标的补充工具，这些指标使被评估者能够阐述其贡献如何推动其研究、学术共同体或研究环境的发展。尽管这种评估方式的转变为更全面识别研究人员职业生涯中影响的广度与多样性带来了新可能，但这一转变仍需谨慎推进：一方面，同行评议本身存在的弱点——尽管在当前讨论中常被忽视，但仍需被更充分理解、公开讨论并尽可能加以克服。事实上，同行评议过程本身就容易受到多种偏见与局限的影响。另一方面，更多依赖定性判断则可能为评估者提供更大的“灵活性”空间。我们认识到，这种灵活性在辨识被狭隘指标所遗漏的重要因素时可能是宝贵甚至必要的，然而我们也同样认识到，灵活性的提升可能导致更大的偏见风险和不当评估决策的发生，就如同对量化指标的过度依赖可能导致评估过于简化、无法全面反映研究的复杂性与多维影响。

受访者表达了对当前评估实践中正式标准与实际操作不一致的担忧。特别是，部分受访者指出，一些“隐性”标准虽未被正式列入评估体系，但却在评估结果中发挥着重要作用。这些标准主要包括社会、政治与人口因素，具体而言，拥有特定背景或特定社会关系的人被认为更易受到青睐。有些受访者提到，强大的人际关系与支持网络在其机构内的职业晋升评估中具有重要作用。这些因素反映了合作关系，如果这种关系类似于Cipriano与Buller所定义的“支持研究单位良好运作的关系、尊重、协作精神、共同目标与责任的公平分担”，我们或许不会视其为问题。然而，多数受访者显然意识到这种人际关系可能产生有害影响，远超出同事间的良性互动范畴，而转向“任人唯亲”“内部繁殖”或基于私人关系做出的不公决策。此外，受访者还提到了性别、种族和年龄等人口统计特征导致的歧视现象。这一发现与既有文献相一致，相关研究表明，即使在存在强有力的反歧视政策和立法保障的环境中，歧视现象依然普遍存在。

不明确或不透明的评估标准，也被一些受访者指出是一个主要问题。除了在决策过程中可能造成的不公平、不利地位与偏见之外，受访者还指出，这种不透明性可能导致潜在的心理和社会不良影响，例如缺乏安全感、认为必须与具有权力的“看门人”建立联系，或感觉评估流程“对代表性不足群体存在偏见”。这些影响可能会对被评估者造成伤害，且对某些群体的影响可能比其他群体更为严重。例如，当评估标准不明确，而人们又普遍认为在晋升与终身教职的评估中，“隐性”的社会和政治因素起着关键作用时，这可能会对研究团队内部的社会互动与动态关系产生深远影响。“隐性”的评估标准也可能使研究人员产生“分配或程序上的不公正感”，进而破坏现有的合作氛围与学术文化，甚至影响具体的研究实践。

因此，我们注意到，受访者与评估标准存在着紧张关系：一方面，他们对那些过于严格且通常定义狭隘的标准感到不满，因为这些标准无法公正地反映出所有有价值的学术活动与能力；另一方面，他们也对不明确、“隐性”或定义模糊的标准表示担忧。无论标准如何多样或灵活，评估本身始终需要围绕某种标准展开，这些标准必然涉及解释与调和。由于不存在一个完全透明的“全知视角”，评估者仍需在具体情境中“即时”做出判断。标准的多样化与定性评估的运用可能扩大评估者的“灵活性”空间，同时也增加了偏见或私人关系介入评估过程的可能性。

这种紧张关系不仅体现在标准是否透明上，还延伸到标准本身是否可能存在偏见。例如，在性别歧视方面，一些受访者指出，评估标准的设计可能本身就带有偏见。因此，即便标准是透明的，也可能成为有偏见评估实践的掩护。尽管某些偏见和个人偏好可以在存在正式反歧视政策的情况下持续存在，但标准模糊显然助长了评估的“灵活性”。因此，当前关于评估标准的讨论应避免将问题简化为“定量 vs 定性”或“刚性 vs 灵活性”的对立，而应更加深入地揭示：标准的缺乏明确性与过度灵活性是如何为社会和政治偏见的渗透提供空间的，并进一步探讨如何减轻或规避这些不良影响。

归根结底，任何研究评估模式本质上都是一种“人为过程”，因此天然面临偏见的风险。受访者所渴望的“客观性”，往往被理解为一种“机械客观性”，即通过预设的、标准化的指标实现可通约的评估。然而，在这样一个本质上主观的过程中，寻求另一种形式的客观性或许更加现实与有效。评估中的客观性可以被理解为对学术共同体标准的遵循。在承认不同学科与学术文化之间规范与价值观差异的前提下，所谓“公平的评估”，应是在“依据被评估对象的具体特性，选用最合适的标准”时实现的。评估者不应试图用一个统一的标准衡量所有对象，而应明确指出，哪些标准或视角最适合评估特定研究成果的优劣。这一观点将关注焦点从“应使用什么评估标准”或“应采取何种评估流程”，转向更为根本的问题：我们为何要进行评估？这些隐含的、由群体驱动的标准与流程是如何协商达成的？谁有权决定这些标准和流程？以及在这些评估机制的建构与执行过程中，何种社会和政治等级结构在发挥作用？

结论

本文研究结果揭示了在持续探索研究评估最适当方法的过程中所面临的核心张力。尽管围绕定性与定量评估模式的讨论往往易陷入简单的二元对立，但我们的研究进一步凸显了评估程序中鲜少被深入探讨的关键特征，例如评估者的评估灵活性以及评估标准在多大程度上可以、也应当保持透明。

无论评估体系为何，依据何种评估标准，受访者普遍强调评估过程应“言出必行”。正式标准与实际操作之间的背离被普遍认为是导致挫败感与不安全感的主要原因之一，使受访者感受到评估过程的不公平。这一发现也再次强调：即便某一套标准被视为更为理想，但仅改变标准本身而不同步调整评估实践，这一套标准便是无效的。事实上，如果在缺乏合理规范的前提下扩大评估的灵活性，反而可能加剧评估对象对不公平与不平等的感知。

展望未来，本文研究结果指出了一系列有助于推动负责任且公平的研究评估程序的具体行动方向。首要任务是对构成研究评估核心的维度、概念与目的进行深入反思与明确界定。在评估者与被评估者之间建立尽可能一致的理解和共享的参照框架尤为重要，这包括以具体、明晰的定义取代那些缺乏确定含义的“口号式术语”，如“卓越”“创新”与“影响”。

这一共识也可通过系统的评估者培训加以强化，例如培训教授如何识别并规避偏见、如何提升对计量指标的理解与使用能力，以及如何以透明的方式沟通评估标准与评估决策背后的动因。同样值得强调的是，开展反思性与负责任的研究评估不仅需要专业能力，也需要充足的时间与资源支持。为了保障定性评估的可持续性，学术界应当赋予研究共同体足够的时间与认可来进行高质量的评估工作，并有必要降低研究人员被过于频繁评估的负担——这可能包括引入更长期的科研资助机制与更稳定的研究岗位合同。

此外，还需开展更多实证研究，以识别在研究评估实践中发挥作用的各类因素，特别是从评估者的角度出发，拓展我们对于评估过程中固有偏见的理解。未来研究应关注如何识别这些偏见，以及在其被视为不当时，如何有效减轻其影响。这一努力不仅需要超越定性与定量评估方法的二元对立框架，还需明确认识到仅靠透明度不足以解决偏见。

(全文及参考文献见Research Evaluation 2024年第33卷，原文链接： https://doi.org/10.1093/reseval/rvae055，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 邓晨菲王译晗

本期责编 | 邓晨菲

基地官网：https://statevalbase.fudan.edu.cn

·end·

困境与出路：青年学者与影响力之间的博弈