总体而言,研究发现表明,尽管部分受访者对当前RPT标准表示总体满意,但仍有不少人对其所在机构的相关标准及其应用表达了普遍的挫败感或不适感。这种不适主要集中在对量化指标的过度强调上,尤其是在出版物数量和所获经费方面。特别是,有回答指出,这种对数量的关注往往压倒了对研究质量及其更广泛影响的考量。这一观点与多方利益相关者在研究评估问题上长期以来表达的关注相一致。然而,我们也发现,至少在部分受访者看来,近年来情况有所改善。
扭转对量化过度依赖的趋势,是一个广泛而持续的改革项目。近年来,这一改革与人们日益意识到研究评估体系应当促进而非阻碍开放与负责任研究的开展密切相关。这意味着,必须重视比单一的出版物数量或经费额更广泛的一系列学术活动。
为应对这些问题,目前关于研究评估改革的讨论提出,应以更广泛的指标作为取代,或至少大幅补充现行以量化为主的狭隘指标。以CoARA提出的首项“核心承诺”为例,研究评估应“承认根据研究的需求和性质,对研究贡献与职业发展的多样性”。此外,研究评估“应以同行评议为中心的定性判断为基础,并在适当情况下辅以定量指标的负责任使用”。量化指标已不再被单独强调,而是作为定性与叙述性指标的补充工具,这些指标使被评估者能够阐述其贡献如何推动其研究、学术共同体或研究环境的发展。尽管这种评估方式的转变为更全面识别研究人员职业生涯中影响的广度与多样性带来了新可能,但这一转变仍需谨慎推进:一方面,同行评议本身存在的弱点——尽管在当前讨论中常被忽视,但仍需被更充分理解、公开讨论并尽可能加以克服。事实上,同行评议过程本身就容易受到多种偏见与局限的影响。另一方面,更多依赖定性判断则可能为评估者提供更大的“灵活性”空间。我们认识到,这种灵活性在辨识被狭隘指标所遗漏的重要因素时可能是宝贵甚至必要的,然而我们也同样认识到,灵活性的提升可能导致更大的偏见风险和不当评估决策的发生,就如同对量化指标的过度依赖可能导致评估过于简化、无法全面反映研究的复杂性与多维影响。
受访者表达了对当前评估实践中正式标准与实际操作不一致的担忧。特别是,部分受访者指出,一些“隐性”标准虽未被正式列入评估体系,但却在评估结果中发挥着重要作用。这些标准主要包括社会、政治与人口因素,具体而言,拥有特定背景或特定社会关系的人被认为更易受到青睐。有些受访者提到,强大的人际关系与支持网络在其机构内的职业晋升评估中具有重要作用。这些因素反映了合作关系,如果这种关系类似于Cipriano与Buller所定义的“支持研究单位良好运作的关系、尊重、协作精神、共同目标与责任的公平分担”,我们或许不会视其为问题。然而,多数受访者显然意识到这种人际关系可能产生有害影响,远超出同事间的良性互动范畴,而转向“任人唯亲”“内部繁殖”或基于私人关系做出的不公决策。此外,受访者还提到了性别、种族和年龄等人口统计特征导致的歧视现象。这一发现与既有文献相一致,相关研究表明,即使在存在强有力的反歧视政策和立法保障的环境中,歧视现象依然普遍存在。
不明确或不透明的评估标准,也被一些受访者指出是一个主要问题。除了在决策过程中可能造成的不公平、不利地位与偏见之外,受访者还指出,这种不透明性可能导致潜在的心理和社会不良影响,例如缺乏安全感、认为必须与具有权力的“看门人”建立联系,或感觉评估流程“对代表性不足群体存在偏见”。这些影响可能会对被评估者造成伤害,且对某些群体的影响可能比其他群体更为严重。例如,当评估标准不明确,而人们又普遍认为在晋升与终身教职的评估中,“隐性”的社会和政治因素起着关键作用时,这可能会对研究团队内部的社会互动与动态关系产生深远影响。“隐性”的评估标准也可能使研究人员产生“分配或程序上的不公正感”,进而破坏现有的合作氛围与学术文化,甚至影响具体的研究实践。
因此,我们注意到,受访者与评估标准存在着紧张关系:一方面,他们对那些过于严格且通常定义狭隘的标准感到不满,因为这些标准无法公正地反映出所有有价值的学术活动与能力;另一方面,他们也对不明确、“隐性”或定义模糊的标准表示担忧。无论标准如何多样或灵活,评估本身始终需要围绕某种标准展开,这些标准必然涉及解释与调和。由于不存在一个完全透明的“全知视角”,评估者仍需在具体情境中“即时”做出判断。标准的多样化与定性评估的运用可能扩大评估者的“灵活性”空间,同时也增加了偏见或私人关系介入评估过程的可能性。
这种紧张关系不仅体现在标准是否透明上,还延伸到标准本身是否可能存在偏见。例如,在性别歧视方面,一些受访者指出,评估标准的设计可能本身就带有偏见。因此,即便标准是透明的,也可能成为有偏见评估实践的掩护。尽管某些偏见和个人偏好可以在存在正式反歧视政策的情况下持续存在,但标准模糊显然助长了评估的“灵活性”。因此,当前关于评估标准的讨论应避免将问题简化为“定量 vs 定性”或“刚性 vs 灵活性”的对立,而应更加深入地揭示:标准的缺乏明确性与过度灵活性是如何为社会和政治偏见的渗透提供空间的,并进一步探讨如何减轻或规避这些不良影响。
归根结底,任何研究评估模式本质上都是一种“人为过程”,因此天然面临偏见的风险。受访者所渴望的“客观性”,往往被理解为一种“机械客观性”,即通过预设的、标准化的指标实现可通约的评估。然而,在这样一个本质上主观的过程中,寻求另一种形式的客观性或许更加现实与有效。评估中的客观性可以被理解为对学术共同体标准的遵循。在承认不同学科与学术文化之间规范与价值观差异的前提下,所谓“公平的评估”,应是在“依据被评估对象的具体特性,选用最合适的标准”时实现的。评估者不应试图用一个统一的标准衡量所有对象,而应明确指出,哪些标准或视角最适合评估特定研究成果的优劣。这一观点将关注焦点从“应使用什么评估标准”或“应采取何种评估流程”,转向更为根本的问题:我们为何要进行评估?这些隐含的、由群体驱动的标准与流程是如何协商达成的?谁有权决定这些标准和流程?以及在这些评估机制的建构与执行过程中,何种社会和政治等级结构在发挥作用?