定性评价还是定量评价？ISSI主席对CoARA倡议提出质疑-国家智能评价与治理实验基地

定性评价还是定量评价？ISSI主席对CoARA倡议提出质疑

发布时间：2024-09-20 作者：Giovanni Abramo 编辑：王译晗 来源：复旦智能评价与治理

undefined

摘要：欧洲推进研究评估联盟(CoARA)于2022年正式成立，联盟成员主要为研究机构和资助机构，旨在改革研究评估，特别强调向定性评价的转变。本文从理论、实践和应用的角度对CoARA倡议进行了分析，并探讨了其影响。文章质疑是否存在一种可适用于所有情境的标准化研究评估方法。通过实证证据和内在逻辑论证，讨论在STEMM(科学、技术、工程、数学和医学)研究评估中，定性方法在鲁棒性、准确性、有效性、功能性以及时间和成本便利性方面是否具有优势。本文旨在消除常见误解，并为研究评估标准制定者和决策者提供参考。

关键词：研究评估；评估科学计量学；同行评议；CoARA

背景

欧洲研究区域(ERA)2020-2024年政策议程提出了二十项行动，旨在通过协调各国的研究政策和计划来提升集体效能。其中，第三项行动名为“推进研究评估体系改革，以提升研究、研究人员及机构的质量、绩效和影响力”，强调了改革研究评估体系的必要性。该行动的支持者指出，当前的评估体系往往依赖于不充分的指标和方法，过度强调诸如高影响力期刊发表数量和引用次数等标准。

2021年3月至11月期间，欧盟委员会与各利益相关者进行了磋商，以加速第三项行动的实施。这些磋商成果汇总于报告Towards a Reform of the Research Assessment System中，该报告概述了研究评估改革的目标，提出了协调一致的方法，基于研究资助机构和研究执行组织共同认可的原则和行动推动改革的实施。

2022年，主要由研究机构和资助机构组成的推进研究评估联盟(CoARA)成立，旨在改革研究评估。一份由未知作者起草的协议概述了改革的原则和承诺，供潜在成员签署。截至目前，已有600多个组织(主要为欧洲组织)加入该联盟。CoARA的愿景是通过以质量判断为核心的定性评价，结合负责任地使用定量指标，认可多元化的研究产出、实践及活动，最大化研究的质量和影响力。

CoARA倡议引发了科学计量学家的强烈反响。Torres Salinas、Arroyo Machado 和 Robinson Garcia将此倡议比作“科学计量否认主义”，强调定量指标在经过严格审查并符合领域标准时的潜在优势，希望倡议支持者作出回应，与批评者开展建设性对话。

面对CoARA重新引发的同行评议与科学计量评估之间的对立，负责制定研究评估方法的决策者可能感到困惑。本文旨在解开这一僵局，深入探讨这一复杂且具争议性的话题。通过对CoARA官方网站上的相关文件和信息进行分析，本文试图为研究评估这一常常被简化处理的领域提供思路，并基于经济理论、实证证据和内在逻辑，为研究评估中的决策提供支持。

同行评议vs科学计量学：

微观经济分析

本研究采用了微观经济学的生产函数模型，分析同行评议与科学计量学在研究评估中的应用和差异。研究假设同行评议可以有效评估研究质量，而科学计量学更适合评估学术影响。在此基础上，提出了这两种方法的生产函数，用以描述评估过程中的投入(劳动力和材料)以及产出(评估的研究成果数量)。

分析发现，在同行评议模式下，评估依赖于专家的工作时间和多种形式的研究材料，而在科学计量学模式中，评估依赖的是计量学家的劳动和索引数据，如出版物和引用次数。同行评议的评估结果往往是离散的，容易受到主观因素的影响，而科学计量学的结果是连续的，能够提供更细致的区分。此外，同行评议的成本随着评估规模的扩大急剧上升，且专家资源有限，这限制了其在大规模评估中的应用。而科学计量学由于其依赖的材料主要是自动化获取的索引数据，在规模扩展时能够实现成本的递减，表现出明显的规模经济效应。

通过分析可得出结论：尽管同行评议在某些特殊领域中仍然必不可少，但在大多数情况下，特别是在STEMM领域的研究评估中，科学计量学提供了更加高效的评估方式，能够在成本、时间和评估结果的精确性上更具优势。

讨论

那么，是通过同行评议评估有限数量研究成果的“质量”更有效(即CoARA倡议)，还是通过科学计量学方法评估大量出版物的“影响”(即笔者建议）（注：笔者Giovanni Abramo现任国际科学计量学和信息计量学学会主席)更有效？

鲁棒性

CoARA方法主张“同行评议是质量评估中最具鲁棒性的方法。”然而，当评估单个研究成果时，这一主张并不成立，因为不同评审者的评估结果常常存在较大差异。此外，在评估研究机构时，其质量评分和排名会根据被评估作品数量的变化而波动。例如，一项涉及46所意大利大学的模拟研究表明，当评估的出版物比例从4.6%到60%不等时，其表现排名存在显著差异。只有17%的大学在同一十分位内保持一致的排名，而其中一所大学的排名范围可以从第4名到第46名不等。

同样的变异性也会出现在科学计量测量中，这取决于所选取的数据来源(如Web of Science和Scopus)。但研究表明，从这两个数据库获取的出版物数量和国家引用次数的计量结果之间具有非常高的相关性(R²≈0.99)。

准确性

在大规模评估中，若要提供准确的绩效测量，则需要大规模数量的评估成果。试想，会有人仅根据几款最盈利产品的表现来评估一个多产品公司的经济效益吗？此外，同行评议往往忽视了研究人员在每项工作中的具体贡献。例如，与多位合作者共同完成的研究成果，应该在最终评估中与单独作者的成果有所区别。作者的署名顺序也应当纳入考量，以反映每个贡献者的相对重要性。相比之下，科学计量学采用加权分数计数法则，避免了这些限制。

采用同行评议而非科学计量学方法，会导致研究机构绩效排名的显著差异。在第一次意大利研究评估中，8个STEMM领域的大学排名变化很大，按四分位变化的比例从数学的46%到物理学的60%不等。同样，在地球科学领域，前四分之一的排名变化比例为37%，而在生物学领域则高达69%。

有效性

有效性是指研究评估衡量重要内容的能力。支持基于学术影响进行评估的人认为，科学计量学方法比同行评议在有效性上更具优势。随着评估规模的扩大，同行评议依赖被评估对象自主选择的研究成果，而这些成果通常参考计量指标进行选择。然而，由于普遍缺乏必要的科学计量学专业知识，被评估对象往往会做出次优选择。在意大利2004-2010年VQR评估中，当科学计量学标准在出版物提交前提供给大学时，与科学计量学的有效选择相比，被评估者们的自主选择导致STEMM领域的最高得分下降了23%至32%。由于同行评议基于自主选择来评估其“感知质量”而非实际质量，导致排名和资金分配扭曲了研究质量的真实情况。

时间和财务限制

同行评议活动在达到一定规模时，其时间和财务限制影响了其时效性。应注意的是，典型的国家级同行评议评估活动从启动到结果公布通常需要2到3年，限制了其进行有效研究管理的频率和政策制定的效果。相比之下，科学计量学的绩效评估可以根据需要每日更新，并能在几周内完成，且成本明显更低。例如，英国REF2021的预计总成本约为4.71亿英镑。相比之下，根据我在意大利的经验，我估算同一评估(不含艺术和人文学科)的科学计量学评估总成本仅为其1%，但能够评估的研究成果数量却是同行评议的4到5倍。

个人偏见

另一个至关重要的方面是，认可一个主要基于定性判断的评估体系，可以减少偏袒和歧视等障碍。这在决定招聘、职业晋升和资金资助的评估中尤为重要，尤其是对女性研究人员而言。在偏见普遍存在的国家，这种情况尤为明显。个人偏见不仅影响对单个成果的评估，还会影响评审员的选择及负责选择评审员的人。但如果没有定量指标，如何确保选择的有效性？在意大利VQR评估中，研究人员必须达到三个定量指标的阈值才能被选为评审员。在符合标准的人员中，25%由意大利研究评估机构(ANVUR)主观选择，75%则是随机选择，而非依据“优劣”。

总结

在21世纪，倡导以同行评议为基础的研究评估方法而非科学计量学方法，似乎显得过时且适得其反。为了优化类似科学家这样有限的资源，对技术创新的追求已持续数十年。科学计量学研究提供了更高效、成本更低的评估解决方案，以满足用户的需求。自行进行的、存在缺陷的科学计量学评估的普遍存在，促使人们呼吁在欧洲层面进行干预，这凸显了研究评估需要准确、高效且兼具成本效益的指标。这也表明，在进行研究评估时，使用技术解决方案替代有限且宝贵的人力资源的必要性。尽管人工智能和机器学习等技术仍处于早期阶段，但它们在提升效率和分析深度方面具有巨大潜力。因此，对于指标的误用，合理的应对措施不是回归到依赖同行评议(这会忽视对指标的明确需求)，而是应依赖专业的科学计量学家。

我们必须认识到，在任何领域内，完美的方案都是不可企及的。科学的进步是一个不断迭代、逐步完善知识和工具的过程。研究评估方法各有其优缺点，选择最适合的方法需要综合考虑目的、目标、应用背景以及可用资源等多方面因素。此外，决策不仅仅是技术性的，亦包含经济性因素的考量。

虽然某些方法可能在特定情况下更为合适，但决策者面临的核心问题是：谁应当决定选择何种方法、指标以及实施方式——是评估科学计量学家，还是用户？ERA的政策制定者与CoARA提倡以用户为主导。然而，笔者认为，科学计量学家更适合承担选择和应用适当方法的职责。他们不仅能够理解用户需求和应用背景的重要性，还能够在此基础上充分考虑理论框架的严谨性。

确保公正和准确的研究评估对于政策制定、成果认可以及防止歧视至关重要。当前的讨论应当着重于防止指标的滥用，而不是直接反对指标的使用。我们必须铭记，科学是在不受意识形态或妥协影响的情况下运行的。因此，建议研究管理者和政策制定者在实施CoARA提议的改革之前，充分考虑科学的视角。

ERA政策制定者提出的优先事项与基于证据的科学计量学建议之间的差异揭示了一个值得注意的现象——回顾过去几十年，科学知识共同体致力于通过大量学术文章传达这些评估理念。然而，显而易见的是，这些信息并没有被有效传递到研究政策制定者和管理者手中，导致学术研究的学术影响与其社会影响之间出现了脱节。作为科学计量学家，我们应该反思为何当前科学计量学指标的误用、被操控以及存在的缺陷会引发如此广泛的关注，并进一步探讨这些至今未得到充分解决的问题主要出在哪里。

作为评估科学计量学家，理解这一信息传递的鸿沟并制定相应的策略，以更好地将政治决策、管理决策与科学解决方案对接是至关重要的。显然，用户需要接受相关教育，以避免利用科学计量学进行不当行为。我相信，国际科学计量学与信息计量学学会(ISSI)也同样致力于促进与各级研究政策制定者和管理者之间的持续对话。

(全文及参考文献见Research Evaluation 2024年rvae021，原文链接：https://academic.oup.com/rev/advance-article/doi/10.1093/reseval/rvae021/7670652，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

观点｜开放获取在研究评估中扮演着怎样的角色？