如何使研究评估更符合“发展”目标？-国家智能评价与治理实验基地

如何使研究评估更符合“发展”目标？

发布时间：2024-05-17 编辑：王译晗 来源：复旦智能评价与治理

摘要：与社会影响相关的研究评估对研究的优先级和组织结构产生了重大影响。在越来越多的批评声中，全球研究评估正在朝着以定量指标和模仿行为为特征的方向发展。本文讨论了影响现有研究评估体系的多方力量，探讨该体系为何如此顽固，并探讨了可能的替代方案。本文提出了建立替代方案的新论点：大学需要承担起推动评估发展的角色，引入“互联自主”概念，使大学能够以一种独立的方式与广泛的行动者进行富有成效的合作，共同实现理想的社会变革。本文还概述了如何使研究评估更符合发展目标，这对于知识公共政策来说是一个重要议题。

关键词：研究评估；发展型大学；互联自主；知识民主化；devmetrics

引言

当前，研究评估已成为推动学术可持续发展的一大障碍。研究评估是一种复杂社会过程的产物，在此过程中，学术权力的转移尤为明显。因此，设计出一套可行的替代方案需充分考虑到权力关系的影响。

本文旨在为解决这一问题提供思路。然而，在构建研究评估的可行替代方案之前，必须对现有的研究评估体系进行深入分析。我们需要探讨的问题包括：如果将推动学术可持续发展视为研究工作的目标，那么为何我们需要替代方案？当前评估体系的主要缺陷有哪些？为何改革体系如此困难？迄今为止提出的替代方案的核心理念又是什么？

本文主要通过文献回顾进行研究。从方法论角度看，已有文献具有三个特征：首先，无论是南方国家还是北方国家，对研究评估的批评都显示出高度的一致性；其次，提出的替代方案具有若干共同的特征，显示出一种被普遍认为是理想的趋同性；第三，文献中的发现和建议与作者在其所在大学遇到的问题及其经验相呼应。

许多观点认为，研究工作应该考虑到公众参与、多方参与者的包容性对话、研究与创新的共同创造以及以人为本的行动研究。基于这些考虑，本文提出了大学“互联自主”的概念，并认为这于对研究评估有着深远影响。其次，本文根据已有的经验教训，提出研究评估的替代方案。

现行的研究评估将我们引向何方？

研究评估已成为一种全球性的实践，结果的同质化也意味着实施过程的同质化。对于发展中国家来说，这种同质化意味着必须遵循既定规则，模仿已被认可的优秀研究者的路径，并迎合标准化的评估方法所带来的种种引导。“第三世界国家寻求北方国家的认可，希望学术质量被认可和获得尊重。例如，学者们被期望在其学科的北方学术期刊上发表文章，晋升也往往依赖于这些出版物。即便当地存在本土学术出版物，也常常不被看重。”我们很少关注定量研究评估标准对年轻学者可能产生的负面影响，更多的是对其“引导”效果的称赞。

模仿行为体现在使用相似的评估指标和追求相似的结果，通过迎合主流期刊偏好的主题来调整研究议题和方法。这并非是不同国家研究人员之间真正的国际合作，而是一种由主流期刊主题偏好导致的微妙调节。对发展中国家特定问题的研究并不是主流期刊所偏好的，在研究力量薄弱的地区，这种趋势进一步削弱了其解决本土问题的能力。从可持续发展目标(SDG)的视角看，这可能是当前研究评估体系造成最为危险后果。

为何研究评估发展至此？

在日益增加的批评声中，

它为何依然如此顽固？

近年来，研究评估在其范围和方法上都发生了显著的变化。学界正在经历一场由多种因素驱动的“计量浪潮”，这些因素包括：高等教育和研究公共支出的审计和评估压力越来越大；政府需要提供有关研究质量和影响的更多战略情报；研究机构需要更好地管理和制定研究策略；以及机构之间在声誉、招生、人才和资源方面的竞争加剧。此外，有关研究吸收的实时“大数据”的可用性以及分析这些数据的工具的能力也在增强。同时，学术知识和高等教育及其质量愈发多元。因此，研究评估被越来越多地视为复杂耗时，且难以管理。对简单化的追求促使评估方法逐渐偏好定量手段以及能够跨领域使用的标准化工具。因此，追求“一刀切”成为回答本研究第一个问题的答案。

对于第二个问题——许多学者认为现有的研究评估体系并不合理，那么为什么改变这一体系如此困难？——我们需要确定那些能够对评估体系施加强大影响力，从而使得体系难以改革的情形。目前，有三种可能的情形：

首先，主流评估体系之所以能够持续存在，可能是因为存在一种隐性的共识，这种共识维持了体系的运作：政府和学术机构可以借此展示他们对新公共管理的承诺，而学术精英对此表示满意。事实上，如果没有学术精英提供的关于什么是高质量研究的事先建议，研究管理者就无法采取相关行动。这种利益的客观结合包庇了那些至少在长远看来对学术发展不利的评估模式。

第二种情形涉及当前评估体系基本主张所引发的一种失声，即文献计量分数与学术声誉之间存在强相关性。因此，“拥有良好声誉的研究者没有什么可害怕的，也没有特别的理由去批评。”如果说第一种情形是“政策权力”，那么第二种就是与之相关的“主观权力”，这种权力对研究者的感知和行为产生了独特的影响。

这种主观权力还导致了第三种情形——年轻的学者，哪怕是现有体系的强烈批评者，也会感到自己被研究评估体系所压制，因为在他们能够发出反对声音之前，他们首先需要建立自己的学术地位。这意味着他们必须长时间投入大量精力以满足体系的要求。政策权力与其衍生的主观权力的结合，对于研究评估改革构成了巨大的障碍。

当前研究评估及其替代方案的批评核心

对当前研究评估体系的批评已达到社会学定性研究中所谓的“饱和点”：相同的论点频繁出现在越来越多的研究评估相关文章中。其中一个常见论点是研究评估的实施可能导致意外后果，比如对研究主题的偏见。另一大问题是，研究评估体系的结构本身可能导致错误，这一点可以从“古德哈特定律”中得到解释：一旦政策成为目标，它将不再是好的政策。

替代方案和建议通常伴随着批评。受负责任研究与创新(RRI)方法的启发，一些文献提出了“负责任指标”的概念，这一概念的特征包括可靠性、支撑性、透明、多样性和反思性。其中，支撑性是指认识到定量指标在研究评估中的辅助或补充角色；多样性是指认识到同一套评估体系并不适用于所有机构、学科或研究阶段；反思性则是指承认指标的使用可能带来预期之外的影响，需要注意这种影响的形式并相应地调整指标。

对于可持续发展目标而言，这些建议的实施将大有裨益。这将允许“重新聚焦”优先事项，确保需要长期努力和跨学科方法来解决的复杂问题得以彻底应对，而不必担心评估的副作用。此外，还需要采取进一步措施：旨在促进发展的研究应根据其可能实现的现实影响进行评估。在评估标准的执行过程时，需要特别设计那些能够衡量活动可见性和价值的指标，否则研究可能会与社会产生偏离。更好地将研究评估与社会影响相结合，不仅可以对研究的优先级和组织结构产生重大的系统性影响，还可以促使同样的资助产生更高的社会价值。

同时，一旦研究评估强调那些被认为值得努力的方面，那么不被重视的方面就可能变得不可见。如果大学研究希望直接解决与可持续发展目标相关的社会问题，就需要发出明确信号，表明这一方向会受到重视。这一过程是大学与社会更广泛融合运动的一部分，应在研究评估方案中得到考虑。我们将这种与社会融合相关的自治形式称为“互联自主”，并对其进行深入探讨。

研究评估替代方案的新论点：

可持续发展目标

需要互联自主的发展型大学

为了创造具有社会价值的知识，大学不应仅受外部力量驱动。自主性意味着大学能够自由地按照内部确定的研究方向进行探索，运用合理的方法，并自由地分享研究成果，而不受外界利益的干扰。但是，大学的自主性也可能体现在大学无视社会需求，按照自己的标准进行所谓高质量研究。

“互联自主”是指在生产和共享知识时，考虑来自社会各界参与者的知识需求。在民主多元的社会中，大学应与所有社会行动者建立联系，然而现实往往并非如此。Hess将社会问题的知识支持缺失称为“未完成的科学”。这一概念描述的是，需要知识支持以实现其目标和关切的社会行动者无法得到满足，这反映了联系方面的缺失。更复杂的情况是，那些本可以从特定的认知方法中受益以解决其问题的社会行动者，未能认识到研究作为解决问题的工具的可能性，这在贫困人群中尤为常见。而其他行动者，如知识密集型行业的大型商业公司和政府部门，其知识需求更易于被纳入考虑，通常是这些行动者推动建立联系，他们为了获得所需服务提供大学运营所需的物质或象征资源。

学生和教师的社会参与都需要得到正式的学术认可，以便他们将时间和精力投入到可能需要更长时间才能见成效的问题上，这些问题除了涉及非学术行为者外，还可能有其他复杂因素。大学需要调整学术激励制度，以便认可此类活动。

研究评估的新方向

在本节，我们首先提出“devmetrics(发展指标)”，其次构建了一个包含但不限于此类指标的替代评估体系。

“devmetrics” 与当前的文献计量学、更广泛的文献计量学(涵盖更多的期刊和数据集)以及目前定义的替代计量学不同，替代计量学主要关注于捕捉基于网络的引用，以此凸显特定的学术贡献。“devmetrics”的目标是让知识为人类可持续发展服务，优先关注贫困人群。

这一指标将如何具象化？它将涉及迄今为止提出的一些替代方案重点：关注背景、可靠性、支撑性、透明度、多样性和反思性。这些特点与大学的目标紧密相关。它不会阻碍跨学科工作，因为处理当前社会所面临的复杂问题需要跨学科的努力。

现行评估体系对“发展性”研究的最大限制是什么？主要是时间和声誉的压力。要消除这些限制，不能也不应该通过弱化研究生产力和国际知名度指标来实现。但是，对生产力的理解应当不同于仅仅计算在某些特定期刊上发表的论文数量。特别是，对于那些已经通过高质量成果证明了自己能力的研究者，应当被赋予自由去解决那些可能不会迅速产出论文的极具挑战性的问题。在这些情况下，评价标准应该是对问题难度和解决这些问题所采用策略合理性的评估。

上述考虑表明，devmetrics应该：

(1) 特别关注互联自治的问题，包括共同构建研究问题和战略，以及实施中的互动方式。

(2) 主要使用定性评估方法，特别是叙述方法和对外部行为者的访谈方法。

(3) 在评估工具方面，研究人员在评估期间应满足以下要求：①至少在一本高质量期刊上发表一篇论文，以证明其进行高质量研究的能力，而不必考虑其发表的数量或期刊的声誉排名；②详细描述其与外部利益相关者共建研究项目的策略，并考虑到他们的需求；介绍研究成果，包括正式的学术论文和“灰色”知识产品，以及在可持续发展方面取得的成果。后者难以详尽描述，只能通过初步成果和主观评价来衡量。事先强调这一点，有助于避免评估受到虚假客观的误导，从而开展合理且令人信服的研究评估。

评估包含多个层次——研究人员个体、部门、整个机构——每个层面的标准可能有所不同。为了在一定程度上考虑到研究人员个体，需要将多元化的评估体系构想为一个能够“改进或塑造研究内容”的工具。基于此，我们可以提出三项主要指导原则：

(1)允许灵活地从传统指标过渡到“devmetrics”：研究人员可以在一段时间内根据其承诺的工作计划选择由哪种指标来进行评估；

(2)将用于帮助扩大大学与社会各界的认知联系的时间视为研究时间；

(3)为那些有助于解决社会问题的优秀研究成果提供奖励，并制定针对此类研究的研究倡议。

表1总结了这种替代性评价制度的准则。

在评估体系中实施“devmetrics”原则将摆脱当前研究评估的限制，走向更广泛的社会参与，并使致力“发展”的研究得到认可与称赞。显然，这些指南必须以具体的行动措施和基于“devmetrics”的规范化评估工具来落实。这种实施过程无疑将依赖于具体的环境，因为每一次变革都将挑战已有的权力格局。研究委员会和大学的领导者应该明确认识到建立面向可持续发展目标的研究评估体系的重要性，并为之提供激励措施。这样一个有说服力的倡议将对现有的评估体系产生影响，并有助于研究评估体系更符合发展目标。

(全文及参考文献见Science and Public Policy 2019年第46卷第2期，原文链接：https://academic.oup.com/spp/article/46/2/210/5066365?login=true，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 邓晨菲金潇苒王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

美国学者如何看待“负责任的研究评估”？