国外动态 | 多元的欧洲研究评估体系-国家智能评价与治理实验基地

国外动态 | 多元的欧洲研究评估体系

发布时间：2023-05-26 编辑：王译晗 来源：复旦智能评价与治理，复旦新学术

引言

过去几十年来，大学发生了深刻变革。在一些国家中，大学的行政管理向问责制和“新公共管理”转型，另一些国家则引入了基于绩效的资助系统（PRFS）。研究评估在国际上愈发重要，一些国家的研究评估以集中方式开展，另一些则仅在机构层面进行组织。研究评估的重要性及其组织方式因国家而异。学界已总结了关于研究评估体系的几种分类方法，但都存在一定局限，主要有以下方面：一是只涵盖了少量国家，且通常是那些以英语公开提供信息的国家；二是没有反映这些体系是否允许根据学科而调整评估方法，例如在人文社会科学（SSH）中是否使用指标；三是通常只关注评估的财务影响，或只关注基于绩效的资助分配模式。

本文中，我们构建了一种国家研究评估体系的分类方法(数据主要来源于欧洲国家)，有助于阐述研究评估在国家层面上的差异问题。

数据与方法

本文基于采用德尔菲法对研究评估专家进行的两轮调查数据进行分析。这些数据是在欧盟COST行动(European Cooperation in Science and Technology)“欧洲人文社科研究评估网络（European Network for Research Evaluation in the Social Sciences and the Humanities, ENRESSH）”的背景下收集的，过程如下：①行动指导小组成员设计对研究评估体系进行分类的初步维度，同时补充附加维度进行扩展。②基于初步维度向COST行动的60名管理委员会成员进行调查。第一轮调查旨在确定扩展维度是否有意义，以及是否应添加其他维度。③基于第一轮调查结果调整研究评估体系的维度，并设计第二轮调查的问卷。第二轮调查面向COST行动的所有成员，成员所在国家数量从38个增加到132个。④对ENRESSH所有成员进行调查，这些成员都是研究评估专家。我们希望收集到来自多个国家的多种回答，因为研究评估体系并没有明确定义，通过广泛调查能够为这些体系找到更合适的维度，丰富评估结果。⑤采用多元对应分析(MCA)对国家评估体系进行分类，根据结果将国家和变量绘制在二维坐标系上。然后在坐标系中划分国家研究评估体系的类型。这些类型并非同质化的，而是根据一定特征(即关于现象的抽象表征)进行划分，每个国家都有其评估研究的方式。通过将复杂现象进行映射、系统化和简化，以更好地对评估体系进行分类和描述。

调查结果和变量

第一轮调查取得了很高的回应率——来自25个国家的43名受访者填写了问卷，个人回应率为72%，国家层面为79%。得出的主要结论是，现有维度不能反映研究评价体系的所有必要维度和方面：一是在同一维度上，各国之间存在很大分歧，表明维度需要调整；二是开放评论问题被广泛填写。这在一定程度上是由于与之前的研究相比，国家层面的选项更加多样化。除了修改表述和扩充维度，调查表还调整为三大主题，包括机构评价、职业晋升和资助评价。虽然本调查主要针对第一个主题，但在许多情况下，受访者会提及职业晋升制度和资助评价的重要影响。调整为三大主题可以让受访者更加清晰。

第二轮调查共收集到来自33个国家的72位受访者的回答，对应的个人和国家层面的回应率分别为55%和87%，同属于高回应率。结果表明，调查表的各维度和各方面都较为清晰。经过筛选，本文采用来自32个国家的68个受访者的数据，具体国家包括：奥地利、波黑、保加利亚、克罗地亚、塞浦路斯、捷克、丹麦、爱沙尼亚、芬兰、法国、德国、匈牙利、冰岛、爱尔兰、以色列、意大利、拉脱维亚、立陶宛、马其顿、马耳他、黑山、荷兰、挪威、波兰、葡萄牙、罗马尼亚、塞尔维亚、斯洛伐克、斯洛文尼亚、南非、西班牙和瑞士。由于篇幅限制，本文没有列出问卷的维度和方面，而是介绍用于分类的几类变量，变量包括：①是否有全面的国家出版物数据库；②评估是否与资助挂钩；③指标是否在评价中发挥重要作用；④是否有专门针对SSH学科的评价；⑤是否有推动英语出版的趋势；⑥评估中是否涉及性别问题(如产假/陪产假等)；⑦是否存在全国性的职业晋升程序；⑧是否有专门针对SSH的具体资助计划。对变量的计算规则如下：对于每个受访者，如果答案为“是”，则被编码为1。如果来自一个国家的大多数受访者在该变量上得分为1，则该国家在该类变量上被归为1。

研究评估体系的分类

图1展示了不同国家科研评价体系的多元对应分析结果。“数据库和指标”“SSH适应性”这两项维度涉及到的变量数和国家数很高，十分具有代表性。“数据库和指标”维度代表了评估的指标部分，即是否有国家出版数据库、评估的主要方法是否使用指标、是否将资助与评估挂钩。“SSH适应性”维度与评估体系是否关注SSH研究实践有关。基于图1中的4个象限，本文总结了5种研究评估体系的类型(左下象限划分出2种类型)：

(1)“非计量、非SSH”是指没有国家出版物数据库、不以计量为基础、不与资助挂钩、没有专门SSH评估程序的国家评估体系。如塞浦路斯(CY)、法国(FR)、冰岛(IS)、马其顿(MK)、马耳他(MT)、黑山(ME)、葡萄牙(PT)和西班牙(ES)。其中最具代表性的国家是冰岛，所有其他国家都在一或两个变量上出现偏离(例如南欧国家将资助与评估结果相关联)。

(2)“非计量、特定SSH”是指没有国家数据库、不使用计量作为主要评估方法、不鼓励英文出版物，但为SSH研究提供专门的资助计划。如奥地利(AT)、德国(DE)、爱尔兰(IE)、荷兰(NL)、塞尔维亚(RS)和瑞士(CH)，这种评价制度起源于瑞士。

(3)“资助、非计量”是指使用国家出版物数据库的评价体系，将资助与评估结果相关联，评价的主要方法是同行评议，有特定于SSH的评价程序。如立陶宛(LT)、挪威(NO)和南非(ZA)，该类型的主要代表是挪威。

(4)“资助、计量”是指使用国家出版物数据库，将计量作为评估的主要方法，并将评估结果与资助相关联，同时允许特定于SSH的评价程序，不鼓励英文出版物。如克罗地亚(HR)、捷克共和国(CZ)、丹麦(DK)、芬兰(FI)和波兰(PL)，其中丹麦为典型代表。

(5)“计量、英语”是指使用国家出版物数据库的评估体系，使用计量作为主要评估方法，将资金与评估结果相关联，没有特定于SSH的评估程序，并鼓励英语出版物。如波黑(BA)、爱沙尼亚(EE)、匈牙利(HU)、斯洛文尼亚(SI)和斯洛伐克(SK)，爱沙尼亚是典型代表。

讨论和结论

系统性的研究评估愈发重要。一些国家制定了集中式的国家评估体系；也有一些国家选择不使用集中式和标准化的研究评估，而是将评估交由机构组织，以更好地支持其特定使命；还有一些国家仅集中评估某些方面，这便呈现出欧洲及其他地区研究评估的多样化格局。我们对32个以欧洲国家为主的研究评估体系进行的分析表明，各国已经建立了独具特色的评估体系。本文认为可以侧重于一些方面对评价系统进行分类。

本文提出了一种分类方法，其创新点在于超越了现有研究体系分类的范畴，因为它涵盖了更多国家；考虑到在过去几年中愈受关注度SSH评估，以及常用的评估工具不适用于SSH研究实践；且主要关注点并非财务方面。

本文的数据来源于68位专家对本国评估体系的评价，其中大多数国家都收集到了不止一份专家评价。结果显示，研究评估体系很复杂，专家们并不总是在所有维度上达成一致意见。其中一个重要原因是评估的实施和实际应用并不总是与形式上的定义相一致，另一个相关原因是评估体系由许多具有不同特征的组件组成，不同的专家可能会对这些组件进行不同的权衡。就此意义而言，本文的分类体系仅代表评估专家对其所在国家的评估体系的看法。

通过实证分析，本文提出了5种理想化的研究评估类型：“非计量、非SSH”（冰岛），“非计量、特定SSH”（瑞士），“资助、非计量”（挪威），“资助、计量”（丹麦）和“计量、英语”（爱沙尼亚）。还有一些国家不能归为一种类型，而是不同类型的混合体（如意大利、以色列、拉脱维亚、罗马尼亚）。

本文得出的主要结论是，国家层面的研究评估体系极具复杂性，欧洲的研究评估格局是十分多样化的。但是可以确定一些特征，来划分研究评估主要类型。次要结论是，不同类型的研究评估与不同国家的条件有关。如南欧国家、德语国家和北欧国家的分布较为聚集，这表明研究评估体系与历史或政治结构之间存在联系。还应注意到，一些研究密集型和高绩效国家（如德国、荷兰或瑞士）采用的是实际导向而非指标导向的方法，其他国家则试图采用指标导向的方法来提高排名，并偏向于英文出版物（如匈牙利、爱沙尼亚、波黑）。因此可以得出结论，评估体系应该针对不同国家的不同研究情况进行调整。不同的评估体系会产生特定的激励机制，从而导致不同的效果或结果。因此，我们建议评估体系的设计者在设计评估体系时，应该有意识地将要实现的目标、要促进的激励机制和要设计的评估体系联系起来，而不是一味追求评估体系的统一化。

(全文及参考文献见2018年第23届International Conference on Science and Technology Indicators会议论文集，原文链接：https://www.researchgate.net/publication/328108519_The_Diversity_of_European_Research_Evaluation_Systems，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨邓晨菲王译晗

本期责编 | 金潇苒

基地官网：http://statevalbase.fudan.edu.cn/main.htm

·end·

ENRESSH政策简报：研究评估