过去几十年来,许多大学的管理向问责制和新公共管理实践转变。迫于效率和问责制的压力,大学对研究绩效和研究影响力实行全面综合的评估程序。此外,管理人员倾向于使用定量数据来比较绩效,导致评估体系大多基于定量指标,要么是Web of Science(wos)的数据,要么是直接/间接的经济影响。最初这主要影响了科学、技术、工程和数学(STEM)学科,但2008年全球金融危机及其后的预算限制,以及对问责制的持续需求,导致定量评价被更广泛地实施,并扩展到人文社会科学(SSH)。虽然定量评价在一定程度上取得了一些效果,改善了一些研究系统的总体表现,但在评估SSH时,仍有着很大局限。正如《旧金山研究评估宣言》(DORA)所述,STEM学科也愈发抵制针对研究质量和影响力的定量评价方法。
SSH的研究评估极具难度,原因之一是SSH汇集了多种学科、方法和实践。当前通用的评估程序更多面向“硬”科学及其生产和传播实践,无法贴合SSH的研究实践、国家差异和传播特征。并且SSH学者坚信SSH学科对于知识进步的重要价值,以及SSH可以为教育、文化、政治、工作等许多社会问题做出贡献。因此,充分评估SSH研究人员的工作势在必行。
本文试图提出对SSH研究进行价值评估的基本原理。首先介绍了在欧洲人文社科研究评估网络(European Network for Research Evaluation in the Social Sciences and the Humanities, ENRESSH)范围内进行的关于欧洲SSH研究评估的初步调查结果。接下来根据这些初步结果,讨论了一种将学术表现和影响力相结合的方法,可以作为SSH评估的解决方案,甚至可能超越现有方案。最后分析SSH研究价值评估中的难点。本文旨在明确SSH在科学和社会中的地位所面临的挑战,并以此作为评估的基点。
评估实践在各国之间差异很大,并且随着实践的不断发展,学者们提出了多种类型的研究评估体系,但这些体系都没有体现出特定于SSH研究的评价。此外,当前关于评估体系的典型类型只集中于少数国家,主要是那些评估实践信息公开并被广泛讨论的国家,如英国(RAE/REF)、“挪威体系”(基于CRIStin)、比利时的评估(基于VABB_SHW)或荷兰使用的评估方案(SEP2015-2021)。鉴于缺乏对SSH评估程序的广泛扫描,ENRESSH的首要努力之一是观察和比较不同国家对SSH研究的评估情况。
为了明确研究评估体系的分类,ENRESSH采用德尔菲法进行调查,主要分为5步:①行动指导小组成员设计对研究评估体系进行分类的初步维度,同时补充附加维度进行扩展。②基于初步维度向COST行动的60名管理委员会成员进行调查。③基于第一轮调查结果调整研究评估体系的维度,并设计第二轮调查的问卷。④对ENRESSH所有成员进行调查,丰富评估结果。⑤采用多元对应分析(MCA)对国家评估体系进行分类,根据结果将国家和变量绘制在二维坐标系上。下文介绍了前两步的调查结果:
在初步维度设计上,笔者首先基于文献综述确定了几项基本的特征维度,然后补充了现有分类中所缺少的SSH特有维度。初步维度包括评估层次、差异化、评估主体、资金、方法、时间、透明度、成本:
1. 评估具有不同的层次。一些国家有国家层面的评估体系,一些国家则是在地区层面组织,或由每所大学自主决定。笔者对评估体系的组织层级和评估数据的收集水平(即是否有国家、地区或机构数据库)进行区分。
2. SSH的研究实践和传播与STEM学科有很大不同。常见的评估做法如基于wos数据的文献计量学方法并不适用于SSH,也不适用于应用研究。因此,必须补充现有分类中尚不存在的维度——差异化维度。它包括两个方面:①是否有特定的方法或程序来评估SSH研究;②应用研究和基础研究是否有不同的评估程序。
3. 由不同的机构负责进行或监督评估。组织评价的级别和负责评价的机构之间的区别尚不清晰。
4. 评估可以与资助挂钩,或服务于特定原因。评估结果也可能与资助没有直接联系,但被其他机构或被评估机构内部用于资助目的。
5.作为评估程序运行基础的不同评估方法,包括:①采用的主要方法;②是否使用以及使用何种数据;③涉及同行时使用的标准。
6. 评估涉及时间维度,包括:①评估周期的时长;②评估所回溯的时间窗口。
7. 透明度是传播和使用评估结果的一个重要方面,这主要取决于所采用的方法、是否与资助相关。由于评估结果可被视为评判质量的指标,因此透明度至关重要。虽然有研究提到“大多数体系都强调方法和数据的透明度”,但还没有融入透明度的分类。初步维度中的透明度体现在:①计算评估结果最终得分的方法;②如果评估与资助挂钩,那么将得分与资助挂钩的方法;③是否公布结果。
8. 评估需要花费时间和金钱,包括:①(预估的)成本;②是否估算成本/效益比。
基于以上初步维度向COST行动的60名管理委员会成员进行调查。这些成员在SSH研究评估相关的课题上经验丰富,并在行动中代表着他们的国家。调查目的是了解各国代表如何使用这些维度来描述其国家的评价体系。
结果证实,现有的分类维度不足以充分描述SSH评估体系。首先,各国在新补充的维度上存在差异,例如差异化、透明度和成本。其次,开放评论问题被广泛填写,表明为了充分反映不同的评估体系,应该考虑更多的维度或方面。显然,这也是由于本研究中包含的国家十分多样所致。
虽然这些国家的代表对所采用的方法、谁来负责评价以及是否将评价结果用于资助等问题达成了一致意见,但在其他方面却存在很大分歧,这些分歧可能是多种原因造成的。例如,虽然调查目的是了解面向事后评估的国家评价体系,但调查结果涉及了从研究申请书的事前评价到教授任命和事后评价,被调查者对评价有着多种理解。在差异化维度上,尽管强烈呼吁开展针对学科的评估程序,但SSH的评估并不总是适用于SSH。此外,即使评估是针对SSH的,那也是因为现有程序的缺陷(如文献计量学不能应用于SSH),而不是为了反映SSH研究实践和目标而精心设计的。
是否有可能克服SSH现有评估的缺点,并提出一个真正适用于SSH的知识框架、方法和技术?探索的方向似乎是从当前研究评估的主要原则、框架和实践转向寻求能够将这些学科的研究绩效和价值相结合的方法。这并不意味着“一刀切”,也不意味着放弃科学质量的标准,更不意味着忽视科学对社会的责任。这样做的好处在于,可以让研究评估专家专注于已经出现的诸多问题,而不是还在试图调整“传统”的基于指标的评估方法,以适应SSH研究评估的特殊性。
该价值评估模型基于“SSH研究为学术界和社会产生价值”的假设,并且认为该价值的很大一部分无法量化,也无法用其他术语进行评估。SSH研究通常能够产生影响社会过程、部门组织结构的新观点和见解。无论是“硬”科学还是SSH,相关研究都一再证明,“影响力”并不依赖于线性模型,无论是技术、经济还是社会的重大创新,都是涉及多因素的,不能与特定研究项目、出版物或团队唯一相关。
SSH产生价值的假设不是单纯的信念问题。相关进展再次表明,“硬”科学和“软”科学之间具有协调统一性,对后者的资助不足或估值过低可能会阻碍前者所急需的重要发展。例如教育给社会带来的影响不易衡量,许多证据表明,除了为就业而开展的培训和教育,各种学科的教育(即使是冷门的学科和研究领域),都是社会发展的基础。
因此,价值评估模型应较少关注“物有所值”的维度,而是更多关注促进生产和传播SSH知识的方法。由于研究的进步是不确定且不可规划的,模型应更多关注这些学科中的合作维度。价值评估应包括理解和奖励高质量、跨学科和社会相关的研究,而不是偏向于研究的学术或社会影响。这样做的好处是可以根据学者、团队或机构的实际工作(或未来工作)来评估他们,包括他们为与科学界和社会互动而开发的积极且创新的方式,而不是基于科学界和/或社会进行(或不进行)他们的研究。诚然,应始终明确所进行的任何研究的社会和学术相关性,但重要的是要认识到实际影响力的产生,不能以不切实际的时间范围和使用有问题的证据来证明,大多数真正发挥作用的影响力可能需要10~15年时间。明确这一理解可能有助于防止评估的不良后果,例如减少从事低风险和短期关注的研究。同时,这也可能在一定程度上减缓出版和引用方面的竞争,并减轻收集“影响力证据”的负担,这对某些国家的研究人员来说已经是沉重的负担,占用了他们实际用于研究和教学的时间。但也要承认,在更宏观的创新过程背景下,观察短期和中期影响力确实是有意义的,例如可以识别研究人员对创新过程的具体贡献。
当前已经进行了一些评估体系的大规模实验,并且正在以更高效的方式对(SSH)研究进行评估,同时关注科学质量和社会相关性。在文献中可以看到许多评估社会影响力的新方法,简而言之,新的评价方法需要包括以下内容:
• 了解SSH研究成果;
• 改进社会责任分配,加强利益相关者参与;
• 首要关注知识应用的情景,其次才是科学的卓越性;
• 承担的多重责任(学院/专业vs.管理)。
虽然质量标准在所有学科中都存在争议,但最近的研究表明,在SSH中,对“高质量”的感知和定义更加复杂和模糊。此外,虽然同行评议在SSH中受到普遍认可和接受,但在许多期刊/出版社以及由同行进行评估的其他机制中,程序远非透明和健全,往往没有受到有效监督或根据彻底性和公平性等原则进行评估。此外,科学与社会的关系正在发生变化,二者界限愈发模糊,评估机制必然会在一定程度上反映这种变化,利益相关者正在更多地参与到与研究人员的合作中。这意味着在某些情况下,利益相关者的兴趣和目标必须被包含在评估系统中,也要包含在同行评议或专家评议中。
另一个困难是,“社会影响力”这一概念很难定义,因为它在很大程度上取决于其情景。不同利益相关者的需求也会不同,就评估而言,这意味着很难对SSH的所有或大多数领域进行合适的社会影响力测量。此外,虽然“影响力”一词具有线性内涵(即具有发送者和接收者),但其结果只能在与利益相关者的交互中实现。
在讨论社会影响力时,目前四螺旋模型被大量使用,在该模型中,政府、业界、学界和公众被“无缝”链接。要明确这些链接是什么以及它们寻求实现的是什么是至关重要的。由此出现的第一个问题是确定谁是利益相关者,然后试图确定他们的动机、看法和目标。第二组利益相关者是政策制定者和资助者,他们可能和SSH本身一样具有多样性。第三个群体是社会,它更加多样化,涉及公共组织、非政府组织、大小企业以及广大公众,他们看重SSH的文化知识和智慧,这是稳定民主制度和保障思想自由的基础。对所有这些线索进行分析是必要的,以找出它们在哪里以及如何链接,以及在哪里没有链接。理解这些问题意味着要全面提高认识,从而找到共同点。ENRESSH正在朝着这个方向努力,目的是在不同的政策制定者之间建立对话,并就螺旋结构的其他方面展开讨论。
价值评估对SSH学科尤为重要,但要实现这样一个模型,还需要进行大量的研究。深入了解SSH知识生产过程的流程和策略是改进评估过程的基础,从而充分反映SSH学者的研究实践、目标和宗旨。与此同时,SSH研究人员对社会挑战的参与也必须得到重视,以便更全面地了解在非学术伙伴关系和SSH研究环境中进行互动的方式。最后,必须收集SSH研究产生的可靠数据,这意味着在许多情况下,需要从零开始开发专门用于SSH研究成果的研究信息系统。
大多数学科的评估都没有一个放之四海而皆准的方法,使用有限的标准和/或“实用性”导向驱动的评估,并不能公正地评价研究为知识进步和社会带来的巨大贡献。
(全文及参考文献见fteval Journal for Research and Technology Policy Evaluation 2017年第44期,原文链接:https://repository.fteval.at/id/eprint/314/, 本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 金潇苒 宋欣雨 王译晗
本期责编 | 金潇苒
基地官网:http://statevalbase.fudan.edu.cn/main.htm