摘要:本文探讨了研究评价及其未来发展的一些争议。采用RAE2001、RAE2008和REF2014的数据,分析研究评价如何顺应研究治理及其长期变化,并就以下变化及其影响展开探讨:研究管理原则的转变和多目的评价的兴起;基于绩效的资助和外部的问责制;在研究评价中使用的标准和指标;进行评价时的界定工作;将研究影响力作为衡量研究价值的一部分;部门结构调整;跨专业实践的增加。可归纳为以下主题:问责制、评价、衡量、界定、合法化、机构、身份。总体而言,这些趋势对现有的研究资助和治理原则提出挑战,使得研究评价成为国家考察大学的关键。此外,本文认为研究评价的未来趋势是成为一种广泛而持续的研究治理制度,该制度将进一步嵌入到机构和个人的研究实践中。
2021年是英国学术界开展基于绩效的研究评价活动的第35年,也是接下来英国全国性高等教育研究绩效评价活动——REF2021(Research Excellence Framework, REF)的标志年份。英国在1986年进行的科研选择活动(Research Selectivity Exercise, RSE) 是第一次全国性评价实践,旨在通过对大学院系的研究质量进行全面评价来做出资助决策。当时的RSE几乎遭到了全面批评,这也导致其之后的评价设计和程序不断发生变化,如1989年的科研评价制度(Research Assessment Exercise, RAE)。研究评价中的几个关键要素也一直被争论,如质量标准、绩效指标和评价程序。
本文对其中一些问题展开探讨,包含7个问题:问责制、评价、衡量、界定、合法化、机构和身份。
过去几十年来,在国际、国家和机构层面的研究政策中,问责制、市场化和竞争性原则愈受关注。人们越来越依赖于绩效驱动的评价技术。这些技术不仅为研究资助提供信息,而且对研究活动本身产生引导,通过促进产出一些可被衡量的贡献,以提升研究的全球竞争力。这些评价技术也产生了一些伦理和认识论方面的深远影响。例如,过分关注研究绩效可能会影响研究人员的自由度,可能将研究者的内在意识转化为对管理者要求的遵守;评价指标也备受批评,因为它们的创建、使用和更迭可能会使部分研究群体被边缘化。
2014年前后的一个重要变化就是问责制这一关键词的提出。RAE2001的宗旨声明中并未提及问责制,RAE2008在相关描述中则出现了这一关键词,而在REF2014中,问责制成为其3个核心目之一。一方面,问责制是一种正式的强制机制,具有等级性和对抗性,并且涉及官方监督、可回答性和可执行性;另一方面,它被认为是一种强调民主对话、合作实践以及专业责任的自主性实践。问责制的内涵十分复杂,因此饱受争论。笔者将这种内部的模糊性称为问责制问题。
对于这一问题,研究评价发挥了巨大的作用,常常通过一些合作性的方式进行——如协商、颁奖、委员会和董事会的提名和代表、专家小组调查、咨询和利益相关者活动。目前,通过研究评价决定基于绩效的资助、资源的选择性分配和落实制度化的问责制,已成为高等教育自我监管的手段,但这充其量只是一种勉强达成的共识,更像是一种对现实的妥协。未来,质疑并不断重新探讨研究评价的核心原则仍然十分重要。
过去二十年,基于绩效的研究资助在全球范围内空前普及。很多国家使用基于事后评价的绩效资助体系,该体系根据对过去绩效的评价来分配拨款。英国的RAE和REF正是如此。
然而,大量文献指出了RAE和REF以及类似资助体系的缺点和不良后果。例如,开展全国性评价活动所造成的行政负担,或者以绩效为导向带来的偏离学术本质。本文认为,这类活动可能会对组织文化和高等教育的多样性、教学与研究之间的平衡以及职工个人的士气和职业发展产生负面影响。此外还有一个特别强烈的指责是,这种评价活动会在一定程度上激化“博弈”。因为它使人们更加关注如何达到规定而非保证研究质量,容易产生投机行为。例如RAE和REF可能正在 “制造不正当的激励”,从而导致公众反专家情绪的上升。以上种种批评反映了研究资金的分配结果和评价结果之间的高相关度这一事实。
如表1所示,过去二十年来,研究评价正在变得更加专业化、层次化。不同的参与者和方法根据不同的利益和组织而结合:从子组织(如资助提案评价或员工绩效评价)到超组织 (如全部门评价活动) 层次,贯穿其中的专业知识可分为实质性专业知识(对被评价领域的深入理解)和程序性专业知识(对执行评价所涉及的规则、机制等方面的深入理解)。如表右侧的箭头所示,研究评价实践越接近个体研究项目、产出和研究人员,它对实质性专业知识和质量的依赖就越强。这有助于理解为什么那些完全基于实质性专业知识的评价经常被指责为保守主义或自我偏见;而那些严重依赖程序性专业知识的人则容易被指责为不够专业。
第3个持续存在的问题是“衡量问题”,即是否有可能避免在评价研究时发生标准优先于实际质量的问题。鉴于评价方法和举措的多样性,明确什么是“高质量”并非易事。
表2展示了围绕研究指标而产生的行为词汇在范围上的变化,包括从个人层面、机构层面再到领域层面,以及从微观指标、中观指标、宏观指标再到元指标。微观指标是指具体、可量化、有时间限制并且范围小的指标,在对研究的总结性判断中的直接使用有限。中观指标同样基于可测量的数据,通常是随着时间的推移通过对单个微观指标的累积得到,具有不同程度的有效性和可靠性。中观指标在评价中发挥双重作用,它们可被视作微观上的绩效目标,并与宏观目标相关。宏观指标是指全球性的综合标准,随着研究领域和模式的发展,该指标的性质、范围和合理性被持续争论。因此,确定宏观指标需要高水平的实质性专业知识,尽管它们也可以来源于微观指标来提供的信息,但通常在很大程度上来说是整体和定性的。最后,元指标是评价行为本身的产物,它们要么是事后计算,以便根据RAE/REF结果创建各种排行榜(如“平均绩点”),要么是内部管理会议中使用的简化术语(如“REF适用性”)。其中许多术语已成为高等教育、行政机构以及媒体的日常用语,对研究文化和学者个人产生了一些负面后果。不过越来越多的组织承诺负责任地使用指标,以响应《旧金山宣言》《莱顿宣言》等。
评价指标的使用一直备受争议。大部分争议都是关于研究评价中指标的技术可信度和适用性,并且主要围绕术语和方法展开。英格兰高等教育资助委员会(HEFCE)的指标审查试图在评价指标的支持者和批评者之间划出一条中间路线。审查发现,特别是在评价研究影响力和成果的原创性、可靠性方面,当前的指标既不健全,也不能替代同行评议,因此不应过度使用指标。审查小组建议负责任且有节制地使用指标,指标的设计、使用和解释必须结合机构和(跨)学科的特征和需求,以及不同背景下的评价目的和水平。
研究评价主体致力于对研究成果和研究机构等评价客体进行界定和划分,界定在很大程度上依赖具有实质性专业知识的学者的同行评议,有时辅以相关标准和指标。REF将同行评议和指标的使用与对研究领域的定义和分类联系起来。这就需要明确评价的实质内容和方法内容、评价需要哪些专业知识、应使用什么标准和比较对象是什么,以及专家的职权范围。这些决策构成了评价活动的价值观,评价机制通过定义和分类确定边界,最终通过研究单位层面的选择决策进行解释、内化和监管,这便是 “界定问题”。
REF中关于子小组的定义、划分及其评价范围的界定,就是界定工作的代表案例。界定工作的结果会成为该领域各研究机构日常运行和确定战略优先事项的构成要素。但是,由于这种机制依赖于诸如学科定义和分类这样的差异化机制,因此可能导致对跨单位比较的误判,其评价结果导致的资助分配方案可能会与相关学科实践的不匹配。
REF的制度合法性——即它在多大程度上被认为是“权威、有约束力或有效”——取决于(部分或全部)基于公共资助的研究的科学性和政治合法性。因此,这项工作必须依赖同行审查和政治过程。公众理解研究的方式已经被重新构建,从“为了获得知识和理解而进行的原始调查”转变为 “有效共享新见解的调查过程”。定义上的变化强调知识的共享、交流和影响力,体现了对研究性质和价值方面的理解。
因此,在评估框架中引入“影响力”可以被视为一种通过重新定义研究卓越以间接合法化评价框架本身的机制。这种转变反映了高等教育与业界之间的关系、学术与非学术背景之间的联系、研究与用户的相关性以及研究在知识与创新社会中的更广泛作用。
有观点认为,在研究评价中引入影响力是界定工作的另一种形式,可能会导致认识论问题。因为影响力不突出的研究可能会被认为价值较低,并随之降低从事与之相关的实践的倾向。但我们应明确,研究评价重在关注资源分配的实用性和合理性,不能用来代表研究的认知价值。
除了加强评价活动的实用性之外,强调影响力可以被视为重新协商研究公共资助背后价值观的结果。近年来,随着政治上对专业知识、真相、事实或学术严谨性的质疑越来越多,影响力对于重塑话语权而言,其重要性正在上升。因此站在政治角度上,也需要承认研究影响力是研究价值的一部分。
REF的结果对高等教育机构的日常工作产生了重大影响,相当于重塑了整个行业。其中一些变化直接影响机构的研究能力,如招聘活动、员工职责 (如教学和研究的工作分离)、职业晋升等。许多机构的工作已对应作出调整,并设立一些新岗位,以应对影响力评价。
REF2014中引入的影响力塑造了高等教育机构在研究领域进行差异化投资的战略决策,重组了提供、验证和共享研究的组织基础,并可能有助于将一些研究活动重新融入到政治优先事项和社会挑战之中。大学对研究的战略领导、管理和治理也进行了重新调整。提交给REF2014的环境和影响力声明表明机构已经从战略上思考并密切监督和审查其单位的研究活动。评价实践的实际或预期结果也产生了调整。声誉方面的结果会直接影响机构设立、合作关系或学校招生;财务方面的结果则会对研究活力产生影响,会成为新兴增长点的驱动或抑制因素。
总体而言,基于绩效的研究资助的过程和结果都对机构的组织结构带来了压力。由于机构改革的责任通常在机构和政治领域之间传递(例如在政府机构、资助机构和不同级别的管理机构之间),就会产生这样一个问题——机构改革的议程和权力最终会由谁来掌握,谁会推动或阻碍组织实践和跨组织网络的变革。
在英国,围绕RAE/REF形成了明确的专业领域。例如,为了响应新增的影响力评价,大多数机构都在现有岗位中增加了与之相关的职责,并设立了影响力工作组、项目委员会以及交付监督小组。新的角色被创造,现有角色也被重新定义,如影响力撰稿人、案例研究员、文案编辑等。机构还雇佣了大量临时工(研究生为主)来收集、输入和清理关于影响力以及其他指标的数据。还有一些机构专门购买了用来监测和记录研究和影响活动的商业软件包(或自己开发软件包)。
此外,基于绩效的研究资助也提高了一些行业领域从业人员的专业化水平,学界和其他行业领域之间互补或融合的'结合式'职业越来越普遍。这种关系的发展有助于细化目前的学术身份和职业结构,并进一步促进差异化,但同时这也可能导致沟通不畅和领域争夺。
来自研究界各个阶层的力量正在推动对研究评价组织、结构、机制、规范和价值观等方面更为积极和激进的重构。人们呼吁重新平衡对内部和外部价值的理解,充分认识并在结构上支持知识的多样化价值,加强公平公正,以及协调自由与责任之间的共生关系。这不是逃避现实的声音,也不是或被排斥和驳回的声音,更不是“另类”的声音,而是一场旨在提升学术研究道德的正义运动。为了将研究评价塑造为一种进步性、交流性、权威性和可靠性的实践,必须建立强有力的研究基础、进行真正的对话和具备敢为人先的魄力。
(全文及参考文献见Palgrave Communications2019年第5期,原文链接:https://www.nature.com/articles/s41599-018-0213-6,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 邓晨菲 金潇苒 王译晗
本期责编 | 金潇苒
基地官网:http://statevalbase.fudan.edu.cn/main.htm