摘要:对人文学科研究质量的评估与人文学者认为什么是“好的研究”息息相关。尽管学者们每天都在评估研究,但人们对学者在判断研究时所依赖的质量概念知之甚少。本文调查了人文学科学者对研究质量概念的观点,并将其转化为人文学科研究评估标准。通过将该方法应用于三个人文学科,揭示了人文学科研究质量评估面临的机遇和局限:使用质量标准进行的研究评估提供了展现和评估人文研究的机会,而使用指标进行的定量评估则因其非常有限而不被学者们接受。与人文学者的质量概念相关的指标可用于支持和改善同行评议过程。
第一个观点涉及这样一个事实,即用于评估人文学科研究质量的方法起源于自然科学,它们并不能反映人文学者的研究过程和出版习惯。此外,有学者警告说,由于自然科学具有线性发展的概念,其评估程序也反映了对知识创造的线性理解。但是,人文学科以及许多社会科学的知识创造概念并非如此,而是依赖于“多元思想的共存”和“知识的扩展”。
其次,对研究质量进行量化受到质疑。一些人文学者质疑使用定量方式衡量研究质量。“问题不在于目前无法对研究质量做出判断,而是在哲学等学科中,这些标准仅仅是简单、机械或定量的表达。”但学者们不否认使用定量指标衡量研究质量的可能性,他们主要强调不能用这些指标衡量最重要的信息。
第三,指标可能会产生负面导向作用。例如,人文学者担心指标会带来保守效应:“总的来说,指标强化了传统的学术价值观和实践。但是在加强问责的同时,研究可能会倒退。”另一个经常被提及的负面影响是指标的引入会导致研究主题甚至学科多样性的匮乏。
第四个批评是关于范式和方法的异质性。如果对研究主题和方法的意义缺乏共识,那么学界就很难在区分研究“好”与“坏”的标准上达成共识。
人文学科的质量标准必须基于人文学者的研究观念,因此最好采用由内而外的方法来实现。理想情况下,质量标准应植根于学科甚至子学科,因为人文学科存在学科间和学科内的差异。此外,真正由内而外的方法会产生开放的结果,这意味着无论学者们如何定义质量标准,无论它与自然科学和生命科学中已知的标准有多么不同,它都将被接受。最后,由内而外的方法意味着自下而上的过程。一方面,质量标准不应该完全由政治利益相关者、大学管理者或该领域的一些专家以自上而下的方式决定;另一方面,这也意味着不仅教授有发言权,年轻研究人员的质量观念也必须被考虑在内。
我们开发了一种用于实现研究质量可操作化的衡量方法——CAI方法(标准、方面、指标)。它基于社会科学中常用的衡量方法,包括概念的分析定义和操作定义(见图1)。首先,必须分析需要定义的概念,即“质量”。每个质量标准都由一个或多个方面明确规定和定义。然后可以在操作层上定义这些方面:每个方面都与另一个指标相关联,这些指标指定了应如何观察、量化或衡量它。
无法被指标衡量的内容可能会导致研究评估产生意外影响,并引发学者对负面转向效应的恐惧。然而,即使清楚评估程序的指标确实衡量了什么,学者们仍然可能担心产生负面转向效应,因为评估所使用的标准可能与他们的质量概念不一致。因此,明确学者们的质量观念是非常重要的。质量的概念必须尽可能明确,并且必须考虑到人文学者的质量概念,以减少学者对负面转向效应的恐惧,甚至降低负面转向效应的可能性。
如果我们想制定被大多数学者接受的评估标准,那么必须采用一种在学科或子学科内达成共识的方法。我们可以考虑特定研究社区或学科中所有学者的观点。这确保了研究的多样性,有助于促进学界对标准的接受,同时也符合自下而上的方法。
本项目设计分为两个主要阶段:(1)探索阶段和(2)寻求共识阶段。由于人们对人文学科的研究质量到底是什么知之甚少,而且学者们对研究质量的认识通常是内藏于心的,因此有必要首先明确研究质量对人文学者意味着什么。项目遵循“采用由内而外的方法”(支柱一)和“明确质量概念”(支柱三),在探索阶段从头开始对质量概念进行调查,为此,我们对21位人文学者进行了网格访谈。
虽然可以基于访谈制定质量标准,但我们认为有必要对相关标准进行验证。为了“争取就质量标准达成共识” (支柱四),我们对大量人文学者进行了德尔菲调查。
因为网格访谈和德尔菲都比较耗时,因此我们专注于三个学科,其特点是常用的研究评估方法(即文献计量学和科学计量学)特别难以在这些学科上应用,包括:德国文学研究(GLS)、英国文学研究(ELS)和艺术史(AH)。
我们对来自巴塞尔大学和苏黎世大学的研究人员进行了21次访谈。表1展示了语料数据的分析结果,关于质量的概念是什么,在这三个学科之间有很多共同点,“创新”和“方法”在三个学科中排名都很靠前,“多样性”也是所有学科的重要话题。三个学科也存在一些差异,例如“合作”在 ELS 中被提及最多,在 AH 中被提及很少。AH的另一个特征是强调“科学严谨性”和“国际性”。GLS的特点是强调“职业导向”,这在其他两个学科中很少被提及。
访谈还揭示了学者们如何构建他们对研究质量的看法。结果表明,在所有学科中,学者们都对 “现代”和“传统”的研究概念进行了区分。“现代”研究的特点是国际性、跨学科、合作性和面向公众,而“传统”研究通常是学科性、个体化和自主性的。因此,跨学科、合作和公共导向并不能代表质量的指标,而是“现代”研究概念的指标。相应的,我们可以归纳四种类型的人文学科研究(见图2)。“创新”有两种形式:第一种与研究的“现代”概念相关,其特点是“小步”的创新,即基于新方法或当前知识;第二种与研究的“传统”概念相关,它是一种“突破性”的创新,前卫并会带来巨大的变化(例如范式转变)。
为了验证我们的质量标准,我们使用了德尔菲法。经过两轮的调查表明,我们需要广泛的质量标准来评估人文学科的研究质量。表2列出了人文学科研究质量的19条标准,反映了三个学科中人文学者的质量观念。
可见,对于某些方面和标准,学者们存在分歧。因此,为了“争取达成共识”,我们提炼出那些明确被大多数人认可的方面(即共识)。在GLS中,学者们就其中16个标准的36个方面达成共识,在AH中,学者们就其中13个标准的31个方面达成共识,在ELS中,学者们就其中13个标准的29个方面达成共识。所有标准均达到了可接受的平均分数。
这一事实表明,为了客观地评估人文学科的研究质量,必须考虑广泛的质量标准。本文所提出的标准中有10个是众所周知的(学术交流、原创/创新、生产力、严谨性、认可度、持续性/连贯性、对社区的关联和影响、与社会的关系和对社会的影响、与其他研究的联系、相关性),并且已经在评估程序中使用,还有9个鲜为人知(培养文化记忆、反思/批评、研究的多样性、对思想和人的开放、自我管理/独立、学术/博学、热情/激情、未来研究愿景、研究与教学的联系/教学的学术)。但是,如果我们对比一下达成共识的标准,会看到所有9个鲜为人知的标准至少在两个学科中达成共识,而一些经常使用的标准,即生产力、认可度、与社会的关系和影响以及相关性,仅在一个学科上达成共识,或者根本没有达成共识。因此,从人文学者的质量观念来看,目前的评价标准是否能客观体现人文学科的研究质量,还存在疑问。
在基于德尔菲法的调查过程中我们发现,学者们准备并愿意通过定义质量标准来探讨研究质量,但不愿意将质量具象到纯粹的定量措施上,即指标。因此,我们可以得出结论,人文学者更偏向于定性的研究评估方法。如果采用自下而上的方法,他们愿意讨论质量概念并根据这些质量概念合作制定质量标准。为了充分评估人文学科的研究质量,必须考虑范围广泛的质量标准。尽管学者们十分抗拒定量方法,但并没有完全拒绝它。但是,指标必须与学者的质量概念,即质量标准相关联。
在未能达成共识的方面,为什么有一些学者不接受相关指标而另一些学者赞同相关指标?本研究指出了两个尚未引起广泛关注的可能原因:首先,评估者与人文学者之间的质量标准和指标不匹配;其次,一些质量标准本质上是把双刃剑。
如果要对人文研究进行客观的评估,重要的是用好“传统”研究概念的指标。一方面,对“传统”研究概念的一些特征的衡量会对人文学科研究做出重要贡献,可能有助于促进人文学科特有质量观念的形成;另一方面,对研究质量的衡量可能永远无法捕捉到“传统”研究概念的本质,因为这种概念被个体研究者所掌握,他们通过独立进行学科研究促成范式的转变。
人文学科的研究评估是一个有争议的话题。大多数评估人文学科研究质量的举措都侧重于扩充数据库、建立新的排名或评级、将定量方法应用到社会影响力评估或用于研究人文研究成果的特殊性。我们提供了一种不同的方法,将人文学者的质量概念和指标与人文学科内部自下而上产生的质量标准联系起来。
虽然人文学者反对的纯粹基于指标的研究评估可能会持续存在,但基于质量概念的研究评估方法为其提供了改进的机会。如果采用自下而上的方法,人文学者积极参与质量标准的制定,使用范围广泛的质量标准,就可以充分对人文学科研究进行评估。另外,这也为基于质量标准的知情同行评议创造了机会,它可以使人文研究更加引人注目,并能充分评估人文研究,促进评估过程中不同利益相关者之间的沟通,并帮助年轻研究人员专注于质量标准。
(全文及参考文献见Research Assessment in the Humanities:Towards Criteria and Procedures第43-69页,原文链接:https://link.springer.com/chapter/10.1007/978-3-319-29016-4_3,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 宋欣雨 邓晨菲 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn/index.htm