摘要:人文社会科学评估一直饱受争议。本文旨在回顾人文社会科学研究评估的方法和路径,以及采取的相关行动。主要内容包括:(1)使用全面的学术成果数据进行评估,扩充指标来源;(2)走向更多定性和/或自下而上的评估;(3)以负责任的方式使用指标。
关键词:研究评估;人文社会科学;定性评价;定量评价;
当前欧洲存在多种评估模式。其中代表性的评估模式是基于国家信息系统(如Current Research Information Systems, CRIS)开展研究评估,这类系统收录了该国产出的全部学术成果。例如,挪威、芬兰、丹麦和比利时都建立了CRIS,以及巴西的Lattes平台。
在这类系统中,该国所有学术成果都被收录在内,而不是像国际数据库(如Web of Science或Scopus)那样只能收录人文社科(SSH)研究的部分成果,这是两类数据库的根本性区别。在其他没有建立国家数据库的国家中,研究人员向评估机构提交其简历进行评估,这就会发生两种情况:
最常见的一种情况是,评估机构更加看重被商业数据库WoS和Scopus收录的学术成果。众多研究表明,这些商业数据库存在收录偏见,增加了SSH评估的难度。这会使大量SSH的研究活动被低估,本土研究的重要性也被忽视。
另一种情况是,虽然没有CRIS支持,但评估机构采用更加多元化的方法来评估研究成果。例如使用多种来源的评价指标,除了WoS或Scopus之外,还使用其他数据库,如ERIH Plus(欧洲人文学科参考索引)、其他国际期刊分类或提供学术期刊特征信息的数据库、国家索引等。图书和学术期刊的排名、分类或质量标签几乎在所有评估中都会被使用。这些多样化的来源证明了使用量化指标的必要性,同时也表明,出版物的定量指标应始终与专家的定性标准结合使用。但是,在某些情况下,量化指标会使评估过程变得过于简化和自动化,导致学术成果的价值仅与期刊或出版商的排名挂钩。指标应支持而非取代专家判断。
CRIS的缺失会导致我们对学科领域的成果水平、国际合作、知识传播等方面了解不足,限制了在国家层面对不同学科交流模式进行数据统计的能力。但在某些国家,虽然缺乏国家级信息系统,但存在机构级信息系统。这些专为跟踪机构的学术成果而设计的系统、存储库或数据库,能够提供精确的信息,以便在特定情境下对大学或研究机构进行评估。没有CRIS的国家在国家层面的评估过程中,不同评审专家组可能或多或少会面临缺乏验证出版模式及其发展趋势的情况。此外,优先看重被国际数据库收录的学术成果,会使那些本土化研究的社会影响和学术影响被忽视。从这个角度而言,虽然国际出版物因为其关注国际主题而受到青睐,但我们也需要关注那些本土出版物,因为它们传播了与所在社区紧密相关的科学知识,同时有助于维持研究的主题、语言、方法论和意识形态的多样性。
我们需要认识到,SSH领域的学术成果有其独特性,并应从国际(而非仅仅国家)框架和比较视角来审视这些成果。此外,我们还需要创建一个数据库,涵盖欧洲SSH领域的所有出版物。这也正是欧洲人文社会科学研究评估网络COST行动的目标之一。COST行动目前正在与VIRTA项目合作,致力于在基础设施建设方面,实现不同国家学术成果数据的标准化和可互操作。其数据输入系统是去中心化的,来源于每个国家或机构。随着项目的发展和更多国家的参与,学界将能够创建一个庞大的学术成果数据库。这不仅有助于研究不同领域的出版动态、合作情况,还能为SSH评估提供统计信息。
SSH学者一直倡导对已发表的研究进行内容层面的评估,并对量化评估持有强烈的反对态度。但在调整评估模式时需要意识到,定性研究评估方案较少。英国REF2014就是其中一个例子,REF2014明确要求在SSH评估中不考虑出版渠道(期刊/出版商),而是以专家小组的意见作为主要评估标准。该方法由于耗时耗力,需要大量成本投入。这种评估方式也存在争议,因为仅基于专家意见的定性评估并非完美,学者间存在着思想流派、意识形态和方法论的差异。Ochsner等人指出,“SSH学者评价同行研究的方式与STEM学者大相径庭,他们评价研究的态度更为严苛,甚至对他们认为优秀的研究也不例外。”仅基于专家判断的评估事实上并不能保证评估的有效性,同时由于评估的成本和时间问题,许多评估模式采用了专家意见(定性)和指标(定量)相结合的方法。
鉴于SSH学者对定量指标的接受度不高,因此有必要区分指标之间的差异,明确其中一些指标的价值和实用性。并不是所有的文献计量指标都仅仅衡量成果数量或引用次数,它们只是在某些情况下被过度或不当使用,或者是因为计量对于SSH来说较为陌生,所以学者们对其持保留态度。尽管如此,计数指标仍然可以在一定程度上代表研究或出版物的不同质量等级。Ferrara等人的研究表明,专家观点与指标结果之间并不存在太大的差距。他们通过比较两种不同的学术期刊评估方法——一种基于定性判断,另一种基于定量计算,然后通过回归分析发现,两者的结果非常接近。这表明将定性标准转化为定量指标是可行的,同时含有这两类指标的工具能够有效应对超负荷的研究评估过程。
我们还需要根据评估目标来使用不同的评估模式及其指标来源。Sivertsen对那些以绩效为基础提供资助的国家评估系统进行了分类。在分类中,我们可以看到基于不同目标的评估系统如何使用专家评议或指标计量方法,以及在使用的指标类型上的差异。对评估目标和程序多样化的探讨表明,在研究评估中“一刀切”既不会产生积极作用也缺乏建设性。
当前关于评估过程的主流观点之一是,学术界必须参与到评估的过程或指标的设计中。自下而上的方法被视为改进评估过程的有效解决方案。因为它考虑到了SSH学者的研究和传播实践,能够使评估更贴近实际,评估结果也会有更高的先验接受度。之所以强调“先验”是因为即使是针对性的评估,也常遭到研究人员的质疑或反对。
一般而言,自下而上的评估方法意味着研究评估应在学术界的参与下,将定量指标和同行评议结合使用,例如“挪威模式”,或创建SPI(学术出版商指标)。挪威模式基于一个集合了国家全部学术成果的数据库,结合研究所在环境进行评估,能够识别不同领域的学术工作和出版模式。挪威模式依靠专家小组来验证出版渠道的质量并为其建立等级水平。SPI则基于学术界的评价而建立,该系统中的出版商声誉信息来源于读者和作者,他们是评估出版商出版质量的最佳群体。此外,SPI系统还提供关于出版商的专业化程度、稿件选择过程、元数据的使用等信息。
传统指标和新型指标均可为评估过程提供有价值的战略信息。当前,图书、丛书、国家期刊等学术出版物的评价工作正在取得新的进展,替代指标altmetrics正在为SSH评估开辟新的可能。然而,尽管评估的创新性有所提升,我们仍需要特别注意评估所使用的指标及其来源。
正如The Metric Tide报告所指出,负责任的指标意味着要基于可靠且透明的数据,这些数据能够反映研究及研究人员轨迹的多样性。此外,我们需要反思在评估过程中使用各种指标的后果,并认识到每个指标可能存在的局限性。特别是对于altmetrics,科学计量学界本身就应当采取预防措施,以避免犯下与传统指标同样的错误。
关于指标使用的另一个关键问题是,需要结合评估的目标,并区分不同的评估过程和研究的性质。简而言之,我们提倡以负责任的方式使用各种指标,充分满足要实现的评估目标,并承诺:以尽可能最佳的方式进行评估,以支持更优质的研究。
多样化或关注研究的多个维度是新型评估的关键特征之一:SSH以多种方式呈现其研究,而不仅限于单一类型的出版物。因此需要在评估过程中纳入多样的传播渠道和出版物类型。就此而言,成果的社会影响尤为重要。如何识别那些能够代表知识真正进步的成果,也是新型评估面临的一大挑战。
另一个重要结论是,指标应作为评估过程的支持或辅助工具,是专家判断的补充而非替代。SSH学者主张使用完整的数据来评估出版物,这意味着要考虑研究所产出的所有内容,而不仅仅是国际数据库中收录的内容。同时,在使用出版物指标作为评价辅助时需综合多种来源,不能完全依赖于国际和商业数据库。当前,许多国家已经针对期刊、出版商、丛书、图书制定了正式或非正式的清单、分类、排名和质量标签,以提升评估过程的合理性。
指标应能够代表一系列特征,以保证评估的稳健性,增强学术界的接受度。指标应由专家主导开发,同时让学术界和出版界参与进来,其制定方法应公开透明。作为负责任的指标的一部分,可以参照The Metric Tide报告中提及的理念,将其传达给研究评估者。
指标使用的“一刀切”会产生不良后果,但不应将指标的误用误解为指标本身缺乏价值。良好的指标可以并且能够为评估者提供帮助。
至关重要的是,在设计评估程序时,要明确评估的目标,充分考虑研究所在背景(如学科领域、每个国家的研究环境特征等)。评估方法应始终根据评估的目标而进行调整。个人的评估过程应与研究组织的评估过程相关联,并且应不同于以资源分配为目标的评估过程。此外,不同学科之间的研究评估也应有所不同。
综上所述,新的研究评估系统应具备信任感和透明度,这正是评估系统被学术界接受的关键要素。
(全文及参考文献见Revista Española de Documentación Científica 2018年第41卷第3期,原文链接:https://doi.org/10.3989/redc.2018.3.1552,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 邓晨菲 宋欣雨 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn