人文学科研究评估的未来——自下而上的评估过程-国家智能评价与治理实验基地

人文学科研究评估的未来——自下而上的评估过程

发布时间：2023-02-24 来源：复旦智能评价与治理，复旦新学术

摘要：人文社会科学（SSH）的研究评估很微妙，其过程常遭到SSH学者的强烈反对，且文献计量研究表明常用的方法不适用于SSH研究。一直以来关于SSH学科评估的研究都集中在现有评估方法的缺陷上。本文介绍了欧洲一些采用自下而上方法的举措，这些举措专注于SSH的研究实践，并反思如何使用自己的方法评估SSH研究，而不是采用和调整为自然科学和生命科学开发的评估方法。这是一个重要的进步，因为就以前的评估活动而言，每当学者们认为评估过程是以自上而下的方式实施且没有做出符合SSH研究的适当调整时，就会产生抵制。采用适当的评估方法不仅有助于学术界、政策制定者和自然科学界同仁更好地进行SSH研究评估，而且还将帮助社会进一步理解SSH对于解决重大社会问题所作的贡献。因此，鼓励自下而上的评估措施能够更好地应对现代社会面临的主要挑战。

引言

虽然在自然科学和生命科学的研究和传播实践方面有着超过100年的科学探索，但长时间以来，科学技术研究的文献计量学和社会研究忽视了SSH。

在过去的十年间，欧洲发起了许多项目来探索如何评估SSH研究实践。这些项目并非源于学科内部的自我调整或对学科质量地位的不满，相反，它们反映了如何通过与学科本身运行无关的，反而与自上而下决定相关的过程来评估研究。不幸的是，大多数自下而上的举措没有得到研究评估人员和决策者应有的关注。在本文中，我们概述了一些由有SSH背景的学者发起的、真正反映SSH研究实践的建议。

本文首先介绍的是SSH中的研究评估问题，如方法论问题和SSH学者对评估过程的批评。然后介绍了SSH学者在欧洲（主要是欧洲大陆）采取的几个自下而上的举措。这些举措在不同层面和不同范围内展开，从简单地改善SSH数据可用性和准确性，到涉及广泛质量标准和指标的复杂评估过程。有些举措发生在地方层面，有些则发生在国家层面。最后，我们为未来人文学科的研究评估提出了一些建议。

SSH中的研究评估

我们将从两个角度分析SSH的研究评估现状。首先从文献计量学家和科学计量学家的角度出发，关注他们对SSH研究方法的看法。其次梳理了SSH学者对这些方法的批评，这提示我们该如何设计适当的SSH研究评估方法。

2.1 SSH研究评估中的文献计量学和科学计量学

将文献计量学方法应用于SSH被证明是有缺陷的，并产生了一系列问题，因此即使是文献计量学家也认为文献计量学方法应慎用于SSH学科。我们将其原因总结为两个主要问题：覆盖范围问题和方法问题。

覆盖范围问题的出现有几个原因：首先，在SSH中，书籍和专著中的章节比期刊文章更常被出版，被引用的次数也更多。而文献计量分析数据库主要或完全基于学术期刊。其次，一些SSH学科具有明显的国家和地区导向。有学者指出：“由于社会不同，某一国家的人文或社会科学研究结果可能对其他国家的研究人员并不总是适用”。第三，SSH学者不仅为学术读者写作，也为普通大众写作。这种类型的文献通常不被纳入评估，也不被收录于文献计量分析的数据库。但非学术出版物是SSH研究及其社会影响的重要组成部分。

方法问题即SSH学科中的引用行为不同于其他学科。SSH学科中参考文献的年限往往很长。例如，Glänzel在他1996年的分析中指出，3年的引文窗口太短了。考虑到引文随时间的分布，几乎必须应用10年的引文窗口，导致用于评估目的的出版物集过时。Hicks还指出，SSH期刊通常更具跨学科性，这会导致方法问题，例如领域规范化。虽然以上不是对定量评估方法问题的全面分析，但它表明文献计量指标在人文学科研究评估中的应用确实存在一些问题。

2.2 SSH学者对定量研究评估的批判

如果研究评估过程想要被接受，其工具和方法应该有助于评估人文研究的数量和质量，而不是受到学术界拖延、拒绝或抵制，那么人文学者提出的批评就是重要参考对象。我们分析了SSH学者对定量研究评估的批评，并将其归纳为四个要点：

第一个要点与上一节相关，即那些定量评价方法是为自然科学和生命科学开发的，反映了自然科学和生命科学的研究实践，这不仅意味着评估实践中缺失前节提到的SSH传播实践（图书专著、不同语种、地域差异、非学术出版物），而且评估实践遵循自然科学对进步的线性理解，而非SSH学者的“相互竞争的思想共存”概念，即持续增长的知识库。这种多样化且不会消亡的知识概念并未反映在大多数评估实践中。

第二，SSH学者对量化持强烈保留态度。作为对澳大利亚卓越研究（ERA）期刊排名的回应，24位国际哲学家在致澳大利亚政府的联名信中指出：“问题不在于目前无法对研究质量做出判断，而在于在哲学这样的学科中，这些标准不能被简单、机械或定量地表达”。许多SSH学者担心艺术和人文学科的内在利益将因侧重于量化方法而被忽视甚至丧失。

第三，担心指标的负面导向作用。例如指标的主流化或保守作用，指标的引入可能导致研究主题或学科多样性的丧失。在自然科学中也越来越多地观察到指标的负转向效应。

第四，SSH的特点是研究主题、研究方法和研究范式的差异性。如果在研究问题、所用方法的适用性甚至学科和子学科的定义上没有达成共识，那么为研究评估寻找共同的质量标准将成为一项复杂的任务。就算可以找到标准，它们通常也是非正式的，涉及某一（子）学科但不易应用到其他子学科或评估情况中。

人文学科研究评估的

自下而上过程

尽管饱受文献计量学家、科学计量学家和SSH学者的争议，但SSH研究评估仍不断开展。通常研究评估过程以自上而下的方式实施。但有一些举措反映了SSH研究的特点，下文将重点关注来自SSH研究社区或至少由SSH学科的学者开发的计划。他们的方法真正考虑到了SSH研究实践，至少解决了上一节中提到的一个问题。虽然这些自下而上的举措更有可能被SSH学者接受，但其中一些仍然面临强烈反对。

3.1 改进数据库

一些国家在努力提高数据库覆盖率。也有人试图为欧洲创建一个全覆盖的书目/书目计量数据库，但它并未能成为在欧洲范围内展开的数据库或标准。与此同时，ERIH项目打算为SSH创建一个欧洲期刊列表，以克服主要文献计量数据库中SSH（欧洲）期刊代表性不足的问题，但该项目遭到强烈反对不得不进行改进，并以ERIHPlus的名义重新启动。

学界也会在学科层面尝试创建适合人文学科的出版物数据库。EERQI项目中包含了这样一个欧洲教育科学数据库，该数据库允许学者使用一种语言的关键字检索出版物，但能够检索出数据库中涵盖的所有四种语言的结果。因此，除了评估之外，集中和系统地覆盖SSH成果似乎具有多种潜在好处，例如方便学者的信息检索、扩大对多语言出版物的访问。

人们越来越意识到需要编译完整且可互操作的SSH学术成果和非学术成果数据库，以便准确了解这些非常多样化的人文学科。同时，创建此类数据库应与制定有关其使用的标准齐头并进，包括关于如何不使用它们的标准。

3.2 面向SSH的文献计量学和科学计量学方法

将文献计量学和科学计量学文献计量分析应用于SSH学科会面临许多问题。Hammarfelt观察到从研究覆盖问题，到研究SSH出版实践的特征和开发对SSH研究领域敏感的文献计量方法的转变。这包括但不限于将文献计量分析扩展到相对较新的Book Citation Index、使用其他数据库如Google Scholar或来自社交媒体的数据（即所谓的altmetrics）、分析图书馆目录、探索覆盖全面的国家数据库、将数据扩展到研究资助提案中的参考文献或书评。从更务实的角度来看，学界试图“权衡”各种输出。

虽然大部分研究是由文献计量学家和科学计量学家完成的，但SSH学者仍在调查他们学科的研究实践，例如引用实践、数据库的影响、文献计量指标与研究实践的关系。此外，SSH学者进行了更多的方法分析，例如研究评估过程的评价者可靠性、文献计量方法和同行评议方法之间的相关性。Hammarfelt要求建立“人文学科的文献计量学”，而Zuccal进一步要求文献计量学家向文科学生教授文献计量学，以便“能够成功地出现新一代人文文献计量学家”。

综观SSH中文献计量学和科学计量学的现状，文献计量学方法不能随意用于SSH研究评估，但是适应SSH的文献计量学有助于研究一些对SSH很重要的实践。一些定量指标如果是自下而上定义的，即从学科内部定义，也可用于补充同行评议。

3.3 SSH研究资助

第三方资助意味着事前研究评估。大多数事前评估都是基于同行评议，但也有许多评估基于文献计量数据。STEM和SSH学科之间的资助分配存在巨大差异：

一是源于对STEM和SSH研究实践的认识不同。只有少数SSH学者需要昂贵的仪器来进行实验，大多数SSH学者需要的是电脑、获取档案、差旅费和研究时间。因此，在大多数SSH学科中，第三方资助在很长一段时间内都没有发挥作用，而且资助金额通常相对较低。

其次，SSH学者认可同行研究成果的方式与STEM研究人员大不相同。SSH学者的批评要多得多，他们甚至批评他们认为优秀的作品，“批评”被认为是“欣赏”的证明。由于SSH学者总是批评他们同事的工作，SSH学者经常在跨学科资助计划中受到歧视。

第三，在STEM学科中，范式问题通常在内部存在争议，而在外部存在连贯性。然而，SSH学科允许其领域内部的多样性。当然，这源于对学术工作的不同理解——STEM学科的“线性进步”与SSH学科“持续增长的知识库”，但这也是缺乏组织的结果，这导致了SSH学科进一步的边缘化。

与此同时，一些资助者并未吸引到来自SSH学科的很多提案，也许是因为过去的经验显示提案有可能会被拒绝。因此， Stiftung等创建了一个面向人文学者需求的资助计划，名为“关注人文”。此外，大众汽车基金会（Volkswagen Stiftung）制定了一份关于如何识别人文学科知识质量的指导方针，这些指导方针是在与知名学者和年轻学者的研讨会上自下而上收集的。

3.4 SSH的研究实践和研究质量标准

要评估研究，首先应明确什么是“好”研究，因为任何评估都会指明“高质量”研究或试图判断哪些研究“更好”。然而，学界对研究质量的实际含义知之甚少，尤其是在SSH中。关于研究评估的文献常回避这个话题，而现有的研究评估工具和过程并不包括对研究质量的明确理解。因此，如果要对SSH研究进行适当的评估，就必须了解这些学科中研究质量的实际含义，且评估过程必须与被评估学者对研究质量的认识相关。

近百年来，学者们详细分析了STEM学科，尤其是自然科学的研究实践；然而，直到最近，新兴的科学社会研究领域都忽视了SSH学科。目前文献是这样描述SSH研究的特点的：①SSH研究是说明性的，即人文研究主要是文本和理论驱动，社会科学更多是概念驱动，而自然科学是为了回答具体问题并以进步为导向；②具有反思性，并通过促进话语争论和竞争愿景，在学术界引入新观点。对社会而言，他们培育了作为民主先决条件的批判性思维，或对现代趋势（如技术化）的批判性审查做出贡献；③主要是个人的；④生产力对于SSH的评估并不那么重要；⑤社会导向很重要，即研究旨在影响社会，与社会的直接互动是SSH研究的一部分；但是⑥社会或学术界以外的其他利益相关者（例如外部资助）对SSH研究的影响常是负面评价。在评估SSH研究时必须考虑这些特征。

相应的，SSH学者有几个自下而上的项目来分析如何在SSH学科中评估质量。欧洲教育研究质量指标（EERQI）项目始于对当前教育研究的评估实践的不满，该项目从2008年持续到2011年，旨在开发一套工具（不是排名或评级或单一指标）来检测研究质量。该项目区分了外在质量指标，即非文本固有的质量指标（如引用次数、网络计量学、作者身份）和内在质量指标，即文本固有的指标。这套工具的一部分是同行评议问卷，其中包括教育研究的五个内在质量标准：严谨、原创、重要、风格和完整，该标准是与该领域的专家合作制定的。该项目还包括一个探索性的自然语言处理系统，用于突出文章中最重要的句子。该工具背后的想法是通过将他们的注意力引导到文章最重要的部分来帮助审稿人判断文章的质量。使用该工具进行的测试表明，STEM学科中的文本遵循清晰的结构并显示出自动突出显示的巨大潜力，但SSH学科中的文章不遵循这种标准结构。

同样针对教育研究，Oancea等制定了研究评估标准。他们认为教育研究以实践为基础，并指出此类研究不仅限于科学性（即普遍发现甚至规律的发现）、影响力或经济效率，还包括方法论贡献和理论严谨性、道德和个人成长等。他们认为，基于实践的研究评估必须应对研究与实践的纠葛。他们得出了结论，研究评估需要重新整合在当前研究评估话语体系中丢失的文化和哲学维度。

Guetzkow等选择了一种更具描述性的方法。他们分析了来自多学科课题资助竞争的同行评议小组成员的采访，发现原创性是最常被提及的标准。因此，他们专注于分析独创性，并发现不同学科对独创性的定义不同：人文学者经常提到数据和方法的独创性，而社会科学家则强调方法的独创性。然而，除了原创性之外，还有其他重要标准，例如清晰度、社会相关性、跨学科性、可行性、重要性。这些标准不一定是判断研究质量的标准，而是资助的建议。

一个名为“制定和测试人文研究质量标准”的项目采用了严格的自下而上方法，开发了用于探索和发展SSH研究质量标准的框架。它由四大支柱组成：采用由内而外的方法（代表学术界和年轻学者、学科特定标准）；应用合理的衡量方法（将指标与学者的质量标准联系起来）；明确质量概念（从学者对研究质量的隐性认识中得出标准、标准的透明性）；争取达成共识（用于研究评估的方法和标准必须被群体接受）。

在对法律研究的研究评估进行广泛调查的背景下，Lienhard等人提出了法律研究的质量标准，并用法律研究中的学科特定标准对其进行了补充。作为一门与专业密切相关的学科，作者也将专业人士（律师）纳入分析，发现教授和律师在质量标准偏好上存在差异，例如教授比律师更强调独创性、反身性和理论可靠性，而清晰的语言和正确性对律师来说更为重要。除了区分不同利益相关者（例如教授、律师或资助者）的评估外，他们还区分不同的评估情况，例如研究评估、论文和资格评估或学术期刊评价。

在法国，MSHB支持了两个与人文学科研究评估相关的自下而上的项目。第一个项目是IMPRESHS，旨在调查来自不同SSH学科的布列塔尼学者所进行的研究的传播实践和影响路径。通过焦点小组访谈和对简历的全面分析，该项目试图确定在学术界以外具有潜在影响的出版物，以及SSH研究人员的非学术利益相关者。该项目的目标是了解SSH学者与利益相关者建立了什么样的关系，以及在法国发现共同创造知识的实践的程度。第二个项目QualiSHS研究了AERES生成的评估报告如何反映质量的学科表征。研究者使用语料库语言学的方法和工具，对2010-2011年关于法国两个地区（布列塔尼和罗纳-阿尔卑斯）的所有历史和法律研究单位的所有评估报告进行了仔细审查，以了解同行专家如何评估产出的质量。研究同时开展了采访加以论证。但来自两个调查领域的专家对质量的看法存在分歧——这一发现与其他研究指出的SSH学科在研究质量概念化方面的多样性一致——而报告似乎没有充分回应这些细节。因此，毫不足怪，法国SSH学者认为AERES进行的评估总体上不令人满意，并呼吁对此进行彻底修改。

3.5 国家层面研究评估实践与SSH

有几个国家层面的项目从自下而上的角度对SSH进行评估，或者设计模型以反映SSH的特性：

“挪威模式”在过去几年引起了相当大的关注，并且在多个国家（比利时-佛兰德斯、丹麦、芬兰和葡萄牙）推行。挪威模式是一种基于绩效的资助模式，它“平等和适当地代表所有研究领域”。该模型的设计是一种“简单的务实妥协”：一个文献计量指标全面涵盖所有研究领域，而非个别学科出版实践的几个代表。它由三部分组成：一个国家数据库，完全涵盖所有学科的同行评议学术成果；一个简单的出版指标，用于划分1级和2级出版物；基于绩效的资助模型，根据指标结果重新分配一小部分年度资助。该系统受到很多SSH学者的关注。最初的反响是负面的，因为它将学术成果转化为衡量标准，而且该系统的设计并未涵盖所有学术活动。但对该系统的评估表明，学者对该系统没有重大不满。

在荷兰，2005年，皇家艺术与科学学院在一份名为《评价研究的功过》的报告中批评了自然科学和生命科学的评价方法在荷兰评估实践中的主导地位，并要求给出评估SSH学科的具体方法。2009年，国家人文学科未来计划委员会表示，现有的评估工具不足以判断人文学科研究的质量，并建议学院制定一个简单、明确和有效的人文学科指标体系。因此，学院设立了人文学科质量指标委员会，其报告于2011年发表。委员会将人文学科的研究评估情况总结如下：一些政策制定者希望用简单和纯粹的计量系统比较研究团队甚至学科之间的研究质量，另一方面，人文学科普遍反对“计量”研究质量和管理工具。因此，委员会提出了一个中间解决方案，支持将同行评议过程应用于SSH研究评估。同行评议员从两个维度评估研究，即学术产出和社会质量，每个维度都包含三个标准，即学术/社会出版物或成果、学术/社会对成果的使用、学术/社会认可的证据。这些标准中的每一个都可以通过一些定量指标来衡量，以辅助同行决策。

德国科学与人文委员会（Wissenschaftsrat）于2004年针对大学排名的现象，批评其方法和有效性并提出相关建议。它建立了一项全面的试点研究，以制定和测试化学学科和社会学学科的国家研究等级。社会学的研究评级结果很好，但也遭到了批评，特别是小组全体讨论的不透明性影响了同行判断的独立性。2008年，Wissenschaftsrat在历史学科进行试点研究以改进评级过程。然而，对历史的评级最终以德国历史学家协会的抵制告终。Mair认为，历史学家的抵制主要是由于Wissenschaftsrat沟通不畅，最终形成了自上而下强加的评估。为了使自下而上的意图更加明确，Wissenschaftsrat创建了一个工作组来改良评级过程从而适应人文研究的特点。2012年，Wissenschaftsrat进行了人文学科的试点研究。虽然仍然反对量化式的评级，但英美研究协会决定参加这项活动。Wissenschaftsrat认为此次活动表明这种评级在人文学科中是可行的；参与实验的人文学科学学者承认Wissenschaftsrat为使评级过程适应人文学科所做的努力，但也指出了其消极影响。

在瑞士，瑞士大学校长会议（CRUS，自2016年1月1日起称为swissuniversities）于2008年发布了一份名为《大学质量的瑞士之路》的研究评估文件，其中包括质量监控的十项建议。据CRUS称，每所瑞士大学都有自己的专业。因此，评级必须适应每所大学的情况。国家层面的评估程序没有多大意义，相反，每个大学都应该建立自己的质量保证体系。相应的，CRUS启动了一个名为“Mesurer les performances de la recherche”的项目，该项目专注于SSH研究的多样性，特别关注学科间的差异和特殊性。与此同时，瑞士人文社会科学院（SAGW）启动了一项自下而上的评估建议，对SSH学科的研究评估进行反思。在“人文学科的新文化”学术会议之后，SAGW发布了一份关于人文学科新发展的文件，包括评估实践的建议，强调了自下而上定义质量标准和方法的重要性。

3.5 欧洲层面自下而上的举措

在大学或国家层面应用的不同评估过程、ERC资助计划中对SSH研究的首先排斥、以及Horizon 2020计划中对SSH的严重削减，使SSH学者对研究评估主题产生了更高的兴趣。正如以上部分所示，对SSH的评估研究有所增加。更重要的是，SSH学者与关注SSH研究评估状况的科学计量学家（通常是SSH学者本身）在一个名为EvalHum initiative的欧洲协会中合作。EvalHum旨在激励和支持SSH自下而上的研究评估工作，并鼓励SSH研究评估的实践，以确保对各个学科展开适当的评估程序。

目前，一项名为“人文社科研究评估网络（ENRESSH）”的COST行动汇集了来自30个欧洲国家的SSH学者，共同改进SSH的评估过程。该行动背后的想法是“价值评估”，因为采用不适用的方法会导致SSH研究被低估。该行动的参与者共享有关SSH研究的数据，撰写了合著的出版物、政策简报、最佳实践合集，并最终形成了SSH研究评估指南。ENRESSH还寻求让不同的利益相关者在评估原则和过程中拥有发言权。该行动由4个工作组组成。工作组1侧重于SSH研究评估的概念框架，并研究SSH的知识生产过程和策略，工作组2是关于SSH研究的社会影响，工作组3关注数据库和数据的使用，工作组4负责行动结果的传播。

人文学科研究评估

的未来

虽然长久以来关于SSH评估的研究都集中在现有评估方法（例如文献计量学和科学计量学）的局限之处，但现在有很多采用自下而上的方法，侧重于SSH中的研究实践，并反思如何用自己的方法对SSH进行研究评估。这是一个重要的进步，因为我们可以从上文示例中了解到，每当学者们认为评估过程是自上而下强加的，且没有根据SSH研究进行适当调整时，就会产生抵制或反抗。

本文中介绍的项目进一步表明，如果评估过程充分考虑了SSH研究实践，学者们便愿意合作，例如，所有相关文献类型的全覆盖数据库对学术工作很有价值，并且会增加人文研究成果的可见度。虽然一些国家在数据库建设方面存在一定程度的趋同，但实现互操作性的条件尚未被讨论。还须注意，大学履行着不同的使命，国家面临着不同的挑战，研究评估的标准和过程应符合大学使命和评估的具体目标。

因此，人文学科研究评估的未来在于基于各自学科研究实践的自下而上的过程。本文介绍的项目表明，学界需要对人文学科的研究实践进行更多研究，而这样的研究才刚刚开始。学界要遵循自下而上的方法，需要更多关于研究如何进行和传播以及包括SSH研究人员本身在内的不同利益相关者如何使用研究的知识。

综上所述，我们提出以下人文学科研究评估建议：

（1）首选的评估方法是同行评议。但同行评议也存在一些缺点如主体间性差和可靠性低，可以采取科学和制度措施来弱化这些缺点，例如采用公平的评估过程，使被评估的学者有机会对过程和结果发表评论。

（2）必须考虑广泛范围的质量标准。质量标准必须自下而上制定，并反映被评估学者的质量概念，因为只有他们才能判断该学科的质量实际上是什么。

（3）可以将学者们达成共识的质量标准确定为指标。

（4）根据学者们达成共识的质量标准和指标，制定评估表。

（5）考虑其他利益相关者的质量评估标准。

（6）同行们必须对每一项标准单独打分，因为整体判断通常是不一致的，根据特定的标准单独判断则显示出更可靠的结果。

（7）不应发布具有总体衡量标准的排名或评级，而应该提供每一项标准的结果。如果产生总体评级，则加权过程必须透明。

我们这个时代，许多重要问题本质上都是全球性的，社会对用技术提供解决方案寄予厚望。因此，SSH特别是人文学科，不在公众讨论的焦点范围内。特别是SSH学科提出的关键议题在政治议程上并不重要。然而，如果没有SSH学科的知识，社会就无法充分解决复杂的全球性问题，例如全球变暖、移民危机、老龄化或HIV。

SSH学者不应对所有评估不屑一顾。相反，SSH学科应该向前迈进，加强自信并公开质疑老生常谈或盲目的技术信仰，并提出替代方案。本文介绍了SSH学者将研究评估掌握在自己手中的许多自下而上的行动，这些自下而上的过程将促进对SSH研究的更充分评估，对SSH研究的充分评估也将有助于社会更加了解SSH的贡献。所以，花时间来鼓励自下而上的评估举措有助于更好地解决现代社会的问题。

（全文及参考文献见Palgrave Communications，2017年第3期，原文链接：https://www.nature.com/articles/palcomms201720，本期推文为节选摘编，略有删减和编辑）

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 邓晨菲宋欣雨王译晗

本期编辑 | 学术君001号

基地官网：http://statevalbase.fudan.edu.cn/main.htm

• end •

人文社会科学研究质量与社会影响创造与评价的创新策略