人文社科研究影响力的评估方法概述-国家智能评价与治理实验基地

人文社科研究影响力的评估方法概述

发布时间：2023-09-15 编辑：王译晗 来源：复旦智能评价与治理，复旦新学术

摘要：本文通过全面调研国内外现有文献，系统审视人文社会科学(SSH)领域的社会影响力，回顾用于评估研究影响力的主要方法并对其进行比较。研究发现，研究影响力是一个极其复杂且具争议的概念，研究人员、大学和资助机构在开发具有特定目的的影响力评估工具方面有着相当大的施展空间，在开发时要避免使用过于笼统的指标和过于通用的标准。

引言

近年来，“研究影响力”引起广泛关注，并已融入研究政策、资助决策和评估制度中。本文梳理了评估SSH研究广泛影响力的现有方法。综述发现，不同的资助机构、政策制定者和研究组织在评估时采用了不同模型和方法。影响力在不同机构、地区和研究文化之间未有统一含义，公共研究机构展现其社会效益的模式并不只是线性的。

评估影响力的多种方法反映了社会汲取研究的复杂方式。评估SSH影响力十分具有挑战性，研究在现实环境中的汲取、利用和再利用的复杂方式意味着将研究过程或产出与更广泛的社会变化联系起来是困难的，时间窗口也是难以预测的。因此，本文旨在全面概述目前在SSH影响力评估中所使用的各种方法，帮助研究机构、科研人员和政策制定者更深入地了解SSH影响力的复合性。本文首先介绍SSH影响力的评估工具和方法，然后进行比较分析，考察不同方法和工具的优劣，最后讨论SSH领域研究影响力评估的未来趋势。

评估SSH社会影响力的途径和工具

2.1 研究卓越框架(REF)

英国REF是一个国家层面的评估体系，旨在指导与研究质量相关的资助分配。REF由英格兰高等教育资助委员会负责实施，将研究影响力定义为“对学术界以外的经济、社会、文化、公共政策或服务、健康、环境或生活质量的影响、改变或益处”。对影响力的评估采用同行评议方法，在36个以学科为基础的评估单元(UOA)中进行。在REF2021中，研究根据三个加权维度进行评估，包括研究产出(60%)、影响(25%)和研究环境(15%)。

2.2 标准评估协议(SEP)

荷兰SEP旨在展现和评估研究的质量和相关性，并在必要时提出改进意见。SEP由评估委员会基于研究单元每6年进行一次，评估过程透明独立。SEP包含了大量的学术质量和社会相关指标，从SSH的角度来看，它强调与教学和培训相关的指标，这些指标对学术界和社会都做出了重要的科学贡献，但容易被忽视。

2.3 IMPACT-EV

IMPACT-EV旨在将定量指标与定性分析相结合，开发一个新的可持续系统，用于监测、筛选和评估影响力。IMPACT-EV区分了研究的学术、政治和社会影响力，以及对ERA(欧洲研究领域)的影响力。IMPACT-EV由欧洲委员会资助，旨在评估由委员会资助的跨国研究项目的影响力，试图创造一个多维度的SSH研究描述，弥补了用纯计量方法评估影响力的不足。

2.4 HERG回报框架(HPB)

这是一个以问题导向和政策驱动为特点的模型，具有对知识转移和影响力的线性表达，关注研究的成果、效益和回报。它最初侧重于健康科学，是最早将学术成果和社会影响力作为评估标准的模型之一，也是跨学科领域中使用最广泛的评估模型之一。该模型已进行了调整，以通过未来的工作计划评估社会科学研究，从而判断研究人员如何向政策制定者提供信息。该模型已被应用于剑桥大学艺术与人文科学研究评估中，并在应用过程中添加了附加维度，例如研究对教学、政策和实践的影响。但SSH研究涉及复杂的互动变量和因素，这些因素使研究输入与输出之间的直接关系变得复杂，SSH研究往往不会以这种简单、线性的方式进行。

2.5 知识、专长和影响力的流动模型

这是一个重点关注研究影响力实际产生过程的交互式评估模型。这些过程被表示为研究人员和用户之间的非线性互动和联系。该模型划分了工具性和概念性两种影响力类型。工具性影响力是指研究旨在解决特定问题或做出决策；概念性影响力则是一种更广泛的影响力观念，涵盖研究在影响和塑造政策制定者和从业人员的知识、理解和态度等方面，复杂且常为间接方式。

2.6 SIAMPI

SIAMPI通过富有成效的互动(productive interactions)进行研究和资助工具的社会影响力评估。该模型围绕对社会影响力的非线性理解而建立，是学界内外参与者之间共同努力的结果。研究通常只是复杂的社会和政治过程中的一个组成部分，难以在这些过程中直接发现效果。SSH项目通常具有非正式和分散的特征，并展示社会参与者的独特活动和接触范围，因此SIAMPI对于SSH领域的项目具有较高的适用性。

2.7 研究贡献框架(RCF)

RCF最初用于评估公共部门的规划变革，认为有多个相互关联的因素对行为和变化产生影响，现在被用于帮助管理人员、研究人员和政策制定者跟踪研究项目的贡献和成果。RCF是一种以过程为导向的方法，旨在捕捉在影响力创造的不同阶段中研究的吸收和使用情况。基于“变革理论”，该模型从研究计划的使命、背景因素、价值假设和变革过程中涉及的风险等因素来审查影响力路径。

2.8 贡献映射(CM)

在CM中，研究被表示为一个由人和技术构成的复杂且不稳定的网络生态系统。CM并不是关注研究的最终影响力，而是关注研究过程中不同参与者的活动和协调努力。CM是一种预测性的跟踪方法，涉及广泛的利益相关者，它通过对与研究项目相关的研究人员和其他参与者进行访谈，追踪影响力的路径。

2.9 联系与交流框架(LE)

LE强调研究人员与社会参与者和机构之间的个人联系和互动，旨在促进研究在特定环境中的采纳，同时鼓励对社会利益相关者有用的研究。其内容囊括了不同形式的影响力，其范围涵盖广泛，包括从试图将研究转化和传播给外部合作伙伴，到确定研究将如何影响选择和决策，再到最终产生社会应用。

2.10 RAPID成果映射方法(ROMA)

ROMA是一种用于规划国际发展工作并衡量其结果的框架，包括理论研究、案例研究和实际实施。该框架以结果为导向，旨在记录用户、受益者和消费者态度和行为的渐进性变化。通过纳入外部合作伙伴和利益相关者，着重于追踪特定政策的变化，以确定影响力产生的贡献因素。

2.11 其他概念框架

除了实证评估模型，一些研究还开发了几个概念框架，包含了对影响力评估的重要思考。如启蒙模型(enlightenment mode)用于描述艺术领域的影响力，批评了对影响力的简单和工具化理解。Carol Weiss提出，应该将影响力理解为“洞察→理论→概念→观点”的沉淀过程。英国艺术和人文研究委员会制定了一套全面的指南，指出影响力往往是在由研究机构无法控制的环境里产生的。

总之，上述模型从政策倡议(HERG)、资助决策(REF、SEP)延伸到了致力于更好地理解知识转化和实施过程的学术倡议和研究项目(SIAMP、IMPACT-EV、RCF和CM)。第3节将详细描述不同工具的主要方法论组成。

SSH研究影响力评估方法

研究表明，不同工具侧重于考察影响力的不同方面。图2展示了各种影响力评估方法在文献语料库中提及的频次占比。图3展示了不同的方法在上述影响力评估工具中的组成情况。

2DD68

329D5

3.1 访谈

42%(120篇)的文献提到访谈。访谈通常涉及非学术合作伙伴和最终用户，也可能包含产生影响力的研究人员。访谈通常被认为是最有用的信息来源之一，可以使被访者反思创造影响力的关键条件，访谈者可以根据被访者的回答做出反应、发出问题。访谈的时间安排(研究开始、进行中、结束后)对于访谈结果的可靠性和范围至关重要。受访者的选择存在一定困难，可能需要培训访谈者以确保数据的质量。此外，转录、分析和比较数据较为耗时。

3.2 案例研究(叙事方法)

案例研究被提到了119次(42%)，该方法可以处理高度复杂的问题，并提供研究在现实世界中被使用、接受和产生影响力的特定路径的描述。但该方法因缺乏客观性而受到质疑，因为它很难对不同的案例研究进行比较和排名，也存在优先考虑最近的研究(即在最后的评估周期内产生的研究)的弊端。另一个观点是，并非所有类型的研究都能够为特定影响力提供清晰和明确的证据，且该方法对于研究人员和评估员来说非常耗时。

3.3 调查

40%的文献提到了调查，调查在收集不同变量的数据方面非常有用，例如动机、感知的障碍和促进因素，以及研究人员与社会之间的多样参与。调查允许随时间进行绩效的比较分析，以及在整个研究过程中进行比较分析。但也有局限性：它在很大程度上是基于评估单位的视角而不是基于观察到的变化和实际效果进行评估。因此，调查通常需要结合其他类型的方法来验证证据，例如定性访谈、焦点小组或研讨会。

3.4 同行/专家评议

36%的文献提到了同行或专家评议，其中包括对期刊稿件、资助申请、招聘和晋升的审查，被认为是学术领域质量评估的最重要方法之一。质量指标一般包括产出指标(例如出版物或计量指标)或声誉指标(例如奖项、学术职位和其他认可证据)。同行评议是一种灵活且广为接受的研究评估方法，可以在研究过程的各个阶段实施。但同行可能倾向于奖励在领域内已受高度认可的学者的工作，从而导致马太效应。该方法也因涉及大量专家而耗时且不实用。评议要求专家对该主题具有深入的了解和充足的研究背景，然而这些条件或难以达到。

3.5 统计数据库

35%(99篇)的文献提到统计数据库，它可以提供来自不同科学领域的数据和信息，可以跟踪研究单位的发展情况，并可以将行政数据和统计记录数据结合起来以进行比较。但这可能会对科学家和其他利益相关方获取数据产生阻碍。数据库可能不够充分，需要持续维护、记录和验证。仅从统计数据库中查找具体项目并从中得出影响力可能很困难，尤其对于非正式的参与来说。

3.6 商业化数据

29%(83篇)的文献提及对不同形式的商业化数据的引用。商业化数据属于定量评估，并常与计量学结合使用，常用的指标包括专利、许可、联合研发、合作研究、行业资助等。通过商业化数据可以识别研究人员与社会之间的合作关系。但是，我们往往很难对不同类型商业数据的影响力进行比较，尤其是在跨学科背景下。此外，在SSH中，影响关系是通过各种(非商业)渠道建立的，如政策报告、利益相关者会议、公开讲座或为社会受众撰写的书籍，因此，商业影响力因其局限性存在大量质疑。

3.7 文献计量学

24%(69篇)的文献提到了文献计量方法，该方法侧重于评估研究的学术影响力(以出版物、引用、共同作者等衡量)，而不是社会影响力。文献计量代表了一种被广泛接受的统计方法，用于对科研表现进行评估和排名，主要以个体作者为分析单位。可能有助于保证研究评估过程的客观性和透明度，提供关于特定研究领域如何随时间推移相互关联、增长或衰退的有用信息。然而，文献计量指标仅涵盖了研究人员之间书面交流的一小部分，没有显示出与更广泛的社会进行接触的证据，不能捕获面向学术界以外更广泛受众的研究活动。

3.8 影响力计划理论的变革与逻辑模型

17%的文献提到了该模型，它可以描述对社会产生影响的背景、活动和成果，还可以前瞻性地用来解释项目预计如何带来预期的结果，对于确定项目的预期贡献非常有用。通过在项目的整个生命周期中审视不同的因素和假设如何影响研究在社会中的吸收，帮助研究人员和相关合作者在整个研究过程中跟踪项目成果。但是，对于高度创新和极具探索性的项目，可能很难在规划阶段确定预期的变化。

3.9 研讨会和焦点小组

17%的文献提到了研讨会和焦点小组，该方法可以描述为一种有组织的讨论形式，涉及研究人员、合作伙伴和其他利益相关者，应用于评估和研究过程的不同阶段，是考察研究项目影响力的相对经济有效的方法。不利的是，焦点小组的参与者可能无法描述研究项目所有的积极或消极影响力。参与者偏好于呈现积极的结果，在考虑潜在影响和风险时可能会选择性失忆。

3.10 利益相关者/用户评价

16%(44篇)的文献提到了利益相关者评估。利益相关者在组织、实施和评估研究中发挥着不可或缺的作用。让利益相关者参与整个研究过程有助于共同制定评估指标。利益相关者还可以成为了解研究如何被接受和使用的信息提供者。调查、访谈、研讨会和焦点小组等方法有助于深入了解合作伙伴，并有助于提高研究人员和利益相关者之间的认识、理解和沟通。然而，也会存在合作伙伴可能过多参与研究的风险，从而有损研究单位的诚信和学术自由。

3.11 影响力存储库

15%(43篇)的文献提及存储库和数据库。这是新兴开放科学议程的一部分，其中学界和政策参与者致力于开放研究以进行合作和知识共享。存储库中可以找到与特定研究项目相关的个人(学界内的同行和学界外的合作者)，还可以用于共享研究成果和数据，以促进研究跨项目和领域的传播。存储库的缺点主要在于它们需要研究人员投入时间来查找和总结研究的影响力和途径。数据的共享和使用还存在道德风险，例如敏感信息保护等。

3.12 Altmetrics

15%(43篇)的文献提到了用于评估影响力的替代指标或方法——Altmetrics，旨在通过社交媒体和数字平台跟踪研究的交流和共享，覆盖更广泛成果。Altmetrics可以通过传统文献计量学之外的引文、下载、点击、推文、分享、点赞、书签和评论等来源收集不同形式的数据来评估。其主要优势是能够获取大量数据，可以对广泛的传播工作以及数字领域学术交流的影响力进行量化。但不同学科之间，甚至不同研究主题和相同主题之间的数据不容易进行比较(标准化问题)。同时，Altmetrics难以获取不同类型社交媒体中的精确用户统计数据或样本。此外，并非所有引用内容都能代表实际使用。

3.13 影响力跟踪和活动记录

14%(39篇)的文献中提及流程跟踪，它可以从最初的研究向后推至研究用途、结果和影响力，或者从确定的结果向前推至具体的研究举措和产出。它基于多种来源追踪投资回报，使得揭示特定成果或影响力“如何”以及“为何”成功成为可能。主要缺点是回溯往往依赖于对相关文档的访问，很难将结果“归因”于特定研究——尤其在间接影响方面，很难系统地描述在项目期间甚至项目结束时实现影响力的方法。

3.14 文件审查和分析

10%(28篇)的文献提到文件分析，涵盖了对书籍、政策报告、白皮书、灰色文献等现有文档的审查和分析。文件审查可以与文本计算分析(例如文本挖掘、主题模型、语义文本分析等) 或传统编码策略(例如分类编码、主题合并等)相结合进行定性/定量使用。但在很大程度上取决于现有成果的质量以及系统查找和收集它们的能力，并且很少涉及研究的非书面成果。此外，通常需要广泛的专业知识和时间来学习需要用到的分析方法。

3.15 田野调查

5%(13篇)的文献提到了田野调查，它可以让评估人员有机会实地观察研究，并与主要研究人员和其他工作人员讨论他们的经验、计划和策略，产生有价值的见解。然而，定性数据的可靠性可能会不稳定，因此该方法面临与其他定性方法(例如研讨会和访谈)相同的问题。

主要趋势

4.1 从线性评估到多动态和周期性评估

大多文献描述了研究如何“嵌入社会网络”，过程是“动态和复杂的”，涉及“研究、政策和实践之间的多向过程”。社会影响力不是在社会或文化中凭空发生的，而是在相互作用的行动者、利益、价值观和机构网络中实现的。研究过程通常更像是一个复杂的知识生态系统，而不能用简单的线性关系表述。

4.2 从单一方法到混合方法

定量方法(如引用分析和商业化数据)和定性方法(如案例研究、访谈和田野调查)应进行组合使用。不同方法各有优劣，我们发现没有适用于衡量和评估影响力的统一模型，方法策略的选择需要根据具体目标进行调整。

4.3 纳入事前、事中和事后评估

本文介绍的方法不仅仅是在研究完成后(事后)衡量影响力，还涉及跟踪研究过程中(事中)的产出和活动，甚至涉及研究开始之前(事前)的规划阶段。影响力评估需要考虑外部合作伙伴和利益相关者的贡献，这些合作伙伴虽然不直接与研究项目相关，但构成了实现研究影响力所必需的社会关系网络。

4.4 结合基于案例与基于指标的方法

使用计量指标衡量社会影响力可能会导致对研究绩效的误判，并且对某些类型的研究不公平。评估应公开、透明，定量评估应始终为定性评估和专家评估提供支持。基于案例的方法(或与基于指标的方法相结合)可能更适合用于描述广泛多样的影响力路径。

4.5 平衡积极影响与消极影响

科学技术研究、性别研究、区域研究和政策研究等主要的SSH领域经常提及科学和创新不一定会带来社会进步，也可能产生负面影响。有时是故意的（如核武器），有时是无意的（如石棉），这便需要采取负责任的方法进评估。

结论

综述发现，某些类型的研究可能需要更多的步骤和长期的能力建设才能实现其影响力，或者可能根本不会产生效益或产出。当前文献大多是概念性的(并且通常是推测性的)，虽然学术和政策文献中普遍对研究影响力的概念感兴趣，但实证研究很少。

SSH影响力研究的下一步，应重点考虑在实践中而非理论上证明影响力评估模型的可行性。未来的研究应该对影响力的性质和广度提供更加实质性的理解，此外还应解决责任和归因划分问题。评估应：(1)基于研究对社会影响的实质贡献，而不是研究如何将社会影响力归因于具体项目；(2)基于对价值和尺度(利益、时间、地区等)的清晰理解，(3)基于这样一种观念：成功的影响力和创新发生在多个参与者之间的复杂相互作用中。

(全文及参考文献见Research Evaluation 2020年第29卷第1期，原文链接：https://academic.oup.com/rev/article/29/1/4/5707366，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨王译晗邓晨菲

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn/index.htm

· end ·

如何对研究的社会影响力进行事前评价？构建一个开放性框架