研究影响力的评估、评价和定义-国家智能评价与治理实验基地

研究影响力的评估、评价和定义

发布时间：2023-05-12 编辑：王译晗 来源：复旦智能评价与治理，复旦新学术

摘要：本文通过文献综述和信息汇编，探讨“研究影响力”的含义。通过借鉴国际经验，了解将用于评估研究影响力的方法和框架应用于英国的可能性。本文主要关注英国REF 2014的影响力部分，阐述了影响力评估面临的挑战、评估系统在捕捉研究与影响力之间的关联方面可能发挥的作用，以及对评估系统的要求。

关键词：影响力；研究评估；评价；证据

引言：什么是影响力?

政府和学者都希望“研究成果所产生的影响力”能有一个明确的定义。人们对“影响力”的理解存在着差异，“学术影响力”通常是指一个人的研究对学术界该领域的贡献，不同于学术界之外的“外部社会经济影响力”。在英国，对学术影响力和更广泛的社会经济影响力的评估是分开进行的，“影响力”已成为描述学术界以外的研究影响的首选术语。在其他国家，学术影响力和社会经济影响力则通常被视为一个整体，以对研究创造的价值和变化进行全面评估。

机构和利益相关者根据其关注重点而更加侧重研究影响力的特定方面。在此背景下，研究影响力需要一个具体的定义，例如，研究卓越框架(REF)的“评估框架和提交指南”中，将“影响力”定义为对学术界以外的经济、社会、文化、公共政策或服务、健康、环境或生活质量的影响、改变或益处。

对机构研究的评估包含了影响力、研究产出和环境。因此，研究产出(例如产生的知识和出版物)可以转化为成果，例如新产品和服务及其影响力/附加值，虽然这种区别比较细微，但对产出、成果和影响力之间进行区分是十分重要的。社会投资回报(SROI)指南指出，“影响力”“回报”“效益”“价值”等在表述上各不相同，但在描述具体差异以及正在产生多大的差异的问题上是相同的。SROI将影响力假设为积极或有益的影响，但如果是消极的变化呢？Wooding等采用了生命科学领域的术语进行改进，认为变化的积极或消极性质是主观的，也可能随时间而变化。正如沙利度胺(thalidomide)这种药物在20世纪50年代被引入，用于治疗孕吐等疾病，但由于致畸导致出生缺陷，于60年代初下架，但此后发现沙利度胺对治疗某些种类的癌症有效。可见，在20世纪50年代，人们对沙利度胺的影响的看法与60年代或今天截然不同。

在评价影响力时，重要的是不仅要考虑由谁评价，而且要考虑评价的目的是什么，以确定评价工作的范围和相关性。本文中我们借鉴了评估高等教育机构(Higher Education Institutions, HEIs)内研究影响力等方法，对以下问题展开探讨：

· 理解和评估研究影响力的深层原因是什么；

· 国际上采用了哪些方法和框架来评估研究影响力，如何对它们进行比较；

· 理解和评价研究影响力面临着怎样的挑战；

· 需要在体系开发中把握哪些指标、证据和影响力。

为什么要评估研究影响力？

努力理解和评估研究影响力的深层原因是什么？大学一直以来都开展着教育和研究活动，但其根本目的在数学家、哲学家怀特海的著作中有所描述，“大学存在的理由是，它使青年和老年人融为一体，对学术进行充满想象力的探索，从而在知识和追求生命的热情之间架起桥梁。大学以一种充满想象力的方式传授知识，是它对社会所应起的作用。一所大学若不能发挥这种作用，便失去了存在的价值。充满活力的气氛产生于富有想象的思考和知识的改造。”因此，进行研究的根本原因之一是我们能够产生和转化有益于整个社会的知识。

人们普遍认为，通过资助优秀的研究，影响力(包括非预期的影响)将会随之而来，传统上对大学研究的评估集中在学术质量和生产力上。目前英国大学提交给高等教育统计局的《高等教育商业和社区互动调查报告》记录了影响力的各个方面(如知识产权的价值)。大学和其他公共部门、慈善组织一样，通过展示影响力可以吸引和留住捐赠者和支持。研究影响力评估背后的原因是复杂的，涉及政治和社会经济因素，但可以分为四个主要目的：

(1)概览高等教育机构(HEIs)。使包括HEIs在内的研究组织能够对其绩效进行监测和管理，了解和传播他们对地方、国家和国际所做的贡献。

(2)问责制。向政府、利益相关者和更广泛的公众展示研究的价值。英国政府通过英格兰高等教育资助委员会(HEFCE)和研究委员会向纳税人、选民和公众展示研究在社会经济效益方面的价值，以此说明公共资金支出的合理性。

(3)引导资助。了解研究的社会经济价值，并为资助决策提供信息。通过评估研究对社会和经济的影响力对资助做出分配，以产生预期的影响力。如Donovan认为，“影响力是向政府提供证据以获得更多研究支持的有力武器”。

(4)增进理解。了解研究产生影响力的方法和途径，以最大限度地利用研究成果并探索更好的影响力产生的方法。

大学的问责制不仅限于研究，也体现在教学质量评估中，如对大学进行评估以确保付费学生的满意度。在展示研究影响力时，可以在项目和战略基础上向上向资助者提供问责制，向下向用户提供问责制。但“并非高等教育部门的每个人都认为对高等教育活动的评估是一项值得完成的工作”。大学和学院联盟发布了一份请愿书，呼吁英国资助委员会在新的大学研究评估计划发布后，撤回REF提案中的影响力评估。该请愿书由17,570名学者签署，其中包括诺奖获得者和皇家学会院士。影响力评估引导了人们对研究方向的关注，因为部分学科和主题的影响力更容易被证明，并产生经济影响力，由此可能不利于基础研究。Johnston指出通过发展研究人员与行业之间的联系，可以开发新的研究战略。这就引出了一个问题，英国的商业界和工业界是否应该投资于对他们产生影响的研究？如果不是政府，谁该为基础研究提供资助？Donovan认为影响力评估不应对基础研究产生阻碍，要求学者考虑他们所从事研究的影响力并相应进行审查和资助，可能会导致研究缺乏对富有想象力和创造性的知识的追求。

尽管有所争议，但对更广泛的社会经济影响力的研究被作为REF 2014的一部分，占到总体研究评估的20%。从国际视角来看，这代表大学和研究机构在扩展了影响力评估的全面性，囊括了所有研究学科领域的影响力。了解不同研究领域的影响力以及用于证明影响力的各种指标和替代物，对于开展有意义的评估至关重要。

如何评估研究影响力？

国际上采用了哪些方法和框架来评估研究影响力，如何对这些方法和框架进行比较？传统的英国大学研究评估通过同行评议衡量学术影响力和质量。关于学术影响力的证据可以通过各种文献计量方法得出，如H指数，它包含了出版物数量和引用次数等因素。在英国这些指标可用于了解研究的水平，并且通常被纳入更广泛的国际影响力视角。例如，在澳大利亚卓越研究和美国Star Metrics中，使用定量方法评估影响力，如出版物、引用和研究收入。这些“传统的”文献计量方法只是对部分影响力的衡量，与因果关联无关。一些学者认为，调查、案例研究、文献计量学、计量经济学、统计分析、内容分析和专家判断等广泛用于项目评估的方法和标准在用于衡量影响力时都存在缺陷。

影响力评估需要纳入对更广泛的社会经济影响力的评估，如注册的知识产权和产生的商业收入。英国首先在生物医学和健康科学领域对包含更广泛社会经济效益的影响力进行更为复杂的评估，希望能够证明研究受到的大量资助是合理的。为满足机构和利益相关者的具体要求，需要设计评估影响力的框架并投入使用。因此，大量的影响力评估模型和框架被开发出来。回报框架可能是影响力评估中使用最广泛和适应性最强的模型，它将学术成果和社会效益相结合，从而系统地将研究与相关收益联系起来。回报框架分为两部分：一个模型，该模型将研究和之后的传播过程分解为特定部分，在这些部分中可以体现研究的好处；一个多维分类方案，可以将各种输出、结果和影响力放入其中。回报框架在国际上已被卫生部门等采用，使健康和医学研究与影响力能够联系起来，并且能够追踪影响力发生的过程。

荷兰开发了一种与众不同的方法，称之为“通过研究生产性互动，来评估研究和资助社会影响力的评价方法” (SIAMPI)，其核心是通过分析在研究项目中建立起来的网络，来捕捉研究人员和利益相关者之间的“生产性互动”。SIAMPI基于一种假设，即研究人员和利益相关者之间的互动是实现影响力的重要先决条件。该框架旨在作为一种学习工具，以更好地理解研究互动如何产生社会影响力，而不是作为判断、展示甚至将影响力与特定研究联系起来的评估工具。SIAMPI已在荷兰卫生服务研究所内使用。“生产性互动”可被视为知识交流的实例，作为产生影响力的一种机制在国际上备受重视，并且易于得到财政支持。例如加拿大人文社会科学研究委员会，其目的是支持(财务上)知识交流以产生长期影响力。英国商业、创新和技能部在2011-2012年为知识交流提供了1.5亿英镑的资金，以“帮助大学和学院为经济复苏和增长提供支持，为更广泛的社会做出贡献”。虽然重视和支持知识交流很重要，但使这些交流活动能够被捕获和分析，SIAMPI需要继续改进。与捕获从研究到影响力的完整路径相比，此方法的优点之一是输入的需要更少。SIAMPI没有对影响力本身进行综合评估，所以它不太适合展示需要基于影响力的资助申请。

澳大利亚研究质量框架(RQF)使用案例研究方法，首次在全球范围内全面捕捉所有学科研究的社会、经济影响力。制定RQF是为了证明公共研究支出的合理性，并在澳大利亚科技大学联盟进行了试点评估。研究人员被要求证明其研究在广泛意义上的经济、社会、环境和文化影响力，然后由专家小组进行验证。研究人员和研究案例可以为评审专家提供足够的定性和定量证据，以评估研究产生的影响力，包括研究是否促进了互动参与、成果应用或实现公共价值。RQF率先采用案例研究方法来评估研究影响力，但随着2007年的政府更迭，该框架并未在澳大利亚实施，尽管它已被采用并适用于英国REF。

在英国REF的开发过程中，HEFCE于2009年委托RAND编写了一份报告，以掌握评估研究影响力的国际实践，并为REF的发展提供建议。RAND选取了四个框架作为代表，RQF便是其中之一，指出其案例研究方法“为REF影响力方法的开发提供了前人之鉴”。HEFCE开发了初步的方法，并在试点中进行了测试。RQF的案例研究方法将“重要性”和“范围”相结合作为评估标准。评估标准也受到Brunel开发的影响力“测量”模型的启发，该模型包含了对深度和传播的测量方法，深度是指研究引起变化的程度，传播是指变化已经发生并影响最终用户的程度。该模型从影响范围和重要性方面评估影响力，可用于评估所有研究学科和研究影响力类型。

现有评估框架的范围差异和多样性反映了评估目的的变化，包括进行评估的利益相关者，预期的影响力和证据类型。影响力评估在英国乃至国际上愈发重要，相关研究和开发仍在继续。例如，Brunel等进一步明确了深度的概念并将其纳入Brunel影响力评估方法中，该方法还可以评估研究与影响力之间的割离程度。

影响力与REF

REF并未采纳RQF的所有建议，例如根据研究性质或阶段需要，允许不进行影响力评估。2009-2010年，REF小组进行了试点，涉及29所院校。向五个评估单元(临床医学、物理、地球系统与环境科学、社会工作与社会政策、英语语言文学)中的一个单元提交了案例研究，由专家小组进行审查。与RQF一样，REF发现可以使用案例研究方法评估影响力并制定“影响力概况”。

从2014年起，英国大学和机构的研究都通过REF进行评估，这将取代英国自80年代以来一直用于评估研究的RAE。REF与前者的区别主要是删除了重视指标(Indicators of Esteem)和增加了关于社会经济研究影响力的评估。REF将评估研究的三个方面：产出、影响、环境。

研究的影响力以两种形式进行评估：首先，通过影响力模板来描述在评估单元内实现影响力的方法；其次，使用案例研究来描述在评估单元内进行出色研究后产生的影响力。HEFCE认为影响力应在REF中占到25%的权重，但基于反馈和游说结果，在REF 2014中被减少到20%。

影响力指标的质量和可靠性根据研究试图描述的影响力及其与研究的关系而有所不同。虽然不同学科的研究产生的影响力范围可能会有所不同，但也会有一些质疑，当影响力范围差别巨大时(例如是商业发展或是文化改变还是拯救生命？)，比较学科的影响力是否有意义？澳大利亚的RQF提出了另一种解决方法，建议比较影响力的类型而不是特定学科的影响力。

在特定学科中提供建议和指导是有意义的，但影响力及其证据会因学科而异。与艺术等领域相比，健康和生物医学科学和社会科学两个研究领域受到了特别关注。

影响力评估面临的挑战

理解和评估研究影响力面临的挑战是什么？在试图评估或评估影响力时会面临很多障碍，这些困难可能特定于某些类型的影响力评估中。鉴于预期的影响力类型因学科而异，因此对特定影响力的评估首先面临着这样的挑战——评估机制可能无法公平地比较学科之间的影响力。

5.1

时滞性

研究和影响力之间有较大的时间差。例如，从发现DNA到开发出能够进行DNA指纹识别的技术需要大约30年的时间。在RQF的开发过程中，艾伦咨询集团强调研究和其影响力之间的时间差难以掌握。在英国，罗素集团大学对REF咨询的回应是，建议不应对研究成果的影响力设置时间限制，例如心血管疾病治疗的发展，从研究到产生影响力需要10到25年。但是，要被纳入REF评估，研究的影响必须有一个时间范围，即研究发生在1993年1月1日-2013年12月31日，影响力发生在评估窗口期内，即2008年1月1日-2013年7月31日。不过REF也承认，在某些情况下，这个窗口期可能不够，如建筑学有额外的5年期限，虽然药学、物理学甚至英国文学都可以提出类似的理由，但为什么只有建筑学有这种特殊待遇，在REF中并未明确。REF试点的建议是，评审小组应该可以酌情延长时间范围，但这样会在向REF提交案例研究时产生问题，即如何预测专家组的观点将会是什么，以及如果被认为不适合延长时间，这是否会使案例研究被标记为“未分类”。

5.2

发展性

影响力不是一成不变的，会随着时间的推移而发展变化，可能是当前影响力程度的增强或减弱。影响力可以是暂时的，也可以是长期的。因此，进行评估的时间点会影响该影响力的程度和重要性。例如，新药发现后，需要开展临床前研究，进行三期临床试验，然后进行新药申请和批准上市。显然，潜在的新药可能会在这些阶段中的任何一个阶段失败，但每个阶段都可以产生暂时的影响力。所以，如果影响力是暂时性的并且在评估期内并不稳定，我们该如何看待和衡量它？需要强调，评估影响力标准的个人和组织的客观性和评估角度，将是理解如何将短期和分散影响力与长期影响力相比较的关键。

5.3

归因问题

影响力不仅来自有针对性的研究，还来自偶然的发现、运气、复杂网络的相互作用和知识与研究的转化。研究产生的影响力是基于各种复杂的过程、个人和组织进行的。因此，不能直接把影响力归因于特定个人、研究成果、资金、战略或组织的贡献。Husbands-Fealing建议，有必要开发一个用于描述被评估系统内的参与者、活动、联系、输出和影响力的理论框架，来帮助确定影响力评估的因果关系。这种框架不应是线性的，而是循环的，包含来自影响力系统各个方面和/或与之交互的元素，可以显示早期阶段如何演变为后期阶段。如何归因影响力一直备受关注，对产生影响力的各种主要和次要贡献进行区分是一项艰巨挑战。

Hughes和Martin的研究(图1)说明了影响力归因的难易程度随着时间的推移而降低，而补充性资源的影响力或效应却在增加。这凸显了一个问题，即一项研究的全部影响力可能需要相当长的时间才能形成，但由于时间的推移和研究及其影响力所涉及的网络的复杂性的增加，会更加难以将影响力归因于相应的研究成果并追溯到原始的研究。

这就给从事基础研究的学科(如纯数学)带来了困难，在这类学科中难以预见研究的影响力。其研究成果会在其他研究分支中得到应用，并在产生社会经济影响力之前得到进一步发展，到那时，如何归因将成为一个巨大的挑战。如果基础研究要与应用研究一起评估，那就至少要能够明确基础研究的贡献。众所周知，知识和理解的突破源于“站在巨人的肩膀上”。

5.4

知识蠕变

众所周知，通过研究不断发现新知识的结果之一可能是产生“知识蠕变”，即新的数据或信息随着时间的累积不断被接受和吸收，最后带来重大改变。这在政府制定新政策时尤其明显，研究成果可以影响政策议程和政策变化，而忽视为此做出贡献的研究。这在社会科学领域尤为棘手，因为研究很可能会影响政策制定。在为REF收集证据时，如果某项研究做出了“独特的贡献”，就可以将影响力归因于具体的研究。因此，困难在于，如何在缺乏足够证据的情况下确定研究的贡献是什么，以及如何确保那些产生无法证明的影响力的研究得到重视和支持。

5.5

证据收集

收集研究和其影响力之间关联的证据，不仅在缺乏证据时是个挑战。引入影响力评估并整理回溯性证据会面临许多困难，因为在许多情况下，证据、度量和基线并未被收集，而且它们可能已不再可用。虽然未来我们可以解决这些问题，但如何确定、捕捉和储存证据，使其能够在未来数十年中使用，仍是需要解决的难题。

开发用于捕捉影响力的系统和分类法

整合研究影响力的证据和指标是学界的热点议题。Decker等2005年对美国顶尖研究机构的研究人员进行调查，这项对6,000多名研究人员的调查发现，平均超过40%的时间用于执行行政任务。为了减少向研究人员分配行政任务并协助其跟踪和汇总影响力数据，国际上正在开发许多涉及多个项目和发展的系统，包括美国的Star Metrics，欧洲研究理事会(ERC)研究信息系统，以及巴西的Lattes。

理想情况下，国际上各大学内的系统能够共享数据，允许直接比较数据，并准确存储在合作中产生的信息，同时随着研究人员在机构之间移动而转移可比较的数据。为了打造兼容性系统，需要使用共同的语言。于1991年首次发布的通用欧洲科研信息网格(CERIF)旨在为此而开发的，欧洲多个项目和系统，例如ERC研究信息系统正在开发与CERIF兼容的系统。

为了允许机构之间进行比较，建立影响力的综合分类是非常有意义的。但这种尝试的致命弱点是，可能会创建出一个对其能够测量到的影响力予以奖励的体系，导致研究为迎合体系的测量对象和奖励而开展。学界正在尝试对影响力证据和数据进行分类，例如，在CERIF中影响力测量项目(MICE)的目的是开发一套影响力指标，以便将影响力输入到系统中。尽管MICE分类中有100多个指标，但仍然不够，因为研究机构提供的影响力证据常常是独一无二的。即是在定量数据可获得的情况下(例如观众人数或图书销量)，也很难体现影响力的程度，因为缺少背景或基线，线性分类并不能反映复杂的影响力网络。Goldsmith报告建议使指标“价值中立”，可以通过制定影响力描述符，让专家小组评估价值或质量。

笔者认为，对影响力进行分类需要考虑指标的定义程度，提供更广泛的定义和更大的灵活性。可以将指标和记叙纳入评估系统中，例如，目前英国的几个研究理事会使用Research Outcomes System和Researchfish等系统来记录影响力，记叙的优点是可以记录一些背景，但它可能会降低证据在不同利益相关者群体(政府、资助机构、研究评估机构、研究提供者和用户社区)使用时的灵活性，因为这些利益相关者群体的目的可能会有所不同。任何用于影响力评估的工具都需要灵活，以便能够出于各种目的获取影响力数据。系统需要能够捕捉从研究到影响力的完整路径中的关联和证据，包括知识交流、产出、结果和暂时性影响力，以便追踪影响力路径。证据数据库需要确定影响力是直接归因于某一项研究，还是在路径中做出的各种贡献。同时，需要明确基线数据、对照数据和变化过程，以展示影响力的程度。但是在许多情况下，并没有可行的对照数据，因为我们无法预测如果该研究没有进行会有什么影响。不过了解影响力的前后情况对于预测影响力还是很有价值的，值得进行收集。

现在可以使用数据挖掘工具从叙述性或非结构化的数据中提取特定数据，以整合学术影响力和成果，例如研究组合在线报告工具(Research Portfolio Online Reporting Tools)使用PubMed和文本挖掘来聚类研究项目；STAR Metrics是采用行政记录和研究产出数据的评估工具，ERC也在使用公共领域数据时运用该工具。这些技术有可能在数据抓取和影响力评估方面提供过渡，虽然相关研究也指出，要将其完全纳入ERC资助还需要数年时间。为了能够覆盖系统的全部范围，需要确定可以纳入系统开发的影响力定义和类别。为了充分捕捉研究人员、机构和利益相关者之间的相互作用，引入能够实现这一点的工具将非常有价值。如果可以捕捉知识交流事件(例如在电子日历或日记中标记，或自动记录知识交换事件)，就可以更加轻松地记录更多这些事件。捕捉知识交流事件将对关联研究和影响力大有脾益。

实现对影响力数据的常规抓取不仅需要开发工具和系统来协助实施，还需要进行文化变革以改变当前仅由少数人承担的做法，使其成为研究人员和大学日常行为的标准。

评估系统中的指标、证据和影响力

在系统开发的过程中需要捕捉哪些指标、证据和影响力？人们对于汇总影响力评估术语和指标有着浓厚的兴趣。研究管理信息协会推进标准(CASRAI)已经编制了一本数据词典，旨在为描述影响力的术语和指标设定标准，并且可以纳入国际系统。设定各种类型指标的关键是它们应被广泛理解。下文讨论了几种需要捕捉的证据类型，以便开发影响力概览。在大多数情况下，研究需要多种类型的证据共同提供影响力概览。

7.1

指标

指标通常被用作衡量影响力的方式之一。例如可以在利润、提供的工作岗位数量、招聘的受培训人员数量、展览参观人数、物品购买数量等方面设立指标。指标本身无法表明全部影响力，但它们通常被视为有力且毋庸置疑的证据类型。如果将指标用作影响力的证据，那么还应尽量设定基线或对照数据。

尽管指标可以提供研究所产生的定量变化或影响力的证据，但它们无法充分提供研究所产生的定性影响力的证据，因此不适用于我们将遇到的所有影响力。与使用标准化指标相关的风险主要有：

(1) 倾向易于量化的指标，因此无法展现全部影响力；

(2) 注意力容易集中在易于直接判断的成果, 而不是真正有价值和创新的研究；

(3)指标可能会被货币化或被简化为最基本的共同衡量单位，例如将剧院的成本与医院的成本进行比较，仅使用成本指标来衡量两个项目的影响力会掩盖其实际差异，使得比较并不准确。

7.2

叙述

叙述可以用于描述影响力，并且利用好质性信息。叙述通常是针对特定利益相关者群体编写的，并将从特定角度呈现影响力。依靠叙述来评估影响力的风险在于，它们通常缺乏判断研究和影响力是否适当关联所需的证据。如果结合指标使用叙述，则可以开发出完整的影响力图景，再次从特定的视角呈现影响力，同时有可用证据来证实所提出的叙述。表1总结了案例研究方法的一些优缺点。

通过将影响力置于特定文本中，我们解决了定量数据分析可能产生的“那又怎样？”的问题，但是否会产生这样的风险，即只展现影响力的积极面而无法展现影响力全貌？案例研究是展现影响力的理想选择，但它们是否也应该用于批判性地影响力评估？

7.3

调查和证词

证明用户感知和意见变化的一种方式是收集利益相关者和用户的证词或进行调查。这可能描述了与最终用户的研究支持和开发、公众参与和知识交流的证据，或者作为研究成果引起公众舆论变化的证明。但收集此类证据非常耗时，而且在事后收集所需证据时可能很困难，因为合适的用户群体可能已经分散了。

记录这些类型数据的能力，以及开发能够抓取这些数据的系统对于建立从研究到影响力的路径非常重要。

7.4

引用和文件

学界以外的引用和文件可以作为证据，来证明研究成果在新思想和新产品开发中的应用，例如在政策文件或媒体中对某项研究的引用。多个影响力指标的汇总可能足以证明影响力已经产生。但即使可以证明与研究相关的变化和益处，梳理其因果关系仍然可能很困难。媒体报道是传播研究和思想的有效手段，可以与其他证据一起作为对影响力的贡献或指标。

altmetrics(或替代指标)领域的快速发展提供了了解研究如何被使用、查看和传播的更丰富渠道，使得通过电子方式传递的信息可以被追踪和监测以提供数据。

结论和建议

对“影响力”的理解存在着巨大的差异，因此在汇总证据前需要充分了解影响力评估的目标。虽然可以使用指标、记叙和其他证据充分解释影响力的各个方面，但混合了多种方法的案例研究方法是能够将所有可用信息、数据和证据整合在一起的科学方法。要将案例研究方法用于评估，也必须了解其局限性：案例研究从特定角度提供证据，在实际使用中需要灵活调整以适应不同的利益相关者；理解和审核案例研究较为耗时，因此我们需要确保为评估活动所投入的各种资源，能够换取足够高质量和有意义的知识；案例研究的撰写能力也会影响评估结果。在过去的一年中，许多大学都新增了负责撰写影响力案例研究的职位，一些公司也提供此类合同服务，这就会造成能够聘请顾问或雇佣专职人员的大学更容易写出好的案例研究。

开发辅助于影响力评估的工具和系统将非常有价值。笔者建议开发专注于记录影响力信息的系统，满足将研究与随后的事件和影响力关联起来的需求。这类系统需要能够捕捉研究人员、机构和外部利益相关者之间的一切交互，并将其与研究成果、产出或中期影响相链接，以构建数据网络。在设计用于汇总与影响力相关的数据的系统和工具时，重点要考虑由谁来填写数据库，以及考虑捕捉信息所需的时间和能力。随着数据、交互和指标的不断增加，捕捉相关信息的机会也随之增加，为研究人员提供能够捕捉大部分相关信息的工具将非常有价值。但是要注意，就REF而言，只有在提交案例研究的机构内进行的研究才被视作影响力。因此，在每个机构内部建立一个能够捕捉所有必要信息的过程非常重要，以便于在某个研究人员离开该机构后，还能够撰写案例。图2演示了系统需要捕捉和关联的信息：

(1)研究成果，包括产出(如演示文稿和出版物)

(2)与利益相关者和公众的沟通和互动(如电子邮件、访问、研讨会、媒体宣传等)

(3)来自利益相关者的反馈和沟通(如客户评价和altmetrics)

(4)研究进展(基于利益相关者的意见和讨论)

(5)效果(如商业和文化方面的影响、引用)

(6)影响(即变化，如对行为和经济方面的影响)

如果我们能够采取措施确保评估不会对我们研究的影响力产生负面影响，那么投入时间和资源进行影响力评估，就可以有效证明支出的合理性、展示我们的工作并为资助决策提供信息。在一些基础研究领域，研究成果与其影响力相去甚远甚至无法实际证明，在这些情况下，承认影响力评估的局限性，并在适当情况下予以免除更为合理明智。

(全文及参考文献见Research Evaluation 2014年第23卷第1期，原文链接：https://academic.oup.com/rev/article/23/1/21/2889056，本期推文为节选摘编，略有删减和编辑。)

本期策划 |复旦大学国家智能评价与治理实验基地

供稿 |宋欣雨邓晨菲王译晗

本期责编 | 金潇苒

基地官网：http://statevalbase.fudan.edu.cn/main.htm

·end·

人文社会科学研究影响力指标分类