社会影响评价的“瑞士模式”-国家智能评价与治理实验基地

社会影响评价的“瑞士模式”

发布时间：2025-08-15 编辑：王译晗 来源：复旦智能评价与治理

在讨论社会影响评估时，学者们通常会引用两个经典案例：英国研究卓越框架（REF）与荷兰标准评估协议（SEP）。二者在诸多方面存在差异，但在理念基础上却有相似之处。在这两种模式中，社会影响均被视为科研的重要目标，并且出于问责需要，必须以合理方式加以展示，或至少能够作出可信的预测。较少为人所知的是，欧洲其他国家亦存在不同的影响评估模式：

REF与SEP概述

REF和SEP代表了两种不同的社会影响评估路径：REF体现了Gibbons等人提出的社会问责理念的具体落实，但将所有科研概念化为“模式2（即多学科团队在有限的时间内共同解决实际问题）”；而SEP则建立在文献计量不足以全面反映科研价值的认识之上，辅以社会影响的维度加以补充。

英国在REF2014的国家评估程序中引入了“影响力”概念，将其界定为“超越学术界，对经济、社会、文化、公共政策或服务、健康、环境或生活质量所产生的影响、变化或收益”。在REF中，必须提交案例研究，展示申报科研成果所产生的社会影响，这些案例由评审小组进行评估。社会影响在REF2014中占比20%，在REF2021中提高至25%。REF的评估结果与高校可获得的资助额度直接挂钩。

SEP的运行机制则有所不同。自2003年起，SEP及其前身一直是与科研经费不直接挂钩的评估制度，其主要目标是“改进与问责”。值得注意的是，该制度不仅关注科研人员的学术表现，还同时面向科研活动及其管理过程。SEP依据四项标准对科研进行评估，其中之一即为“相关性”，涵盖科学影响与社会经济影响，评估方式兼顾定量与定性。2015—2021年版SEP将标准简化为两项：科研质量与社会相关性，并分别从“可验证的成果”“成果的可验证使用情况”及“可验证的认可标志”三个维度展开评估。

这两种评估模式的共同点在于，其论证均强调问责性，并要求提供上一评估周期（约六年）内科研成果所产生的可验证社会影响的证据。差异在于，REF侧重于通过同行评审判断科研的学术与社会影响，从而隐含假设所有科研本质上均应为“模式2”；而SEP则以科学计量指标评估科研质量（并辅以定性判断），再以社会相关性指标加以补充，从而允许机构（或研究所）在使命定位上有所侧重：部分可能更注重科学质量，另一些则更强调社会相关性。

瑞士的社会影响评估实践

REF已在科研政策中得到积极推广，并被扩展至挪威、中国香港、瑞典、拉脱维亚和波兰。因此，在讨论社会影响评估时，科研政策领域的文献多聚焦于类似REF的评估程序，有时也将SEP视为替代方案。大多数针对国家科研评估体系的分析，都集中于某一特定的“国家级”评估程序，该程序被视为一套“连贯的评估机制”。然而，科研是一项复杂的事业，研究人员的活动不仅限于其所在的“国家”，还深嵌于区域环境之中（尤其是在涉及社会影响时），同时活跃于国际学科共同体，并需接受来自国家及国际层面的资助机构的评估；此外，还会在本机构内部接受评估（这些机构通常肩负特定使命），并且在部分情况下，还需接受集中化的国家级评估程序。实际上，在所有国家中，往往并存着多种评估程序，而这些程序之间很少构成一个连贯的整体。各国及不同评估程序对社会影响的重视程度差异显著，其范围从为每项学术活动赋予具体分值（如捷克）到有意避免集中化评估（如爱尔兰）不等。

瑞士的情况尤为特殊。由于其联邦制结构，科研评估受制于不同行政层级的法律规定，同时不存在集中化的国家科研评估体系。因此，在涉及瑞士时，人们往往声称其没有科研评估程序，或至少没有社会影响评估。然而，事实更为复杂。社会影响在瑞士科研体系中并非无关紧要。实际上，瑞士的综合性大学与应用科学大学之间存在明确的任务分工：前者以基础研究为主，社会影响在其中的比重相对较小；后者则以应用研究为核心，社会影响是其工作的重点。此外，瑞士还设有两个主要的竞争性资助机构：专注于基础研究的瑞士国家科学基金会（SNSF）以及主要资助应用研究的InnoSuisse。关键在于，这种任务分工并非绝对：综合性大学与应用科学大学的研究人员均可向两类资助机构提交申请；同时，SNSF内部也设有若干具有应用导向的资助项目。需要注意的是，这里的“影响”概念与REF中的定义存在差异，并不强调直接可见的（经济）影响，而是指那些当前在知识生产方面具有迫切需求的议题，而不仅仅是出于纯粹科学兴趣的研究对象。最后，这两家资助机构还共同设立了若干资助渠道，主要聚焦于知识生产与知识转化之间的衔接阶段。

总体而言，瑞士科研政策并非“忽视社会影响”，而是有意回避REF式的简单化社会影响概念。围绕科研与社会关系的讨论在瑞士由来已久，这在很大程度上源于其联邦制下的直接民主政治文化，该制度要求就政治议程上的诸多议题展开公共讨论，并向公众传达科学的最新进展。这一政治文化也渗透至科研政策领域，使得自上而下的政策推动往往难以奏效。因此，瑞士通常采取自下而上的路径，在政策制定过程中纳入多元利益相关方，包括科学共同体。在这一过程中，科研—社会关系会从不同学科视角在政策文件中得到阐述，并对公共讨论产生影响，同时还通过举办会议与研讨会加以推进。与此同时，各大学均有义务开展科研评估，但并不存在全国统一的集中化评估体系。每所大学都会根据自身使命设计相应的评估程序，社会影响是否纳入评估及其呈现形式均因机构而异。这种机制形成了一套高度适应性的评估体系。因此，只有在将“评估”限定为集中化的国家级评估体系，并将“影响”狭义化为直接、短期且具有因果性的社会效应时，才能得出“瑞士不重视社会影响”的结论。而在瑞士的语境下，这种限定显然是片面的，因为其整个高等教育体系建立在不对这些概念作过于狭隘界定的理念之上。瑞士的评估体系深受其联邦制与直接民主制度的影响，强调使命导向——换言之，每所大学都有其特定的存在理由，这意味着其在（地方）社会中的关注重点、发展目标与角色定位各不相同。该体系的运行理念是，社会影响源于学术自由、利益相关方之间的互动及公共讨论三者的交互作用，而其实现方式则是持续的自我反思与学术对话。例如，在经历COVID-19危机后，瑞士联邦委员会采纳了来自不同科研主体的建议，将向政治决策者提供科学咨询制度化。

社会影响评估的负面影响

为何瑞士要如此强调学术自由与学术讨论，而非强调可验证的直接效果？如果科研人员获得了公共资金，他们当然应当对所获投资作出回应，证明其价值。那么，瑞士（或爱尔兰）与荷兰SEP的差异究竟何在？SEP同样关注富有成效的互动、共同创造与反思，其特点是以实证证据支撑，而不仅仅停留在论述层面。

瑞士（或爱尔兰）式的（社会影响）评估与荷兰SEP的差异虽然细微，却至关重要。社会影响并非可在短期内加以精准测量的指标。奖励可显著呈现的社会影响会驱使学者将注意力集中于那些可能产生直接影响的议题，在结果尚未获得充分验证之前就广泛传播研究成果，甚至可能与存在争议的企业合作以制造影响。Derrick等人将这种现象称为“Grimpact”，即研究虽产生了社会影响，但最终被证明为负面影响。

更甚者，即便研究本身及其实际成效极为出色，“证明影响”的要求仍可能导致负面后果。这是因为科研人员必须构建一个能够打动政策制定者、公众及评估者的叙事。以某部“影响力影片”为例——此类影片是为REF而制作，甚至形成了专门的产业链。该影片曾获得多个影响力奖项，其讲述的是由一名英国首席研究员领导的项目，通过一种名为“cash plus care”的社会工作新方法来降低撒哈拉以南非洲地区的艾滋病病毒风险。影片开篇描绘了sugar daddies、性侵害等问题，继而呈现处境悲惨的年轻黑人女性与科学家的互动场景，以及最后微笑着在自然中奔跑的非洲儿童，并配以英国资助方和其他基金会的署名。尽管该研究本身无疑十分出色，但影片的叙事中存在严重问题：非洲男性被刻画为性侵者，非洲女性被物化为性对象，非洲人整体被呈现为贫困、悲惨且缺乏自我控制能力；而英国科学家则作为拯救者登场。影片在视觉上强化了这种叙事模式——每当旁白提及问题、需求或影响时，画面聚焦于黑人；而提到研究或解决方案时，则聚焦于白人。这种对比在2分59秒处尤为强烈：当两位女性并排坐在桌前时，旁白说道“这项研究的影响”，镜头焦点便从黑人女性（对应“影响”）切换到白人女性（对应“研究”）。值得注意的是，这两位女性极有可能都属于科研团队成员。

我的目的并非指责该项目本身，我相信这项研究是高质量且具有重要意义的。我想强调的是，“可验证影响”这一概念在特定情境下可能带来的扭曲效应。研究人员完成了他们应做的工作（产出高质量研究，并争取在REF中为所在机构赢得认可）；影片制作团队完成了他们的工作（制作出叙事引人入胜、情感感染力强的影片）；评审团也履行了他们的职责（遴选出拥有有力影响力证据的项目）。然而，这一切共同塑造了一个符合西方刻板印象的新殖民主义叙事并赢得奖项。影片中既未提及英国或欧洲的历史与现实可能如何加剧当地问题，也未在谈到性侵害时出现白人形象。影片的成功正是建立在迎合（西方）固有刻板印象的基础之上。至于项目团队如何接受这样的影片——尽管他们必然清楚其中的问题——很可能是因为在REF评估中取得高分的压力过大，以至于难以保持批判立场。这正是我们所面临的核心困境。

何去何从？

对可持续研究与社会关系的建议

REF的社会影响评估模式只是诸多可能路径之一，欧洲还有许多其他评估方法。现行对“可验证社会影响”的评估，不仅在知识生产及科研—社会关系的理论基础上十分薄弱，而且伴随着明显的负向引导风险，其中一些已在“Grimpact”现象和屡获殊荣的影响力影片案例中显现。认为研究的社会影响必须得到证明，这一主张本身就包含多个范畴错误，从而导致了对科研应有功能的错误理解与失当建议。以下几点误区尤为明显：

每一项目都必须产生影响？科学知识生产本质上是一种协作行为，这不仅适用于实证导向较强的学科，也适用于以个人学术贡献为特征的学科。科学知识只有经过学术共同体的讨论与检验，方可被视为既定知识。每个研究项目都嵌入在科学话语体系中，真正影响社会的并非单一项目，而是经积累与验证的知识体系本身。

所有研究都应立竿见影地产生影响？不同类型的研究承担不同功能——基础研究以科学探索为导向，应用研究旨在解决具体问题，规制研究关注源自政策的议题，实践研究则聚焦于职业相关的实际问题。鉴于功能不同，其评估标准亦应有别。

科学家必然不善沟通？科学家在沟通能力上与非科学群体一样存在个体差异。首先，他们的核心任务是向同行传递科学信息。面向公众的科学传播是一项独立且高要求的工作。科学共同体内部交流不应与向公众传播既定知识混为一谈（例如，将开放获取出版物等同于学术界外的传播）。若学者擅长通俗化，应当予以肯定与奖励，但不能要求所有科研人员都成为优秀的科学传播者。

研究应当向所有人开放且易于理解？开放获取与开放科学自有其价值，但不应与科普混同。要求科研论文摒弃专业术语的做法并不合理。正如不会要求水管工放弃专业工具、改用普通锤子，只因为外行想理解其工作过程一样。公众并不需要掌握科学内部讨论的细节，而是需要了解已经确立的科学知识——这一点在新冠疫情中尤显重要。

科学应服务于证据导向的政策？政策唯有在所依据的证据来自独立研究时，方可称为“基于证据”。然而，在影响评估语境下，科研人员往往需要预测政策制定者希望听到的内容，以便提供“有影响”的研究。如果研究迎合了政策预设，那么所谓的“基于证据的政策”实则演变为“基于政策的证据”。在欧洲框架计划中，科研项目招标与预期政策结果的紧密耦合正体现了这一问题。

研究需提供即时解决方案？常见论调认为，若研究不能直接提供解决方案，不如将资金投入实践。例如，一项研究护士工作条件的项目是否值得投入，抑或资金应直接用于护理工作？这类问题的实质是政治性的预算分配决策。即便研究在短期内无法改善护理工作，它仍可能在后期促成变革。研究的成效虽非立即可见，但具有普遍性与持久性，因此可视为投资；而直接提供个案援助则是一次性投入，不具备持续效应。两者虽性质不同，却同样重要。

结论

从这一视角来看，瑞士在科研质量与社会影响方面的做法虽非尽善尽美，但在我看来，它并非一个“缺席的”国家评估体系，也并非“不重视社会影响”，而是恰恰相反——这是一个将（直接）民主置于核心、保持适应性并能够回应国际、国家、区域与学科多层需求的评估体系，专注于使命导向型评估而非自上而下的定义，并且不过度强调简单化的指标。通过这种方式，可以避免或至少揭示许多范畴错误，并促发必要的批判性讨论。这种模式为科研人员创造了更多机会，使他们能够开展真正契合本学科或主题实际需求的研究，而不是被迫迎合某些不切实际或与领域无关的职业标准来求得成功。科研人员应当专注于与本领域目标实现高度相关的工作，而非被与实际研究或实践无关的评估指标或叙事方式所牵制。理想的评估应当能够包容并呈现科研活动与成果的多样性，这些活动与成果通过相互结合，共同推动科学知识的生产与传播，并促进与利益相关方的有效互动。

(全文及参考文献见Swiss Political Science Review 2024年第30卷第3期，原文链接：https://onlinelibrary.wiley.com/doi/10.1111/spsr.12618，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

迈向负责任的研究评估：如何奖励研究质量？