美国学者如何看待“负责任的研究评估”？-国家智能评价与治理实验基地

美国学者如何看待“负责任的研究评估”？

发布时间：2024-05-10 编辑：王译晗 来源：复旦智能评价与治理

摘要：“负责任指标”运动将定量指标的过度使用视为一项挑战，并寻求改进相关实践。该运动是一场多方参与、跨学科的改革运动，旨在增强学术评估者的责任感，谨慎使用定量指标并避免某些不良做法。本文面向美国高级学者开展关于招聘、晋升和任期评估的半结构化访谈，了解在这一过程中学术评估者如何看待和参与负责任指标运动。截至目前，美国在这方面的实践尚显不足。本研究参考了国际研究评估改革倡议(如《旧金山研究评估宣言》DORA)，分析了不同专业学者在其聘任、晋升和终身教职评估过程中感知和践行“责任”概念的情况。

引言

文献计量学兴起于20世纪70年代，试图为评估研究及研究人员表现提供一种合理且高效的方法，有望补充甚至取代同行评议。2010年左右，“负责任指标”和“负责任研究评估”的改革运动兴起，这些运动并未完全摒弃文献计量学，而是强调必须确保其得到适当应用。

与欧洲相比，此类运动在美国的影响相对较小。以《旧金山研究评估宣言》(DORA)的签署为例，截至2024年3月，美国仅有三所大型研究机构签署了DORA(锡拉丘兹大学、伊利诺伊理工学院和拉金大学)，也有少量大学院系、研究中心和学术图书馆签署了此宣言。鉴于该宣言已有十余年历史，因此签署数量并不多。

本文目的并非在于描述文献计量指标的存在是否必要，而是揭示在新兴的负责任指标改革运动背景下，定量指标在招聘、晋升及任期评估过程中的理解和应用，以及存在的矛盾。这些评估程序对科学事业和研究机构的发展至关重要，但也可能受到了定量指标的不当影响。

因此，本文通过对美国高级学者进行访谈得出的实证结果，分析了他们如何在招聘、晋升和任期评估中处理定量指标的使用问题，以及这些处理方式是否与负责任指标运动倡导的理念相符合。

“负责任”与

科学改革运动

2016年发布的The Metric Tide报告首次提出了“负责任指标”一词，并明确指出其灵感来源于“负责任研究与创新”(RRI)。RRI在2010年代的欧洲科学政策中广为流行，旨在使研究者充分意识并预防他们在研究与创新活动中可能产生的潜在风险与不确定性。负责任指标与RRI的相似之处不止于共同强调了“责任”一词，还与其他国际性的科学改革运动一样，都是旨在从外部重塑“优良”专业实践的“规范性项目”。

通过将负责任指标概念化为一种新兴的责任术语，本文旨在探究这种术语是否正在渗透并重塑美国学术界在教师招聘、晋升和终身教职评估中的道德观念，以及这一术语是否与“自发”的责任观念相一致。所谓“自发性责任”，是指科学家们在从事他们认为的“良好”科学实践时所表现出的职业责任感——即使这些科学家对于“负责任”相关运动不太熟悉或不感兴趣，他们仍会展现出责任感。基于这些理念，我们特别关注以下几个问题：

(1)受访者对DORA和负责任指标运动中的“责任”术语的“熟悉程度”如何？

(2)受访者如何处理负责任指标改革运动所提出的问题和解决方案？

数据收集与分析

民意调查

笔者借助美国学术协会留言板，以及使用电子邮件给美国大学协会成员机构的高级教职人员和管理人员发送相关问题，以收集定性数据。2个开放式问题如下：

(1)请反思并评价您所在机构用于评估职业发展的标准是否合适？

(2)请就基于引文的指标在贵机构教师招聘、晋升及终身教职评估程序中的作用谈谈您的看法。

访谈

调查答复显示，美国研究机构在招聘、晋升及终身教职评估程序上存在显著差异。因此，我们选择了在美国研究机构中具有招聘、晋升和/或终身教职评估经验的学者进行深入的半结构化访谈，总共进行了18次。

数据分析

首先采用开放式编码方法对访谈转录文本进行编码，随后通过更精细化的主题和类别映射进行分析，构建了一个综合性的叙述集。本研究首先探讨了受访者对“负责任指标”的熟悉程度，其次分析在访谈和问卷调查中受访者对定量指标及其“自下而上”的责任描述与负责任指标运动所提出的责任术语在多大程度上相吻合。在此过程中，我们归纳整理了多种受访者观点，将其归类为三种不同类型。

研究发现

对“责任”的熟悉程度

虽然美国的受访者们对DORA以及相关倡议的认知程度不一，但总体上，他们对于知名组织所提出的负责任指标和实践缺乏深入了解。通过DORA网络招募的受访者并非如大家所预期的那样了解DORA的倡议和目标。这与Davies关于“研究诚信原则”的调查是一致的，研究人员很少了解正式指南和原则的具体内容，即使他们在表面上支持这类运动。我们的调查结果佐证了JIF(期刊影响因子)和其他定量指标在美国的招聘、晋升和终身教职评估中将持续盛行的推论。

当被问及是否认同“负责任指标”这一术语时，大多数受访者表示不认同。在那些曾接触过DORA的受访者中，受访者往往不经常阅读该宣言，更不会记住它。对于大多数受访者而言，其他类型的“责任”术语似乎比“负责任指标”更加易懂和易用。

所有受访者——包括那些没有参与过负责任指标运动的人，都意识到了负责任指标倡议所带来的一些结构性问题和指标局限性问题。但是，受访者们并没有提出在欧洲政策讨论中提到的指标带来的其他问题，包括它们与倦怠、欺凌、工作环境、职业竞争和研究不当行为之间的关联。同样，他们也没有对JIF等常用指标提出技术性批评，例如缺乏领域规范性或期刊引用偏差。这表明美国的受访者们要么缺乏对这些问题的认识，要么缺乏对它们的重视。可见负责任指标运动所倡导的责任术语似乎并没有深入到美国的机构中。

对“负责任指标”的认同程度

强烈支持

很多受访者强烈认同JIF和H指数等指标在学术评估及学术研究策略中影响过大，这些受访者对DORA和负责任指标运动持积极看法，对改革的潜力持乐观态度。

许多人认为，当前问题的大部分责任可以归咎于“糟糕的”评估者，类似于科学政策中的“糟糕专家”。例如，糟糕的评估者通常会被认为是“传统”的，依赖于传统指标——发表数量和引用次数，尤其是JIF等可量化指标。与之形成鲜明对比的是“现代”的(因此是“优秀的”)专家和指标，他们与时俱进，拥抱“进步”。

传统评估者通常固守旧观念，不愿意接受新思想——有时是受到自身利益的驱动(例如他们自己曾受益于这些方法)，或者选择了“一刀切”的方法(可能是由于懒惰)，或者是因为他们只知道一种方式，被局限在自己的思维模式中。

受访者们认为，对传统指标的依赖部分归咎于个人，部分归咎于研究文化。个人和文化均负有责任，例如，“传统”评估者被描述为“传统”文化的传播者，阻碍了变革和进步。

持强烈支持观点的受访者们将高级学者视为对指标实践改进具有重大影响力的责任主体。部分受访者展示了他们负责任的评估实践，履行了作为高级学者的责任，并在指标被不当使用时提出质疑。

自然科学家们有时会产生将不合理评估实践与个人失败联系起来的“偏见”，这是一种需要纠正的认知缺陷。一位医学研究人员承认自己在进行评估时，需要不断纠正自己的偏见。

我们认为，这些关于“现代”评估者的描述在很大程度上与评估改革倡导者所追求的“良好公民”理念相符。“公民”被设想为自主的、主动反思的、担负责任的社会成员。这正是DORA和其他改革行动者努力推动宣传的道德理念。

部分认同

部分学者并不完全认同在招聘、晋升和任期评估中定量指标存在的问题，以及负责任指标运动提出的新观念。

在美国，许多招聘、晋升和终身教职程序都采用“组合”方法，要求申请人在申请材料中阐述其研究、教学和服务活动。部分受访者不认同评估偏向依赖定量指标的观点，而是认为它们与其他考量因素一起出现在决策过程中的某些部分，不会过度主导整体评估过程，或申请人的评估结果。

虽然“指标应支持而非主导评估”的观点得到了广泛认同，但受访者们不接受对H指数和JIF等指标的全面批判：虽然受访者们均认可诸如“指标不应主导决策过程”等观点，但仍然坚持使用某些指标，即使这些指标在改革运动被认为存在过多缺陷，难以合理发挥作用。

持部分认同观点的受访者们认为，指标的影响力可能过大，从而导致错误的决策，但他们并不认为这能够代表他们自己的实践方式。同样，他们反对负责任指标和“改革既定规范”，他们认为JIF或H指数等常用指标在评估中的地位不应受到质疑，继续使用这些工具并不等于成为“糟糕的评估者”。

部分认同的观点揭示了一种对指标作用的中庸态度，尽管认识到指标使用的风险，但认为在综合评估体系中，这些风险是可控的，指标的适当使用可以成为评估的一部分。此类观点强调评估过程的复杂性和多元性，主张在保持现有指标使用的同时，增加对指标局限性的认知和反思，以期实现更加公正和全面的评估结果。

务实拒绝

与负责任指标运动所倡导观念相反的观点是务实拒绝——因为这些受访者提供了不采纳负责任指标方案的“务实”理由，认为指标实际上是学术评估基础设施的一部分，是事实上的“游戏规则”。作为理所应当接受的工具，受访者们认为不应将它们解决了的问题(例如时间问题和认识论限制)置于突出位置，这可能会在时间紧迫且回报微薄的学术环境中给从事服务工作的同行带来额外负担。

通过评估改革弱化甚至去除这些指标等同于引入不确定性。受访者们的讨论并不在于证明定量指标持久存在的必要性(即论证它们是质量或影响力的可靠代理)——相反，受访者们有时甚至承认这些指标存在缺陷，而讨论的核心点是需要“忍受”这些缺陷。

务实拒绝观点绕过了“好”评估者与“差”评估者的二元对立，转而提出了“务实评估者”形象，这些评估者在现实条件下尽力而为，接受必要的妥协。在这类观点中，指标在处理评估的时间性问题中起到了实际作用，某些评估必须在有限时间内处理大量的申请材料。指标作为一种筛选工具，有助于破解优质候选人之间的僵局。同样，JIF也被认为是解决其他结构性问题的可行方案，特别是在需要作出高度专业化的跨学科判断时。

与强烈支持的观点类似，务实拒绝的观点广泛讨论了定量指标和研究奖励制度相关问题的多层次、系统性本质。同时，务实拒绝观点提出了一种更加被动的代理和责任形式——在强烈支持观点中，个人被赋予了改变不当做法和推动文化变革的道德责任；而在务实拒绝的观点中，问题的系统性本质说明这些问题无法由个别学者、部门或甚至学术机构单独解决。与此同时，JIF等指标被认为是一种现成的、可用的解决方案，形成了不同研究领域专家可以接受的常规做法。而负责任指标运动提出的问题和解决方案似乎无法提供反驳务实拒绝的依据。

讨论与结论

负责任指标运动，旨在激励学术“公民”更主动地思考计量指标的使用和误用。本文结果初步显示，美国学界对负责任指标和评估改革运动的了解还不够充分。对负责任指标运动的“责任”术语缺乏熟悉的主要表现在于：没有提及负责任指标声明中的具体内容；对涉及指标性能的更广泛行动者群体缺乏认识(例如无人提及出版商)；倾向于提出不同于改革运动的自发性责任观念。此外，负责任指标在教师招聘、晋升和终身教职的评审过程中并未得到特别关注。

这些结果表明，评估改革运动提出的解决方案和道德理念，并没有在这些美国学者中引起广泛共鸣，这不仅仅是因为宣传不足的问题——本研究的一个原创且重要的发现是，即便提供了关于该运动的信息，学者们可能仍然会以不同于运动目标的方式来构建围绕指标的道德观念——这意味着负责任指标运动不会轻易颠覆或替代那些已经根深蒂固的“自发性责任”。因此，提高认识并明确指出某些指标的技术局限性问题，是促使这一运动与主流研究文化相融合的必要步骤。

(全文及参考文献见Research Evaluation 2024年3月，原文链接：https://doi.org/10.1093/reseval/rvae007，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 邓晨菲金潇苒王译晗

本期责编 | 金潇苒

·end·

衡量人文学科和社会科学学术活动的影响力