践评价

首页 > 评价前沿 > 践评价 > 正文

36条建议!如何开发和使用下一代指标?

发布时间:2024-05-24 编辑:王译晗 来源:复旦智能评价与治理





近期,欧洲研究型大学联盟(LERU)发布《欧洲科学和学术研究的下一代指标》报告,该报告由多所欧洲顶尖大学共同撰写,探讨如何使用下一代指标来支持负责任的研究评估


引言



学术评估涉及的领域广泛、复杂且不断变化,所依赖的数据和指标也同样如此。本报告探讨了大学如何能够并且应该如何使用现有的数据和指标,同时结合定性专业知识和信息来进行研究评估。下一代指标是负责任研究评估的关键组成部分,在脱离情景的情况下使用指标是没有意义的,无论它们多么简单易用。

大学在以专业的方式进行不同维度的研究评估中,常常面临着资源、能力和经验缺乏的困境。因此,它们不得不尽力利用有限的条件去即兴应对。更糟糕的是,由于数据分散、数据集不兼容、数据缺乏标准化、缺乏维护、信息系统过时,许多大学的管理系统和流程无法在内部产生经过验证的、可靠且有意义的数据。正如LERU(欧洲研究型大学联盟)对大学开放科学实践的审查所示,即便是监测我们已经在做的事情,也需要大量的时间投入,并且依赖人工操作。

本报告重点关注研究评估,因为该领域显示出在未来能够取得重大进展的潜力——使用和改进负责任研究评估的下一代指标,包括开放科学、社会影响和创新



何为下一代指标?



一代指标囊括了符合机构目标使命的已有指标和新型指标,涉及所有层级和类型,并且与时俱进,具备有效性和可靠性,同时能够与以往的评估框架相贴合,被负责任地使用。

我们认为,推动下一代指标的两大驱动因素包括:

•“以不同方式衡量”的必要性,源自于对当前指标和度量被不合理使用的不满。

•“衡量不同对象”的需求,源于对大学的新期望,如开放科学、影响力、社会相关性和诚信等。

这两大驱动因素需要协同考虑,因为它们在塑造新的研究评估实践和开发新型指标的过程中相互作用。



报告重点关注的大领域





一、下一代指标的发展、使用及其局限性

报告的前八章对本领域展开论述:首先概述了在学术界和科学政策相互作用的背景下,研究指标的演变过程。深入研究了指标的重要性、本质及其限制,同时也探究了指标滥用的根源。随后,探讨了与新一代科学计量学(scientometrics2.0)相关的障碍。接下来,对同行评议和总结性指标的局限性进行比较,展示指标如何作为补充方法。

指标使用的问题之一是它们在大学内部经常被应用于不恰当的聚合与分析层级。这些指标往往从较高的政策层面“下渗”到科学家的工作中,报告特别关注了指标“涓滴效应”这一特定现象。随后,探讨了当前广受关注的一个相关话题:如何在评估学术研究成效时利用下一代指标及大学排名。

最后,通过讨论伦理和政策来收尾,包括如何应对基于人工智能的指标所带来的新兴伦理问题(机遇与挑战并存)。

二、LERU大学评估政策现状

LERU大学目前正在实施哪些下一代指标相关措施?我们对这些措施及相关问题的了解程度如何?换言之,我们对指标的理解有多深?鉴于我们不可能提及指标使用和政策的所有方面。因此,我们选择当前大学内部最受热议的领域:开放科学政策的发展

调查结果显示,LERU大学及其所在国家的开放科学活动呈现出多样化的景象。显然,不同大学和国家正处于开放科学发展的不同阶段,其中一些学校或国家已建立了较为成熟的开放科学支持和监测体系。这种多样化现象主要是因为每所大学或国家旨在满足的具体需求不同,以及他们对于开放科学如何满足这些需求的看法各异,以及他们所能够获取到的支持和监测开放科学所需的资源不均等。

在机构、国家和国际层面,最完善的开放科学政策和监测对象是开放获取(OA)。例如维护和定期更新监测系统,用以报告OA出版物的占比。尽管一些大学和国家已经实施了与FAIR数据(可发现、可访问、可互操作、可重用)相关的政策,但这些政策的普及程度仍然较低,尤其是与OA相比。开放科学的其他六大支柱——教育与技能、奖励与激励、下一代指标、研究诚信、公民科学和欧洲开放科学云——目前还缺乏正式的政策和监管。需要注意,开放科学的八个支柱中有许多内容是相互联系和重叠的。因此,可能不需要为每个支柱单独制定政策,而是应考虑如何通过开放科学政策推动多个支柱共同发展

三、动态、可视化利用大学数据连接现有和潜在的下一代指标

报告的第三个重点涉及相对较新的主题。随着各机构引入新的价值观、目标和政策,对公开、评估和监测其进展所需数据的需求日益增长。鉴于研究学科、团队、院系、机构和国家之间在价值观、目标和政策上的多样性,一刀切、固定的指标体系已无法满足当前的需求。同时,当前越来越多的数据工具能够提供机器可读的细粒度知识图谱,旨在全面捕捉研究活动和成果。但是与传统的数据库相比,这些工具在数据质量和完整性上仍有明显短板。这些工具需要更加丰富的文献,以便理解数据并解决数据中的偏见和差距。

大学如何应对这些挑战?我们建议从以下几个方面入手:

1. 数据细粒度(包括研究人员、组织及其研究活动和成果的特征)。

2. 指标(面向特定情景进行数据计算和组合,包括时间序列、与基准的比较、个体/组织或其他群体间的比较,从而构建经过验证且可靠的指标)。

3. 生成或分析数据的算法、代码和软件。

我们强调数据的细粒度,因为我们相信大学可以在这一领域取得显著进展。毕竟,这是他们自己的数据。

虽然目前只有少数大学能够充分利用这些方式来使用其数据,但是可能难以持久。我们建议大学通过合作来推动这一领域的进步。即便大学选择继续外包其情报研究,这种合作也将增强其内部专业知识,使其能够更好地评估应该使用哪些商业服务。开放科学实践同样需要在遵守法律和隐私的前提下,对元数据和数据基础设施采取透明的政策。

四、主要建议

本报告提出36条建议,旨在指导大学的研究评估向更符合情境的、更多样化的指标和指标体系过渡,以开展符合机构目标和使命的责任性、总结性与形成性评估其中一些建议面向大学领导者,一些面向参与研究评估和情报研究的专家,还有一些主要面向广大研究社区。本报告并未按照“目标群体”对建议进行分类,因为确定责任、活动以及处理优先级应由各机构自行决定。

向下一代指标过渡的建议

1.为推动采用下一代指标,首先要对现有指标进行全面评估,确定其优点、缺点和需要改进的方面。

2.让社区内的所有利益相关者都参与到决策过程中,实现“让被评估者参与评估”

3.衡量范围应超越传统的文献计量学,扩展至社会影响、开放科学、合作以及对研究和学术界多样化贡献的认可。

4.为这一过渡制定明确的目标和目的。这些目标应与机构的使命、价值观和重点战略紧密相连,确保下一代指标的使用与机构整体愿景一致。

5.机构可以开发并实施试点项目,评估下一代指标在特定部门或研究组织中的应用可行性。

6.为教师和研究人员提供培训和支持,确保他们能有效地使用和理解这些指标。

7.持续评估所采用的下一代指标,确保它们的持续有效性和相关性。

关于指标政策的建议

8. 大学在制定和使用下一代指标时,应明确考虑政策和指标的多层次性。

9.为了确保透明度并减少潜在偏见,对量化方法和基于指标的政策所使用的数据和指标的完全公开至关重要,这能够使利益相关者清楚地理解指标的局限性和潜在的滥用风险。

10.资金分配方案和政策工具的设计与实施应当促进包括学界在内的所有利益相关者的积极参与。这种包容性的方法提供了自下而上的视角,有助于培养信任,鼓励开放对话。

11.国际研究管理协会网络(INORMs)开发的研究评估SCOPE框架中能够为大学提供宝贵的框架指导。

12.当使用文献计量指标进行政策决策时,利益相关者必须始终警觉指标中的潜在偏见。

13.批判性地评估用于政策决策的数据和指标中固有的偏见。

14.制定并遵守使用科学计量数据的道德准则,防止其被滥用,保护研究人员和机构的利益。

关于指标使用的建议

15. 充分利用国际卓越中心的技术专长,如欧洲科学学研究机构(RoRI)、欧洲科学计量中心和大学图书馆。

16.指标应认可并奖励团队贡献,而非仅仅是个人。

17.在开发和实施下一代指标时,机构必须密切关注这些指标的建构和应用背景。指标的设计和调整应适应学术体系的特定层级,同时顾及其中的多样性和复杂性。

18.应使用归一化和标准化等技术,解决偏差问题,确保文献计量数据的公平比较。

19.促进学术界与政策制定者之间的开放对话,以解决问题、增进理解并预防科学计量数据的潜在滥用。

20.认识到同行评议和指标在评估研究影响和知识创造过程中的互补性。

21.理解各种出版物类型和渠道中特定学科的交流行为。

22.不应将资金和资源分配与更高层级的绩效指标挂钩,而是应将其与相应层级的使命和目标相关联。这种做法可以防止指标的不当下渗,避免负面后果。

数据处理建议

23. 制定并遵守使用科学计量数据的道德准则,防止其滥用并保护研究人员和机构的利益。

24.与研究人员和数据分析师合作,开发创新方法,以应对因整合新数据源而出现的数据冗余问题。

25.为解决共同作者、性别和开放获取(OA)出版等中观和微观层面的问题,数据处理方法应精益求精,提供更精确的分析信息。

26.增强并标准化大学注册系统的元素,以确保用于生成指标的相关数据的可用性,并确保所生成指标的可靠性和一致性。

大学排名建议

27. 制定关于排名解释的指导方针。

28.机构应保证排名的使用方式透明,并阐明背后的目的和意图。

29.政策制定者和机构应利用INORMS/SCOPE评估框架来评估排名系统,并确保这些系统与其目标和优先事项相一致。

关于道德的建议

30. 在制定新指标时,必须将道德因素放在首位。指标的设计和使用应当尊重数据隐私、知识产权和研究诚信。

31.虽然下一代指标是评估研究绩效和影响的有价值工具,但不应将其作为评估的唯一依据。大学应采用一种整体性方法,同时考虑研究的质量和创新、实际影响以及学者对其领域的贡献。

32.近期兴起的人工智能工具带来了许多道德和技术方面的新挑战,应积极主动地尽早探索这一新领域。

关于开放科学和指标交流的建议

33.所有LERU成员都应维护详细介绍其开放科学机构政策和国家政策的网站。这些网站应提供包括英语在内的多种语言版本,以确保其可访问性。

34.所有国家都应建立类似法国开放科学监控机构的开放科学仪表板。这些仪表板应涵盖OA出版物、预印本、开放数据、预注册等多个方面。

关于LERU内部合作的建议

35. LERU成员应相互合作,交流、处理和分析与研究评估相关的开放数据的最佳实践和代码,并提供对相关数据源的开放访问。

36.建立与资助组织的合作关系。


(报告原文链接:https://zenodo.org/records/11123148,本期推文为节选摘编,略有删减和编辑。)





本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 |邓晨菲 王译晗

本期责编 | 邓晨菲

基地官网:https://statevalbase.fudan.edu.cn




·end·



下一篇

指标框架 | 推动学术领域的开放知识实践

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433