开放科学时代科研评估的关键工具:学术知识图谱-国家智能评价与治理实验基地
知评价

首页 > 评价前沿 > 知评价 > 正文

开放科学时代科研评估的关键工具:学术知识图谱

发布时间:2025-08-01 编辑:王译晗 来源:




图片


摘要:开放科学将研究数据与科研软件确立为与传统出版物同等重要的成果,革新了学术交流与科研评估机制。学术知识图谱(Scholarly Knowledge Graphs,SKG)因其能够整合描述所有研究产出及其关联关系(如引用、机构隶属、资助等)的书目信息和语义关系,有望在科研评估指标的生成中发挥关键作用。本研究基于OpenAIRE Graph在前沿探索和应对上述挑战过程中的实践经验,提出两个层面的研究目标:首先,识别当前面向出版物、软件与数据的前沿出版工作流程在构建科研评估所用SKG时所面临的障碍;其次,探讨如何将SKG重新定位为出版流程的监测工具,通过追踪数据质量来识别并修复其中的不足。该过程依托于面向相关利益者(包括研究社区、科学家、机构、数据源提供者及SKG构建者)的一系列工具、技术与实践,助力完善开放科学背景下的学术出版生态系统

关键词:开放科学;研究评估;科研数据;研究影响力;科研软件;学术知识图谱


1

引言


过去十年间,学术界对传统出版物以外的研究成果日益重视,并越来越倾向于采用机构知识库、综合型知识库和数据知识库等开放获取出版平台。这一转向,是对开放科学整体战略、FAIR 原则(可查找、可访问、可互操作、可重用)以及全球资助机构开放获取政策强制性要求的积极回应。

在此背景下,科研评估也需采取整体性视角,以全面覆盖科研履历的多样化特征,并评估开放获取、开源与科研可复现性等开放科学实践。因此,部分学术知识图谱(如欧洲的OpenAIRE Graph、澳大利亚的ResearchGraph.org 和芬兰的research.fi)已开始扩展其数据模型,以覆盖上述新型成果类型及出版平台。在此基础上,面向开放科学实践的新型评估指标也相应被设计出来。

尽管发展势头强劲,该领域仍面临两项核心挑战。首先是“哪些产出应纳入科研评估范围?”其次是“这些产出是否具备被评估的价值?”因此,构建一个开放透明的开放科学评估体系已成为当务之急。本研究一方面指出当前出版物、科研软件和研究数据的学术出版流程存在诸多不足,这些问题严重制约了用于科研评估的高质量 SKG 构建;另一方面,将 SKG 重新定位为出版流程的监控工具,通过数据质量追踪识别缺陷,并对其加以修复。


2

开放科学背景下的研究评估


为响应构建全面、可复现科研体系的诉求,学术出版与研究评估实践正逐步纳入一系列“非传统”科研成果,如研究软件与研究数据,以及传统评估体系中经常被忽视的非常规成果(例如科学评论、工作报告、技术文档和学术演讲等)。这些成果在推动研究可复现性与跨界协作中发挥着关键作用,不仅能够从科研生命周期的其他环节评估影响力与质量,还可从多元视角衡量科学贡献,不再局限于传统的研究影响指标。

在这一新兴生态系统中,研究评估演变为一个全局性过程,不仅考察“传统”科研产出(如论文、数据和软件)的影响力,还包括对科研支撑活动(如科学传播、交流与复用)以及研究实践(如开放科学行为、对资助政策的合规性、对FAIR原则的遵循以及研究透明度等)的评价。研究成果如今可在多种平台与数据源上发布,包括机构知识库、综合性存储库、数据仓储库及软件仓储库。为了切实贯彻开放科学原则,提升研究的透明性、可复现性、可获取性与整体质量,并引导科研资源和创新投入的合理配置,有必要建立一套能够反映当前研究实践复杂性与科研人员多样化履历的多维度指标体系。例如,研究人员的学术简历可更系统地体现其技术贡献(如开发软件、构建服务或工具)与数据管理贡献(如制定研究数据管理计划、参与数据管理实践),而不仅仅限于传统作者身份下的署名角色(如CRediT本体中定义的各类角色)

研究评估所覆盖的出版平台与成果类型的不断扩展,顺应了当前资助机构、政府部门、科研机构以及研究社区日益提倡的“整体学术贡献”理念,同时也反映出一个事实:高影响力与高可信度的研究工作依赖于一个更加广泛且多元的产出与实践生态系统。然而,正如下文将详细讨论的,这一趋势已打破前述传统研究评估的前提条件,并对 SKG 的构建提出了新的挑战。接下来将通过分析不同研究成果类型(见表 1),即出版物、研究软件与研究数据的评估范畴与把关机制,进一步探讨当前研究评估的脆弱性与潜在机遇。


图片



2.1 术出版物

2.1.1 评估范围


开放科学极大地重塑了学术出版格局,推动开放获取实践的广泛采纳。因此,研究评估所涉及的出版场所范围已突破传统的期刊、会议论文及预印本/后印本存储库等范畴,涵盖了更多新型平台,如机构知识库(例HAL.fr)、综合性存储库(如Zenodo.org、Dryad、Figshare)以及国家与区域聚合平台(如西班牙的Recolecta、拉丁美洲的LaReferencia)。同时,推动研究评估的整体性转向,也扩展了可纳入评估的资源类型,如技术报告、白皮书、演示文稿、讲座、项目交付件及学位论文等。

在这一背景下,互操作性面临更严峻挑战。当前存在数以千计的数据源,这些数据源通常遵循各自定义的资源类型词汇体系、元数据模型和数据格式。由于尚无统一公认的评估范围定义,不同SKG 之间存在较大差异——它们往往划定各自适用的出版平台、资源类型和目标数据模型,并通过维持特定的聚合机制以应对上述异构性问题。在当前情境下,“知名出版场所”具备可信元数据与科学质量保障这一前提已不再成立,不同出版平台采取的把关机制差异显著


2.1.2 把关机制


2.1.2.1 元数据信任

将缺乏元数据信任机制的出版平台纳入SKG,会对元数据的可靠性造成潜在威胁,而元数据质量对于研究评估至关重要。研究人员在提交描述性元数据(如资源类型误标、标题拼写错误)与归属元数据(如ORCID和ROR标识符)时可能出错,且这些元数据可被随时更改,进而为有意操控研究评估指标提供了可乘之机。

2.1.2.2 学信任

科学信任的缺失模糊了研究评估的边界,并引发了数据源层面的过滤难题。例如,一个标记为“文章”的研究成果被存储于Zenodo.org,但其实只是一次存储流程的测试产物。由于Zenodo.org 缺乏科学审查机制,该产品未被识别为非正式成果。类似情形说明,在采集未经审核的数据源时,SKG可能意外纳入缺乏科学可信度的成果。



2.2 究软件

2.2.1 评估范围


欧洲近期及正在开展的一系列工作(如SoftwareHeritage.org、FAIRCORE4EOSC项目、FAIR-IMPACT项目,以及研究数据联盟(RDA)下的软件源代码兴趣小组)旨在进一步阐明研究软件的出版实践,并为欧洲开放科学云(EOSC)提供研究软件的归档服务,以支撑该领域的发展。这些工作聚焦于软件作为“代码”的角色,并致力于在全球及社区层面建立对研究软件出版工作流程的共识,涵盖诸多议题,包括研究软件与科研辅助软件的区分、软件的归属元数据、软件持久标识符(PID)、软件归档等。然而,迄今为止,尚未形成一种严格且被广泛采纳的研究软件出版工作流程,也尚无统一公认的软件出版场所。事实上,许多科研人员倾向于将版本控制平台视为理想的出版场所,但此类平台通常并不区分“软件”与“研究软件”,不采集书目元数据,也不提供长期保存机制,因而无法作为SKG值得信赖的元数据来源。

尽管如此,也存在一些例外,例如ESCAPE项目的OSSR存储库、ELIXIR的bio.tools平台,为研究软件建立了专门的出版流程。然而目前多数研究软件仍然被发布在数据存储库、机构存储库或综合性存储库中。对于SKG来说,这类数据源的主要挑战在于如何识别其中的研究软件产出。由于其学科属性或跨学科特征,用于标记软件的资源类型并不统一,再加之数据源数量庞大,SKG在处理互操作性障碍及其规模复杂性方面面临巨大压力。缺乏成熟出版实践和清晰评估边界,严重削弱了SKG对科研人员所产出研究软件的全面识别与纳入能力


2.2.2 把关机制


2.2.2.1 元数据信任    

研究软件的元数据质量、完整性与可信度在很大程度上取决于用户自身对学术交流体系的理解程度与投入意愿。这种依赖不仅体现在元数据记录本身,也涉及与其他科研成果之间的语义关联,例如被引用出版物与软件之间的联系。然而,目前科研人员在这方面的实践仍显薄弱。OpenAIRE Graph的数据显示,在软件与文章之间建立的约45,000条引用关系中,约有23,000条是通过全文挖掘推断得出,而非在出版时由作者主动提供。正因如此,SKG中的研究软件记录呈现出显著分化:一方面是内容丰富、结构完备的高质量记录,另一方面则是信息缺失严重甚至完全缺失的极端情况,部分软件成果甚至未被记录在SKG中。

2.2.2.2 科学信任    

仅在少数情况下,研究软件会在科学信任机制的保障下以符合 FAIR 原则的方式发布。例如,软件作为科学论文的补充材料被期刊或会议要求强制提供书目元数据,或由具备专业出版流程的主题出版平台(如 biotools.org)进行质量控制、同行评议或由可信社区进行背书后发布。因此,旨在追踪研究软件出版过程的SKG在选择出版平台与数据源时必须保持高度谨慎,以防将缺乏科学信任保障的成果纳入系统,从而影响研究评估的可靠性


2.3 究数据

2.3.1 评估范围


研究数据的发布已成为科研实践的常态——科学家通常自主共享数据,或通过支持数据共享的期刊平台将其作为补充材料进行发布。研究数据的出版场所从高度专业化的学科数据库(如ProtBD 中的蛋白质数据库)延伸至跨学科平台,如国家数据档案馆和综合性存储库。在资源类型方面,研究数据与学术出版物和研究软件有所不同,其分类和表达高度依赖于学科特性,并将始终如此。从通用定义出发,不同学术社区对“数据集”(dataset)一词的定义存在显著差异:它既可以指包含软件、数据等在内的“产品文件包”,也可以是指向多个数据文件的“指针集合”,数据库查询结果,或是整个数据库本身。

“数据集”与“研究数据”常被交替使用。当科研人员需将其研究成果归类为“研究数据”时,不同学科社区(或“科学长尾”中的个体研究者)会表现出不同的理解方式,往往采用其特定的本体论进行定义。实际上,明确研究数据的评估范围,需要深入了解各社区的实践逻辑,并面临以下三方面的关键挑战:首先,确立哪些出版场所具备研究评估的资格。即哪些平台及其底层数据源应被视为支持科研评估的有效来源,这是一个由下而上、以学科社区为驱动的决策过程。其次,确定研究数据的研究评估资格。即哪些研究数据实体应被映射为SKG中的研究数据对象,以及哪些应被纳入研究评估体系。这同样是社区层面的判断,并可能随着时间推移而发生变化。第三,数据粒度的设定通常是一个学科特定的选择。在出版平台缺乏学科主题化与结构化支持的情形下,研究人员往往依赖常识进行操作,并需要适应平台的技术限制,例如文件大小限制、上传数量等。

在此背景下,构建面向研究数据评估的SKG任务极具挑战性,特别是在跨学科语境下,其复杂性高、维护难度大。这要求对上述三项挑战做出精细化的、有社区敏感度的选择,并与相关领域专家建立持续反馈机制。


2.3.2 把关机制


2.3.2.1 元数据信任    

FAIR原则的推广促进了研究数据的出版和科研出版物对数据的引用,呈现出积极的发展趋势。OpenAIRE Graph显示,目前已有约6000万件产品被标记为研究数据,且已识别出约30亿条出版物与研究数据之间的关联关系。数据引用有助于提升数据成果的可见性,并提高相关论文的引用频次。然而,跨学科数据引用实践的缺位,在SKG层面带来了诸如语义歧义、身份识别不清、数据不完整以及数据不可追溯等问题,影响了SKG的质量与稳定性

2.3.2.2 科学信任    

在部分学科中,科研人员在研究数据发布前,会通过同行评议或借助验证工具对数据的质量与价值进行审核。在其他场景下,科学信任可由出版平台的投稿流程保障——例如采用社区认可的发布规范、质量控制工具或认证机制,以确保研究数据内容(如文件、数据库记录等)由可信机构、研究社区或服务平台产生。但也存在完全不提供科学信任控制的出版场所,综合性存储库与部分机构数据存储库便是典型代表。这类平台在开放科学生态中具有重要地位,为多类成果提供开放获取渠道,然而由于缺乏科学信任控制,用户与平台可能滥用其发布功能,从而在多个方面对研究评估构成潜在干扰与风险


3

建议与展望


开放科学的快速发展及其尚处于成型阶段的出版生态催生了多样化的出版工作流程,而这些流程在尚未充分成熟的环境中运作,给面向科研评估的SKG构建带来了显著复杂性。然而,这一现状不应削弱我们对开放科学研究评估体系的构想与目标。我们不能指望研究生态系统自动形成如学术论文出版那般标准化的审查与协调机制。相反,我们应正视当前挑战,对现有出版工作流程与基础设施进行积极调整。

与此同时,我们可以通过追踪、测量和理解研究人员当前的成果输出,协同研究社区共同组织并监督这一转型过程。为此,本文提出了一种协同路径,倡导SKG提供者与出版工作流程中的各方主体共同参与:首先,我们建议将SKG作为跟踪与监督出版流程的工具,以便在开展科研评估时,能够充分掌握每一类研究成果背后的审核机制与语境。其次,我们强调基础设施层面的工具与实践至关重要——这些技术与规范有助于加强研究社区、科研组织、政策制定者与SKG提供者之间的协同合作,从而更好地应对以上种种挑战。

(全文及参考文献见Quantitative Science Studies 2024年第5卷第4期,原文链接:https://direct.mit.edu/qss/article/5/4/991/123928/Challenges-in-building-scholarly-knowledge-graphs,本期推文为节选摘编,略有删减和编辑。)





本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 金潇苒 王译晗

本期责编 | 金潇苒

基地官网:https://statevalbase.fudan.edu.cn





·end·



下一篇

诺奖得主也榜上无名?揭示不同方法导致的高被引学者名单差异

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433