从文本到网络,人工智能方法如何协助预测科研论文影响力?-国家智能评价与治理实验基地
学术成果

首页 > 科学研究 > 学术成果 > 正文

从文本到网络,人工智能方法如何协助预测科研论文影响力?

发布时间:2025-04-09 编辑:王译晗 来源:

        随着全球科学研究的迅猛发展,每天都有大量新的研究成果涌现,如何快速且精准地预测这些科研论文未来的影响力,成为学术界和科研管理部门日益关注的重要问题。浙江大学的研究团队在发表的两项相关研究中,分别从论文文本内容分析和科研合作网络动态两个不同视角,探索如何利用人工智能技术改进论文影响力的预测效果,并初步取得了一些积极的成果。



基于深度表征学习的

学术论文潜在影响力分析

在当今科学研究高速发展的背景下,每天有大量新论文问世。然而,对于这些刚发表的论文而言,传统基于引用次数的影响力评估方法面临巨大挑战,因为新发表的论文尚未积累足够的引用信息。如何在短期内识别具有潜在高影响力的研究成果,不仅关乎学者的研究决策,也影响着资助机构的资源配置以及期刊编辑的选稿策略。因此,迫切需要一种无需历史引用数据、完全基于论文文本内容的新方法来进行预测

研究团队创新性地采用深度学习的自然语言处理技术,特别是专为科学文献优化的深度预训练模型SciBERT。SciBERT模型包含约1.1亿个参数,通过大规模的科学文献语料预训练,能够深层次地捕捉论文文本中的词汇语义、语法结构以及上下文信息。

具体方法上,研究首先利用SciBERT将论文的标题和摘要文本转化为高维的语义向量表征,捕捉论文内容的深层语义特征;随后,基于论文向量与高影响力论文的空间关系,提出了两个量化指标:“话题性”(Topicality,τ)与“原创性”(Originality,σ)

(1)话题性(τ):定义为待评估论文向量与当前领域高引用论文群体在语义空间中的平均相似度,反映了该论文对当前研究热点的切合程度。

(2)原创性(σ):定义为待评估论文向量与当前领域高引用论文之间的最小语义距离,用于衡量论文提出的新观点或新视角,即语义空间中的独特性。

图片

图1 基于深度表征学习的学术论文潜在影响力分析框架

研究团队在COVID-19研究数据集上进行了大规模的实验分析,包括106万篇相关论文的多元回归分析。研究发现,话题性和原创性与论文未来的引用次数存在显著正相关关系。具体地说,在预测未来6个月引用次数的多元回归模型中,原创性σ的回归系数为5.4915(P<0.001),话题性的回归系数为6.6879(P<0.001)。在更长期的12个月预测中,两个指标的系数进一步提高,分别为12.9964(P<0.001)和13.8678(P<0.001)。

此外,团队还进行了案例研究和仿真实验,进一步验证了上述指标的稳定性和有效性。结果显示,基于SciBERT的深度学习方法能够更精准地捕捉和表达论文内容的潜在学术影响因素。该研究成果发表于信息计量学领域的权威期刊Journal of Informetrics上。


图片


图2 一个具有代表性的案例研究表明,与当前热点主题高度契合的论文或具有高度原创性(在表示空间中明显独立)的论文往往能够取得更大的学术影响力。


图片


图3 基于指标的仿真结果显示:随着研究领域的成熟,突破性发现的潜在空间逐渐缩小;而位于已建立研究领域之间的跨学科研究,具有实现高影响力的显著潜力。




科研合作与引文网络时序动态的

论文影响力预测模型

除论文内容本身的质量外,现实中影响论文引用行为的因素远不止于文本内容,还包括作者的科研合作模式和引用网络随时间动态变化的特征。以往预测论文影响力的模型通常忽略了作者之间的潜在合作机制和网络的动态变化过程,使得预测结果难以精确刻画真实世界的复杂性。基于此,研究团队提出需要设计一种新的预测框架,能够同时建模作者合作的潜在机制和引文网络随时间演变的动态特性,从而更准确地揭示论文影响力的形成和传播机制。

研究团队提出名为CoDy的创新性预测框架。CoDy模型首次将学术作者之间的合作预测任务作为辅助任务融入到论文影响力预测过程中,并同时提出了一种细粒度的事件型连续时间编码方法,具体包括:

(1)作者合作预测任务:将作者之间的合作预测作为辅助任务嵌入模型之中,CoDy不仅预测当前已有的作者合作关系数量,也预测未来潜在可能的作者合作关系,从而显式地建模学术合作对论文影响力的推动作用。

(2)细粒度连续时序动态建模:在传统离散时间切片的基础上,研究团队创新性地提出了基于事件的连续时序编码方法,详细刻画每次论文发表和引用行为的精确时间特征,以有效捕捉论文生命周期内引用网络的动态演变规律。

具体而言,CoDy首先构建了一个异构的时序学术图,图中的节点包括论文、作者和发表渠道等,不同类型节点之间的边表示论文发表、引用和作者合作等关系,并附带精确的时间戳。随后,CoDy模型通过一种注意力机制(attention)驱动的时序编码技术,将论文引用和作者合作的每个事件信息精准地编码到节点特征之中,逐步聚合生成节点的时序动态特征表示。

为了充分发挥合作关系预测任务的辅助作用,团队进一步设计了双层的合作预测结构:一层用于捕捉已有合作关系对论文影响的贡献,另一层则预测未来合作关系的可能变化,全面涵盖过去和未来的合作模式。最终,通过端到端的联合训练,CoDy模型显著提升了论文引用数量预测及引用等级分类任务的准确性。

CoDy模型分别在计算机科学领域的DBLP数据集和物理学领域的APS数据集上进行了严格的实验验证,展现出极佳的预测性能。结果表明,CoDy在引用数量预测和论文影响级别分类任务中,表现出明显优势。相较于现有的最优模型,CoDy的引用预测误差最多降低了6.17%,影响级别分类的准确率则最多提升了5.05%。

图片

图4 Cody框架示意图

研究进一步通过消融实验和超参数敏感性分析,验证了模型的鲁棒性和可靠性,证明了合作关系预测和时序动态建模对论文影响力的关键作用。该研究成果发表于SIGIR上,SIGIR是中国计算机学会(CCF)推荐的A类国际顶级学术会议,该论文入选了会议的Best Short Paper Nominees(最佳短论文提名),体现了研究成果在国际学术界的高度认可。



从内容到网络:

两个视角共同揭示论文影响力形成机制

上述两项研究成果相互补充、相辅相成,共同形成了内容特征和社会网络特征相结合的论文影响力预测体系

基于文本的分析方法从论文内容本身的文本语义特征入手,通过深度学习模型提供了一种不依赖历史引用数据的早期影响力预测方案,为短期内难以获得引用数据的新论文提供快速的评价工具。基于合作网络动态分析的方法从网络视角入手,关注作者合作模式与论文引文网络随时间演化的动态变化,捕捉内容以外的社会网络维度因素,弥补了单纯基于内容特征方法的不足。为深入理解学术论文在学术网络中的传播与影响机制提供更全面的视角。

两项研究通过文本语义分析和网络动态建模的融合,既能捕捉论文自身质量的内在信息,又能揭示外部合作网络对论文影响力传播和扩散的推动作用,从而共同提高预测模型的精准性、稳定性和解释性。这种协同效应为科研管理部门、学术期刊以及科研资助机构提供了更加全面、深入的科学评价工具,助力其科学决策。



应用前景与未来研究展望

本系列研究成果在学术评价、科研管理和政策制定等多个领域都具有广泛的应用前景。期刊编辑和学术会议主办方能够利用这些方法快速识别具有较高潜力的论文,从而提高学术传播效率;科研资助机构则能更精准地进行资源投入,提升科研成果转化效率。

未来的研究可进一步整合作者声誉、学术网络社区结构和跨学科交叉影响因素,构建更全面的预测模型。此外,这一框架亦可扩展到其他科研评价领域,如人才评价、学术资源优化配置等。


论文发表信息

1.Zhuoren Jiang, Tianqianjin Lin, Cui Huang*. Deep representation learning of scientific paper reveals its potential scholarly impact. Journal of Informetrics (JOI). 2023, 17(1): 101376. (SCI&SSCI, JCR-Q1).

2. Pengwei Yan, Yangyang Kang, Zhuoren Jiang*, Kaisong Song, Tianqianjin Lin, Changlong Sun, Xiaozhong Liu. Modeling Scholarly Collaboration and Temporal Dynamics in Citation Networks for Impact Prediction. Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), USA: Washington D.C., 2024: 2522-2526, short paper. (CCF A).




本期策划 | 复旦大学国家智能评价与治理实验基地

本期责编 | 邓晨菲 王译晗

基地官网:https://statevalbase.fudan.edu.cn


·end·


下一篇

A measure and the related models for characterizing the usage of academic journal

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433