知评价

首页 > 评价前沿 > 知评价 > 正文

大语言模型时代,AI能否评价研究质量?

发布时间:2025-09-12 编辑:王译晗 来源:复旦智能评价与治理



摘要:ChatGPT等AI技术,正在逐渐动摇文献计量学作为研究质量指标主要生成工具的地位。目前,已有研究评价体系正式采用了此类技术,且有证据显示,许多同行评议者已在非正式情境下使用它们。鉴于文献计量学在科研评价中的应用长期存在争议,本文系统分析了由大语言模型(LLMs)驱动的AI生成质量评分的相对优势与局限。从技术层面来看,基于LLM的生成式人工智能在大多数关键维度上已与文献计量学相当,甚至有所超越:其与人工评分的相关性更高(准确性),适用学科范围更广、对最新成果的覆盖能力更强(覆盖率),并可能反映更为多元的研究质量维度。然而,与文献计量学相似,现有LLM并未真正实现对“研究质量”的直接测度。其明显短板在于:LLM在研究评价中的偏倚特征尚不明晰,且其生成的评分透明度低于引文计量。从系统性影响角度看,核心问题在于引入的LLM指标或将改变研究者行为。文献计量学往往促使学者追逐高影响因子期刊或力争高被引论文,而基于LLM的指标则可能驱动作者在摘要中作出误导性陈述,过度夸大研究成果,以迎合AI系统的判断。倘若AI生成的期刊指标取代影响因子,将进一步引导期刊默许作者在摘要中夸饰其研究价值,最终危及学术诚信。

关键词:研究评估;ChatGPT;大语言模型;科研伦理




01

引 言


成果发表后的研究质量评估,是现代科研体系中既耗时又至关重要的环节。由于研究成果质量参差不齐,而聘任或奖励机制又需识别并优待“高质量”产出者,因此大量专家的时间均投入于此。以英国2021年研究卓越框架(REF)为例,1,120位专家(主要为资深教授)历时一年评估了185,594项研究成果,其结果直接决定了英国直至2029年的研究经费分配。在全球范围内,学术聘用与晋升也普遍依赖专家对候选人成果的评议。

由于研究质量评判耗时费力,学界自然倾向于寻找简便的替代性指标,如期刊声誉、期刊引用率或论文被引次数。然而,这类做法始终饱受争议,支持与批评并存。近年来,以ChatGPT为代表的大语言模型(LLMs)逐渐作为文献计量学的潜在替代方案,进入研究评价领域。本文旨在评估LLM在该领域的应用潜力,并探讨该新兴角色可能引发的一系列问题



02

基于大语言模型(LLM)的

研究质量指标生成


以ChatGPT为代表的生成式AI系统,可以通过输入研究质量的定义与论文全文,指令其进行评分,从而直接生成研究质量指标。这一方法与文献计量学和传统机器学习有本质差异:它模拟专家评审过程,关注文本内容分析,而非依赖引文数据或元数据。已有研究表明LLM能够提供有效的同行评议式反馈,其对论文录用/拒稿的预测结果与编辑决定呈正相关。最新研究亦显示,ChatGPT-4o在研究质量评估方面展现出潜力,部分评审者甚至已借助ChatGPT撰写审稿意见

多项实证研究已证实LLM评分与专家评价之间存在正相关关系。一项针对21篇医学论文的研究发现,ChatGPT-3.5的审稿建议(接收/修改/拒稿)与人工评审结果显著相关,而ChatGPT-4o未表现出相同特征,这可能源于样本量有限。另有三项研究均基于英国REF评分标准(1*-4*等级)。其中,一项研究将51篇图情领域论文提交至ChatGPT-4o网页界面,其评分与作者自评呈弱相关(0.20),但经15次重复提交并取平均后,相关性提升至中等水平(0.51)。后续研究通过API接口仅提交标题与摘要(无全文),并在30次迭代后取平均,相关性显著提高至 0.67。若仅输入标题,相关性则下降,表明ChatGPT的核心能力在于通过摘要解读作者关于原创性、重要性和严谨性的表述。Google Gemini 1.5 Flash亦呈现类似但稍弱的相关性,但在该模型中,PDF输入效果优于标题与摘要。

中等规模研究复现了学科特异性结果。在REF2021临床医学类别中,针对9,872篇论文的ChatGPT-4o-mini评分与院系研究质量平均分呈弱正相关。期刊层面的聚合分析显示相关性更强,但部分顶级医学期刊因其简洁的报告风格,导致评分偏低。在新颖性评估方面,LLM能够通过引言、结果与讨论部分(而非全文)预测计算机科学会议论文的新颖性。针对著作类成果,ChatGPT-4o-mini基于标题与摘要的评分,与人文社科类著作的被引率呈弱正相关。迄今最大规模的分析从34个评估单元(UoA)中分别选取高、低分院系的论文,通过API提交标题与摘要,经30次迭代取平均。其结果显示,ChatGPT-4o评分与院系平均分在临床医学(-0.15)之外的所有领域均呈正相关:弱相关(0.05-0.3)主要出现在人文艺术领域,中等相关(0.3-0.5)多见于社会科学,强相关(0.5-0.8)则集中于健康科学、自然科学与工程领域。这些发现虽具有启发性,但因样本仅限英国论文,且依赖公开的REF院系分数,因此虽与“LLM具备普适性质量识别能力”的假设相符,却未能构成确凿证据——原因可能在于ChatGPT利用了公开的院系质量概况信息。临床医学的异常结果或因其摘要往往仅陈述事实而缺乏解读,使模型难以推断其重要性。另有一项覆盖REF2021期刊论文90%的超大规模研究表明,ChatGPT-4o-mini评分与原始被引次数的相关性高于经学科/年份标准化后的引用指标。

从潜在偏倚的角度看,一项针对26个Scopus学科、117,650篇论文(2003-2023)的研究发现:近20年发表的论文平均得分略高;不同学科平均分存在差异;摘要长度与评分正相关。这些差异未必意味着偏倚,因为研究质量的确有可能随时间提高,或高质量论文确实倾向于撰写更长摘要。

尽管现有证据尚不足以定论,但总体上已表明:基于LLM的质量评估已经优于文献计量学,尽管仍存在明显且尚未被完全理解的偏差。鉴于LLM技术的持续演进,将其纳入实际研究评价体系已具备合理性



03

LLM质量评估的优势


相较于文献计量学指标,基于大语言模型(LLM)的质量评估至少具有三方面显著优势:

3.1 更高准确性

ChatGPT-4o的评分在多数领域与人类专家评分呈现更高相关性。在偏差等因素可控的前提下,它不仅适用于文献计量学的既有应用场景,理论上还可拓展至传统指标难以覆盖的领域

3.2 更广覆盖度(年份与领域)

引文类指标通常需要2-3年成熟期,难以及时评估最新成果;而LLM可用于任任意发表年份的研究,这对于需要快速评估最新成果的情境尤为重要。此外,引文指标在艺术与人文以及相当一部分社会科学领域效度极低(与专家评分的相关性微弱或接近为零),这可能源于这些学科在知识建构中的引用使用方式不同;而ChatGPT-4o不依赖引文数据,在多数领域表现出更强的适用性

3.3 更多质量维度

引文指标仅直接反映学术影响力,对严谨性、原创性与社会价值等维度至多只能提供间接反映。LLM在理论上可覆盖所有质量维度,尽管现有证据尚不充分,但已显示出其在特定情境中的多维评估潜力。虽然LLM依赖系统指令中所定义的质量维度(这些定义可能存在人类固有的不精确与偏差),但在人类仍作为研究质量终极裁决者的前提下,目前并无更优的替代定义来源。



04

LLM与文献计量学的共性


与文献计量学的重要共性在于:LLM同样并非“测度”研究质量。引文指标主要体现的是学术影响力,而非整体质量。尽管学界尝试以替代性定量指标(如替代计量学)弥补缺陷,但在多数场景下尚未从根本上解决问题。LLM目前最有效的做法通常是基于标题与摘要,本质是通过文本特征推测而非测度研究质量。同时,它们可能忽视或低估非常规研究类型与特殊贡献(包括文化特异但质量同等的研究)。即便采用全文进行评估,也不意味着实现了质量“测度”:若仅凭标题与摘要即可获得较高准确度,反而说明全文评估的核心效力仍来自标题与摘要部分,其余文本有时可能干扰LLM的判断。



05

LLM质量评估的局限


截至2024年9月,LLM相较于文献计量学仍存在若干明显局限,其中部分或可随时间缓解:

5.1 未知偏差

AI系统可能从训练数据中习得偏差(如性别偏见、对知名作者或名校机构的偏好),甚至因算法机制衍生新偏差。尽管除文献年代、学科与摘要长度等现象外,目前尚无确证的偏差类型,但从审慎出发应假定其潜在性并谨慎应用。相较而言,文献计量学的偏差类型已有较系统研究:存在轻微的文章层级性别偏差与更显著的职业阶段偏差,以及由于数据库覆盖限制而导致的国家层面的自引或漏引问题。任何负责任的使用都需关注并尽可能解决这类偏差。

5.2 透明度低

文献计量数据虽存在不透明环节(如数据库收录决策、引文抽取与匹配算法),但整体相对透明。而LLM几乎完全不透明:商业模型的训练语料未知,系统包含的多重算法高度复杂,即便公开架构也难以据此理解其评分机理。尽管LLM可附带评分解释,但这类解释往往过于笼统,且可能并不准确。

5.3 应用场景研究不足

目前(2025年2月)有关LLM在研究质量评估中的价值证据仍相对有限,尚需在多元情境下开展实证研究以增强用户信心。此外,除个别项目资助评审的试点外,实际评估场景中的操作经验与最佳实践仍然缺乏



5.4 更严重的操纵风险

引文指标虽可被通过过度自引、引用联盟或策略性引用等方式操纵,但除期刊排名外,这尚未成为多数评估中的核心忧虑。LLM评分的可操纵性则未知且不可忽视:若其主要依赖摘要中的自我陈述,评价中使用LLM或将导致作者在摘要中过度夸大研究贡献;为提升相关指标,期刊编辑与出版方也可能默许此类“过度宣传”。这将削弱摘要作为信息载体的功能,危及学术诚信,并最终降低LLM的有效性。




06

结语:LLM在研究评估

的负责任使用


如上所述,LLM评分在技术层面具备补充乃至超越文献计量指标的潜力,但由于未知因素仍多,当前不宜在重要评估情境中直接采用若能进一步厘清其偏差特性、使用边界与可被操纵的风险,则可作为辅助同行评议的次要角色开展试点应用。

长期而言,若实践验证其有效且未引发操纵问题,LLM有望在更核心的功能上逐步接替文献计量学——例如在未来的英国REF国家研究评估中,作为提供给专家评审的支持性信息,取代传统的文献计量指标

(文章来源:Scientometrics,原文链接:https://doi.org/10.1007/s11192-025-05361-8,本期推文为节选摘编,略有删减和编辑。)





本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨 王译晗

本期编辑 | 宋欣雨

基地官网:https://statevalbase.fudan.edu.cn



· end ·



下一篇

“学术成功”的背后:专注科学进步还是追求职业发展?

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433