知评价

首页 > 评价前沿 > 知评价 > 正文

多平台实测:ChatGPT能否预测同行评议结果?

发布时间:2025-10-10 编辑:王译晗 来源:复旦智能评价与治理


图片



摘要:同行评议是科学质量控制的关键环节,但其过程往往繁琐且耗时。若能利用能够预测评审结果的技术或许有助于改善这一状况。尽管已有研究表明,大语言模型(LLM)在一定程度上能够预测同行评议结果,但本文引入了新的研究场景,并采用更为稳健的方法——对ChatGPT的多次评分结果取均值。本研究基于审稿指南,并仅使用论文标题和摘要,对30次ChatGPT预测结果取平均值,未能有效预测F1000Research的评审结论(Spearman相关系数=0.00);但在SciPost Physics中呈现弱正相关(有效性ρ=0.25,原创性ρ=0.25,重要性ρ=0.20,清晰度ρ=0.08);在国际学习表征会议(ICLR)论文中则呈中等正相关(ρ=0.38)。当进一步引入全文后,ICLR的相关性有所提升(ρ=0.46),F1000Research略有改善(ρ=0.09),而在SciPost Physics的四个质量维度上的相关性则表现不一。采用简单思维链提示词(chain-of-thought prompts)后,F1000Research的相关性略有提升(ρ=0.10),但ICLR略有下降(ρ=0.37),SciPost Physics则进一步降低(有效性ρ=0.16,原创性ρ=0.18,重要性ρ=0.18,清晰度ρ=0.05)。总体而言,结果表明在部分场景下,ChatGPT能够实现较弱的发表前质量预测,但其有效性及最佳使用策略在不同平台、期刊和会议之间差异显著。对于ChatGPT而言最适合的输入内容在不同平台之间也存在差异

关键词:ChatGPT;学术同行评议;期刊评审;研究评估




01

引 言


既有研究表明,人工智能(AI)可为评审人员提供有价值的辅助支持,包括对评议内容提出改进建议、识别由大语言模型生成的评论,或对产出高质量评审意见的审稿人进行奖励。已有证据显示,AI所提供的建议可与人类评审意见相媲美,这意味着编辑和审稿人可借助AI工具确保初始评审未遗漏关键要素。然而,将AI作为主要评审来源仍存在隐忧,尤其在于确保评审准确性的责任必须由人类承担。人类评审者的参与能够有效降低明显存在缺陷或可能误导读者的文章被发表的风险,尽管人类评审亦可能出错。此外,人类评审还可防范作者试图操纵AI的行为。不过,AI在元评审环节则可发挥积极作用,例如对人类审稿人提交的评论进行综合或评估,并生成摘要,从而提升同行评议流程的效率。

大语言模型在特定情境下已展现出预测同行评议结果的能力,且通常能够给出其决策解释。例如,基于标题和摘要数据,ChatGPT对国际学习表征会议(ICLR 2017)论文的1–5分评分与人类评审得分呈弱相关(Spearman相关系数=0.282)。然而,当输入全文时,相关性下降至0.091,尽管全面的同行评议实际上离不开全文。

另一项针对51篇已发表论文专家质量评分的研究显示,单次ChatGPT预测与人类评分的相关性较低(ρ=0.38),但对30次预测结果取均值后,相关性显著提升。同时,该研究发现,使用全文时的相关性(ρ=0.60)反而低于仅用标题与摘要时(ρ=0.67)。这表明,在预出版评审中采用均值策略同样可能提升预测的准确性

最后,大量研究关注于大语言模型的提示策略。在学术评审场景中,简单提示(如描述评分标准)即可发挥作用。但更为合理的做法是向AI提供与人类评审者相同的指导纲要,以便精准界定任务范围。对于更复杂的任务,思维链(Chain-of-Thought)提示法已被证明在大语言模型中效果显著,为评审提示策略的改进提供了新思路

基于上述讨论,本文拟探讨以下问题:

RQ1:ChatGPT是否具备在不同情境下,预测发表前同行评议结果的能力?

RQ2:在发表前同行评议中,取多次ChatGPT预测的均值是否较单次预测更为准确?

RQ3:要求在报告末尾呈现评分的系统提示,是否会提升预测的有效性?



02

方 法


研究设计包含三个主要步骤:(1)从多个学术场景中批量获取发表前文稿及其对应的审稿意见;(2)通过ChatGPT应用程序接口(API)获取预测结果;(3)使用ChatGPT多次预测取均值,并与审稿人实际评价进行相关性分析,以回答研究问题

2.1 数据来源

尽管同行评议报告及结果通常属于保密信息,但在推动科学透明化的倡议下,此类资料偶尔会被公开。为避免出版偏倚,本研究必须同时获取已接受与未接受的原始提交文稿及相应评审结果,而此类数据集极为罕见。所选的F1000Research、ICLR以及SciPost Physics三个案例能够代表当前符合该条件的最大可用数据集。

2.2 ChatGPT设置

研究采用ChatGPT-4o-mini版本进行批量处理,该版本在保证结果可比性的同时具备较高性价比。系统提示词根据各期刊或会议的审稿指南改写,要求模型以学术专家身份对论文进行评分和反馈。每篇文章均被提交30次,并取平均分以提升准确性。数据通过API处理,确保符合版权法规定,且所有输入数据在30天后删除。



03

分 析


通常情况下,两名审稿人间的一致性通过组内相关系数(ICC)衡量,用以评估审稿人是否倾向于给出相同或相近的评价。但该方法在本研究中并不适用,因为ChatGPT似乎难以与人类评审员在量化分值上完全一致。相反,其价值在于能生成在顺序上与“正确”(即人类评审结果)相似的分值。因此,ChatGPT评分最关键的特性在于其与人类评分序列的一致程度,故本文采用Spearman相关系数进行比较。


04

结 果


4.1 F1000Research

在F1000Research的250篇初次提交论文中,ChatGPT平均推荐分与人工评审推荐分之间的相关性整体较低(图1)。引入全文或采用思维链提示策略仅带来轻微改善,但总体相关性依然较弱。其中两处下降趋势与预期相悖。为排除程序误差,另一位程序员使用不同编程语言(R)重写了处理程序,结果与最初发现一致。


图片


主要问题在于,ChatGPT几乎总是选择“有保留地批准”(250篇中244篇在30次迭代中均被判为该选项),极少选择“拒绝”或“批准”(表1)。这种谨慎倾向,加之有限的选项尺度,导致其在该任务中的预测效果不佳。


图片


4.2 ICLR2017

与F1000Research相反,ICLR2017论文的30次ChatGPT平均分与人工评审分呈中等强度相关(图2)。提供全文进一步提升了相关性;但思维链提示并未改善结果,原因尚不清楚。ChatGPT的评分普遍集中在8分左右,大多数文章的平均分落在8–8.5之间。在输入全文时,人类评分均值为5.66,而ChatGPT评分均值为8.04,显示出明显的正向偏差,这与F1000Research的表现模式不同。


图片




4.3 SciPost Physics

在SciPost Physics的四个质量维度中,ChatGPT平均分与人工评审分的总体相关性偏弱,但不同维度间差异明显(图3)。在四个维度上,思维链提示均劣于标准提示,导致其与人工评分的相关性降低,这可能源于同时评估多个维度的复杂性。值得注意的是,清晰度维度的相关性最低,这或许说明摘要的写作清晰度与全文的表达清晰度并不必然一致,但也可能存在其他解释。


图片


在三项核心质量维度上,ChatGPT的评分整体偏高,而在清晰度维度上则偏低(表2)。人工评分的分布范围更广,标准差更高(表3),这反映出ChatGPT倾向于默认评分,额外信息只会在该基线之上进行微调(图4)。ChatGPT通常能够处理LaTeX全文,但在少数情况下,由于LaTeX的复杂性未给出明确评分或仅给出较弱建议。在12,480次尝试中(104篇×30次×4维度),有502次(4%)未返回评分。


图片



图片



图片


输入全文对原创性和重要性维度的相关性没有影响,表明这两个维度仅凭摘要即可有效评估;清晰度维度的评估因全文的提供而有所改善,这符合预期;但在有效性维度上,全文反而降低了相关性,这可能是由于ChatGPT试图遵循论文论证逻辑时受到数学内容或LaTeX代码的干扰。




4.4 总体相关性置信区间

总体相关性的95%置信区间大多排除零值(图5),表明ChatGPT平均分在ICLR2017和SciPost Physics上的预测可能是有效的,但在F1000Research上则缺乏可靠性。同时,不同输入数据类型(全文/摘要)与提示策略(标准/思维链)之间的置信区间存在重叠,这说明最优策略可能因数据集而异


图片





05

讨 论


本研究存在若干局限性。首先,由于所有评分均来自公开数据,无法排除ChatGPT在训练中已接触过相关分数并形成记忆的可能性。其次,本研究仅包含三个案例,其结果未必能推广至其他领域或出版物类型(如专著)。更为根本的问题在于,本研究的分析隐含假设人类评审往往是正确的。然而,即便是领域专家之间也常常存在显著分歧,因此这一假设并不稳妥。

本研究的结果支持并拓展了既有关于发表前评审的发现:多次预测取均值优于单次预测。同时,本研究进一步表明,该方法在SciPost Physics的质量维度(重要性、有效性、原创性、清晰度)中具有一定适用性,但在F1000Research中却并不奏效。目前尚不清楚性能差异究竟主要源于数据集特性还是评审形式差异。需要强调的是,对SciPost Physics的结果应谨慎解读,因为其不同维度间的评分高度相关,这意味着ChatGPT的相关性可能主要反映其对整体研究质量的响应,而非对具体维度的独立评估能力

与既往研究不同,本研究发现,在某些情况下,处理全文能够提高预测效果。例如,在ICLR2017中,相关性从0.38提升至0.46。这是迄今为止首个观察到全文输入带来明确改善的数据集。因此,未来研究不应假设仅凭标题和摘要即可获得最佳预测。理论上,全文能帮助ChatGPT捕捉研究的深度和复杂性,尤其是方法和讨论部分。然而,其在以往小样本且无全文的研究中已表现良好,这暗示它可能主要依赖标题和摘要中的作者自述进行推测,而非真正评估研究本身。全文中的附加信息(如语法质量、写作结构、风格)或许能间接反映研究质量。这一假设与本研究发现的“ChatGPT在全文清晰度评估上表现更佳”相一致。因此,对于全文输入取得积极结果的实验,不应假设这些结果是由于对论文核心维度分析的提升所致。

ChatGPT在F1000Research上表现不佳的原因尚不明确,可能与该平台评审指南不够细致、评审涵盖范围过广或强调评审者自主性有关。



06

结 论


研究结果表明,在某些出版平台上,ChatGPT可以对同行评议结果进行弱至中等强度的预测,但这种能力并非普遍存在,因此,对RQ1的回答为:同行评议结果在部分情境下可被预测,但并非所有情境均可预测多次预测取均值可获得最可靠的结果,RQ2因此得到肯定回答。在部分情境下,输入全文可改善预测效果,但必须事先解决版权问题。需强调的是,ChatGPT并非真正“评估”论文:其效果与仅用标题摘要时相似,这表明它可能只是依赖作者在摘要或文本其他部分的自我陈述进行推测,或借助写作风格等间接指标来判断质量。

对于计划采用该技术来辅助投稿初审的出版机构而言,必须确保获得作者的同意,并使用不会将输入数据纳入后续训练的AI系统(如ChatGPT API或离线大语言模型),以避免版权风险。鉴于该方法在不同平台上的性能差异显著,必须开展先导性测试,并建立转换函数以将系统预测值映射至合适的标度。如果仅用于批量排序,则可以直接采用其排序结果。在此之前,还必须与所有相关利益相关者进行充分沟通,审慎评估该政策的更广泛影响,包括潜在的意外后果或不良激励。

研究结果不应被解读为ChatGPT“擅长同行评议”。本研究仅考察其预测评审结果的能力,并不意味着它能够执行任何形式的实际评审。ChatGPT本质上是利用简短的摘要信息(标题与摘要),通过复杂的文本关联进行结果推断——其分数需要经过标度转换才能与人工评分相匹配。即便提供了全文,也不应将ChatGPT用于实际评审任务,因为其仅凭标题和摘要即可达到相似的精度,说明其依赖的仍然是智能推测而非真正的学术评价,因此没有理由认为其会利用全文信息来进行近似于人工的审稿评价。

在上述两种用途之间,可能还存在一些中间场景,在获得作者同意的前提下,ChatGPT预测结果或许能够在一定程度上影响评审决策。例如在人类专家存在分歧但必须做出决定的少见情境下(如会议最后阶段的边缘论文录用筛选,或编辑对稿件是否达到录用标准存在分歧时)。随着大语言模型应用的日益普及,这类场景或许具备可行性,但相关决策者必须充分认清其局限性和伦理风险。

此外,本研究还表明,适度改写后的人类评审指令即可作为ChatGPT的有效提示词,并无必要将其重构为思维链格式(该做法收效甚微甚至可能降低性能,因此RQ3的回答是否定的)。但这并不排除在其他情境下,此类重构或其他方法可能有效,例如采用少样本学习方法,选用仅基于摘要的人类评审示例,或许能进一步提升效果。



(全文及参考文献见Scientometrics,原文链接:https://doi.org/10.1007/s11192-025-05287-1,本期推文为节选摘编,略有删减和编辑。)






本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨 王译晗

本期编辑 | 宋欣雨

基地官网:https://statevalbase.fudan.edu.cn



· end ·



下一篇

研究评估正在吞噬幸福感?——负责任研究评估的边界探析

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433