生成式AI将如何辅助同行评议?设想这样一个场景:你收到一份邀请,要求你对你所在专业领域的一篇新稿件进行评估。这篇稿件已经由专家级的人工智能代理进行了同行评议,而你的任务是审查这些同行评议的结果。稿件评审界面是多模态的,你可以通过任何你喜欢的方式与聊天机器人编辑互动——视频会议、仅语音、文本输入、在你的设备屏幕或纸上书写或绘画。你无需检查稿件语言的清晰度、内容的准确性和完整性,或者代码的可靠性,因为这些问题已在作者与AI代理的早期交流中得到解决。相反,你的重点是更高层次的问题。你可以要求聊天机器人提供概要,然后针对主要发现进行建议。聊天机器人还会向你提供需要解决的不足之处,包含作者和AI代理达成的共识以及他们之间的分歧。借助聊天机器人向你展示的图表和示意图(可专门为你定制生成),你可以查询数据中未解释的关系以及工作流程图中特定步骤的必要性。你可以询问AI代理是否已经评估或询问过你认为必要的对照组,同时你也可以要求AI代理详细说明应该考虑的机制路径、表征方法和验证工作。你还可以要求提供稿件中包含的警告和限制条件,并对这些内容进行评估。
尽管你快速浏览了稿件,但实际上你并未真正阅读它,也没有仔细检查每一张图片、示意图和表格。但你对此并不担心——你对同行评议过程以及你在其中的贡献感到满意,并且相信聊天机器人会忠实且清晰地将你所有的反馈传达给作者或人类编辑。你有理由相信,专家级的AI代理正在帮助作者改进方法论的完整性、语言的清晰度以及数据和视觉呈现的效果。你也知道,专家级AI代理将始终能够发现那些大多数从事同一研究领域的科学家能够识别出的工作不足。你已经帮助作者从概念和更深层次的技术层面改进了这项工作,并塑造了你愿意为之做出更多学术贡献的形象。
这个设想的场景虽然理想化,但并非遥不可及。正如OpenAI在2024年5月13日展示其GPT-4o时所证明的那样,具备实时多模态功能的生成式人工智能模型现在已经能够为更广泛的用户所用。GPT-4o通过文本、图像、视频、音频和语音进行了端到端的训练,能够在这些模态中处理并生成内容。根据OpenAI发布的演示视频,与该模型的对话十分流畅(延迟低且允许中断,类似于人与人之间的对话),还可以通过语音语调和情感表达来塑造互动(使其更加愉悦且富有创意)。该模型能够“理解”并解释视频和图像中的内容,包括手写文本、绘图和图表(如图1所示),并且模型之间可以相互交互(即聊天机器人之间的对话也是流畅的)。
因此,这种未来场景并非难以想象。大语言模型在学术写作中的应用日益广泛,能够为作者提供建设性的反馈,补充人类审稿人的意见。多模态人工智能聊天机器人将快速帮助作者生产更高质量的研究成果(从草稿到修订、实时评审、推荐期刊等),同时也将帮助审稿人更高效地评估这些成果,并提升其评审体验。对于传统的同行评议过程,可能大部分反馈意见将很快由专门针对特定研究领域或技术专长需求进行微调的基础模型提供。在人类专家和编辑介入同行评议过程之前,模型之间可以相互互动并与作者交流。
人工智能可能会彻底改变同行评议的执行方式。目前的同行评议过程是非同步的,通常涉及过多的步骤,由于需要大量的精力和专业知识,整个过程难以避免地缓慢且可能不必要。此外,审稿人还需仔细审阅日益增多的文本、图表、数据和代码。在未来,AI代理或可被开发并执行出版商的大部分检查工作,帮助人类编辑评估科学背景,在人工同行评议之前进行初步评审(例如查找数据位置或解读混乱的示意图),将人类专家从繁琐工作中解脱出来。
此外,具备情感感知能力的多模态人工智能聊天机器人虚拟形象可在需要时使同行评议变为同步进行(例如帮助作者、审稿人和编辑直接交流以寻求共识),同时在必要时仍可保留匿名性。AI模型还能够实时进行商定的文本调整和视觉调整。
AI代理可能会成为人们阅读论文的首选界面,这样一来,记录版本对于人类而言可能会变得普遍不那么有吸引力。那么,我们是否会更愿意每个人都能够拥有自己的多模态人工智能聊天机器人,根据个人的偏好和需求(包括视觉无障碍需求和个人偏好)为每篇论文创建定制版本,并能通过它进行查询和操作,包括从简单的文本注释到生成数据的替代可视化?每一篇论文是否都能拥有一个持续存在的“作者聊天机器人”,随时准备回答任何问题?专家们是否希望拥有自己的AI虚拟形象,方便他人交流咨询?
这一切看似充满希望,因为预训练的大型多模态人工智能模型展现了无限的可能性。然而,当前存在的问题——如论文工厂、数据伪造、思想抄袭、事实扭曲与危害放大,以及前沿技术的可获取性,可能会在短期内进一步加剧。目前,包括Springer Nature在内的大多数出版商,要求同行评议者不要将论文手稿上传至生成式人工智能工具。同时,未来可能出现的挑战,尤其是那些涉及到有人故意利用这些技术以谋取不公平优势的挑战,仍然无法预见。然而,历史已经证明,我们将会找到处理这些问题的方法,通过在鼓励创新的法律框架内实施并完善安全举措来应对这些问题。至于AI模型,我们希望它们在交互时能够避免产生幻觉。
潜在的好处值得期待,但人工智能辅助的人类同行评议是否将变得更为高效且质量更高?通过提升人工智能的建设性判断和批判性思维,同行评议是否会变得更加包容(尤其是对于青年研究人员)?此外,对于传统的学术出版商而言,编辑和同行评议管理是重要的投资,同时它们也正在开发AI工具,但是,它们是否会被迅速适应并利用人工智能视觉、听觉和表达能力的后来者所颠覆?我们仍需更加深入的思考。
(全文及参考文献见Nature Biomedical Engineering 2024年第8卷p665–666,原文链接:https://www.nature.com/articles/s41551-024-01228-0,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 金潇苒 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn