Human-AI同行评议：通过人类与AI协作实现知识创造民主化-国家智能评价与治理实验基地

Human-AI同行评议：通过人类与AI协作实现知识创造民主化

发布时间：2024-10-04 作者：Sarker S等编辑：王译晗 来源：复旦智能评价与治理

摘要：人工智能（AI）有望彻底改变传统的同行评议流程和知识评估体系。人类与AI日益密切的协作将重塑学术界对研究成果的评估和传播方式，有助于缩小不同学者之间的差距并缓解竞争。这种协作并非遥不可及，而是正在进行。本文重点讨论学术同行评议流程，阐述人类与AI的协作将如何改变同行评议，强调其潜在益处，识别可能的瓶颈，从而展现全球学术文化民主化的潜力。

关键词：同行评议；语言学习模型；人工智能

引言

新兴的预测性和生成式人工智能正在改变学术评估。这种变化部分来自于AI能够对评议过程中的某些元素进行自动化审查（例如剽窃），AI还可以对文献进行事实核查（例如验证引文的准确性）并帮助起草编辑过程中的审查和决定书。从技术乐观主义者的角度来看，AI将很快具备模仿人类开展基本学术活动的能力。

表1概述了同行评议过程中Human-AI协作的潜在场景。如表1所示，类型I代表Human-AI之间的协同状态，也是我们希望最终能够实现的状态。而类型Ⅲ的意义并不大，因为它涉及在没有足够人类代理或控制的情况下对AI的次优使用。我们认为，理想的Human-AI协作应基于类型Ⅱ，即AI协助人类努力。类型Ⅳ是指在评议过程的重要内容中以AI替代人类。尽管类型Ⅳ对于人工智能乐观主义者来说极具吸引力，但过度依赖类型Ⅳ可能会因自动化产生的偏见而导致系统功能失调。为避免自动化偏见，我们认为，在可预见的未来，人类的判断对于以公平和透明的方式评估研究的新颖性和贡献至关重要。

人机协作评议价值体系的概念化

在Human-AI协作的同行评议过程中，学术界需要考虑以下三组相互关联的问题：

2.1 算法的不透明性、透明度和解释的必要性

考虑到AI模型和同行评议流程的黑箱特性，将AI引入同行评议可能会使本已不透明的评议模型对作者和审稿人而言更加复杂。由于作者对这些新型评议方式所产生的结果存在一定期待，因此我们需要特别关注可解释性和透明度问题。因为有证据表明，传统审稿流程可能会不利于代表性不足且历史上处于不利地位的作者和受试者群体，而AI的参与则增加了造成额外偏见的可能。

为了使Human-AI同行评议过程可解释，学术界必须参与“公共理性”意义建构的过程。罗尔斯认为，公共理性是民主社会的特征，包含“正确性标准”和“正当性标准”。AI伦理学家建议，建立Human-AI协作的第一步是解决罗尔斯意义上的公共理性缺陷，即就AI在同行评议中的作用制定共识性的解释和标准。

开发透明且可解释的Human-AI同行评议流程将是一项复杂的任务。这要求我们解决传统同行评议中的公平性和透明度问题，而解决这些问题本身就具有挑战性。此外，我们需要将这些考虑纳入AI主导、AI辅助或AI协同的同行评议系统的设计原则中，以及评估Human-AI系统结果的方式中。这需要社区内的包容性对话、周全可靠的设计和不断的测试。我们必须承认，当前关于什么是“好”研究，尚未形成普遍接受的标准，在Human-AI协作决策的背景下，复杂性将进一步加大。

2.2 可信度

Human-AI同行评议过程是否成功，在很大程度上取决于作者对这些系统公平性的信任。同行评议本质上是一种社会契约，可信赖且熟悉社区规范的编辑（和审稿人）应一致应用（或至少尝试应用）这些规则。鉴于AI同行评议的新性质，“信任”已成为评议过程中的重要组成部分。

AI伦理研究表明，为使Human-AI同行评议系统被视为可信，用户必须相信其能够满足评估中关于专业知识和可预测性的要求。此外，系统应提供可验证的证据，证明其能够按预期运行。Human-AI同行评议模型不仅要遵守严谨、公平和公正的学术规范，还需要证明这些规范在同行评议过程中得到保障维护。

暂且不谈评议过程中的“幻觉”问题，如何设计能够有效融合人类因素（如同理心、认知和直觉）的Human-AI常规和角色仍然不够清晰。最终目标是，对稿件的评估既具有批判性和敏锐性，同时又体现善意和建设性，这些都是高质量同行评议过程所期望的特点。

2.3规范与社区建设

不可否认，每本期刊的同行评议都包含其学科的社会文化元素。例如JAIS等期刊在培育开放和包容文化方面取得了显著进展，这些文化元素与信息系统协会的价值体系相一致。期刊通过在审稿人、编辑和作者之间培养社区意识来传播这些价值观，确保进行善意和建设性评论等规范。审稿人和编辑以服务为导向履行职责，从而增强评议的责任感、问责性和可信度。社区的建立非常重要，知识管理的联结主义学派认为，“知识”并不是普遍的——不同社区之间对于“知识”的理解和重视程度是有深刻语境差异的。当我们转向AI增强的同行评议时，其挑战在于在流程设计中，既要保留这些人性化的考量因素、规范和情感，又要利用好AI所能提供的速度和精度。

人机交互理论为构建适应不同同行评议范式和推理体系的Human-AI同行评议系统提供了一定的指导。然而，Human-AI的协作仍处于起步阶段，这一领域还有许多值得探索的方面。

Human-AI同行评议的前进路径：

人类智慧+人工智能

我们将Human-AI同行评议的未来设想为人类智慧、情境化能力与AI计算能力之间的共生、协同关系。为了概述实现这一目标的路径，我们分两个阶段进行探讨(参见表2、3和4)。

3.1 第一阶段：当前/近期——AI能力内的协作

第一阶段，利用AI技术增强评议过程。AI可以通过以下方式增强人类判断力，并在适当情景下重新构想和自动化评议流程：

如表2所示，AI可以通过识别方法、统计分析、逻辑不一致等问题来协助同行评议。这有助于减轻审稿人在基本问题识别方面的负担。AI还可以检测抄袭，包括简单形式的文本复制以及更复杂的马赛克式抄袭/拼凑(即借用想法而不注明出处)。它还能识别自我剽窃或重复发表等情况。

为了实现进一步转型，AI可能有助于制定新的标准(表3)。例如，透明度和可重复性可能成为研究是否被接收的重要因素。因此，阐述AI如何作为研究过程中的一部分也可能成为稿件出版的要求。但是，自动筛选稿件可能会导致过度追求公认的研究标准，而减少偶然性和从审稿人评论中获得潜在灵感的可能性。

随着AI日益融入评议过程，新的伦理考虑也随之出现。例如，AI生成的研究应该如何获得认可，以及这种认可是否应该在评议过程中得到验证以确保知识产权不被侵犯？审稿和编辑过程如何防范AI在训练中的偏见，以及AI构建的审稿“幻觉”？从广义上讲，应该采取哪些技术和人力保障措施以防止AI在研究、评议和编辑中的滥用？

在短期内，AI评议可能缺乏满足可解释性、可信度及遵循社区规范的能力。因此，建议初期采用AI辅助评议流程（表1中的类型II），并且特别要注意确保制定公平、有同理心和公正的规范，同时关注在社区中培养所需的评议经验，以便未来合作开发更为先进的系统。

3.2 第二阶段：长期——迈向Human-AI协同评议

从AI辅助(类型II)转向Human-AI协同(类型I)协作可能需要重新设计评议过程，并使用来自相关、可信且多样化来源的大量数据以构建或微调语言模型，“知识”的学科社区背景将更加敏感。理想的状态是形成一种Human-AI协同评议的模型，其中Human-AI的互补能力以互易的方式融合，同时避免前述讨论中提到的一些风险。

经过适当调整的AI能够以多种方式支持同行评议过程。例如，可以通过提供一组相似论文来预筛选论文，评估其与已发表工作的相似度，并推荐审稿专家，减少编辑的工作量。还可以识别常见问题，提出改进建议，并指出需要审稿人更仔细检查的领域（例如新颖性）。同时，它还可以检查容易发现的问题，例如剽窃、方法不一致或与结果不符的结论。

适当调整的AI还可以为广泛的编辑政策提供信息，例如董事会组成、新兴主题以及社区建设。虽然人类编辑或审稿人需要甄别AI提供的错误反馈，但经过适当调整的AI能够使编辑和编委会成员更专注于发现亮点、撰写评论并思考推动学科进步的策略。这将帮助他们能够重新构想该学科的未来发展轨迹，通过自己的努力转向建立特定学科的规范，从而帮助新审稿人适应学术界的价值观。

将AI融入同行评议的过程涉及作者与期刊定制的特定AI进行互动，以完善他们的工作。AI评议门户应使用一个经过期刊论文（或社区相关资源）训练的大语言模型，该模型将优先考虑价值取向，通过自动化初步评审过程，为作者提供建设性的反馈，并对每篇论文进行质量评级。这类系统可以显著提高学术出版过程的效率、透明度和可访问性。然而，这也可能固化现有的价值观，强化回声室效应，变相鼓励常态科学发展。为了避免这些结果，人类必须对这些风险保持敏感，注意避免陷入对AI的过度依赖，并培养意识，以识别何种情况下这些不良后果可能出现。表4总结了与此阶段相关的问题。

Human-AI同行评议的瓶颈与挑战

尽管Human-AI同行评议系统有很多潜在益处，但我们需要警惕4个潜在的瓶颈和挑战：

首先，Human-AI同行评议系统的有效性在很大程度上取决于AI提供的评议质量。如果AI无法准确评估论文的质量或提供有用的反馈，该系统可能会失效。因此，期刊及学界支持者有必要为AI提供定制训练所需的数据和知识，并进行详尽的测试和持续的监测。

其次，虽然AI可以减少审稿人的工作量，但他们仍然需要评估和参与AI的审稿，并补充自己的评论。这种与AI的反复互动仍可能会导致大量的工作，尤其是系统中的论文数量不断增加时。此外，还需要向审稿人提供额外的培训，帮助其意识到系统中可能出现的偏见，以免其对系统产生依赖。

第三，AI可能会给评议过程带来严重的偏见和公平风险，特别是如果AI系统在无法代表研究多样性的数据集上进行训练和实例化时。这需要超越主流学术界，纳入来自新兴和邻近社区的声音，以及过去被淹没的学科内部的声音。必须以周全的方式在包容不同知识来源和对学科背景保持敏感之间实现平衡。此外，人类评议团队必须继续监控潜在的有偏见的AI行为。

第四，尽管我们知道AI与人类的协同合作需要在评议过程中保证公平、同理心和公正，但我们缺乏评估这些规范是否以及如何得到保证的准则。这需要相关编辑的创造力和领导力。

如果以上问题没有得到有效解决，那么作者将很难像信任人类审稿人那样信任Human-AI系统的输出(特别是当AI开始担任更重要的角色时)。

结语

本文概述了将AI引入同行评议的阶段路径，强调透明度、严谨性和包容性。在短期内，AI可以增强人类在抄袭检测和审稿人推荐等离散任务中的能力。但人类必须在同行评议过程中保持主导地位，避免对不完善AI系统过度依赖。从长远来看，定制的AI需要接受多元化社区知识培训和规范，以便与人类评审者协同合作，提高效率和可访问性。AI设计师和期刊编辑需要与学术界合作，确保评议过程能够反映学科中的不同观点，并符合道德。共同构建的、融合AI的评议流程可以显著提高评议效率，增强边缘化声音对高质量稿件的贡献可能。

实现AI与人类合作的民主化潜力需要以人文学术价值观为中心。坚持以人文主义为指导，那么未来的某个时刻，AI将提升而非削弱期刊的创始愿景——推动知识进步并造福社会。

(全文及参考文献见Journal of the Association for Information Systems 2024年第25卷，原文链接：https://aisel.aisnet.org/jais/vol25/iss1/2/，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 |邓晨菲王译晗

本期责编 | 邓晨菲

基地官网：https://statevalbase.fudan.edu.cn

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

·end·

如何实现对任务导向研究的有效评估？