摘要:同行评议是研究质量控制的主要手段。在投稿数量激增和评审资源有限的情况下,迫切需要利用人工智能(AI)来辅助评议过程。但是,AI的引入也引发了对AI工具的偏见、使用中的伦理问题,以及生成虚假信息等问题的担忧。因此,我们需要深入理解的关键问题是:AI如何改善评议过程并实现其自动化,这一过程中可能遇到的风险有哪些,以及AI对信息系统研究与实践以及同行评议流程可能带来的影响。
关键词:人工智能;信息系统研究;同行评议;偏见;伦理;生成式AI
随着出版压力和研究人员数量的激增,提交给同行评议期刊的论文数量在不断增加。这对出版流程产生了巨大压力,对同行评议专家的时间和精力要求也在不断上涨。评议专家数量的不足被认为是出版周期延长和评议质量下降的一个重要原因。
因此,当前迫切需要能够提升同行评议过程效率的技术,因为该过程是保障研究质量的关键环节。为了解决同行评议过程中的问题,已经提出了多种解决方案,例如为审稿人提供奖励和反馈。AI领域已经开发了多种用于审稿的工具,如格式检查、审稿人与文稿的匹配度以及可读性检验。尽管这些工具带来的一些益处已然显现,但也有人担心AI的使用可能会在同行评议中引入偏见或引发伦理及其他问题。
因此,本文将探讨以下问题:1) AI如何改善并实现同行评议过程的自动化?2) 实现这一目标将面临哪些挑战?3) AI对信息系统未来的研究与实践,以及同行评议流程将带来怎样的影响?
同行评议可分为两个阶段,即同行评议前的预筛选和正式同行评议。
同行评议前的预筛选阶段包括一系列检查,如格式检查、抄袭检测和语言质量检查。AI工具在自动化格式检查等任务上取得了显著进展。例如,像Penelope.ai这样的工具提供了多种功能,可用于检查文稿的结构、格式、引用和元数据,这些功能可以根据不同出版平台的需求进行定制。这些检查在很大程度上可以实现自动化,因此AI在这一领域具有巨大的应用潜力。通常情况下,这类任务不需要使用生成式AI或其他复杂的AI技术,因为格式规则通常可以被明确识别。
抄袭检测旨在核实提交的稿件是否在未经适当引用的情况下“复制”了其他来源的内容,这有助于判断作者是否试图将他人的想法、文本和数据据为己有。许多大型出版商采用了像CrossCheck这样的服务,该服务由iThenticate软件提供支持,能够将每篇稿件转换成数字指纹的形式,以便与现有资源进行比较并计算相似度得分。这种检测不仅能够进行精确的文字匹配,还能进行模糊匹配,如同义词使用、单词替换、改写和翻译。迄今为止,这些工具的效果相当不错,但仍需要人工来判断抄袭的性质和程度。然而,随着ChatGPT等生成式AI工具的出现,它们通过综合现有资源来创造看似合理的内容,导致了抄袭检测能力的弱化。抄袭检测工具能否检查出作者是否使用ChatGPT来撰写他们的投稿,并不当地组合他人的作品?目前并没有可靠的方法来实现这一点,也无法知道ChatGPT学习了哪些资源。尽管像ZeroGPT这样的工具声称能够检测文本是由AI还是人类生成的,但其准确性仍存在很大争议。确实,在生成式AI时代,抄袭检测变得极为困难,因此AI在此领域实现自动化的潜力较低。
稿件的语言质量包括拼写和语法的正确性、写作风格和组织结构。在评议工具中,进行拼写和语法检查是常见的功能,例如Enago语法检查器,这种功能现在也经常出现在文字处理软件中。此外,语言质量通常通过可读性指标来评估,例如Flesch-Kincaid难度级数,该指标通过捕捉单词(如每个单词的字符数)和句子(如每个句子的单词数)的简单特征进行分析。然而,这些指标并不能明确地捕捉写作风格和组织结构,以及语言质量的其他方面,如连贯性和逻辑性。基于生成式AI的方法在检测学术写作风格方面显示出潜力,但要评估文章中思想的连贯性和逻辑性仍然具有挑战性,这也是像UNSILO这样的工具所要实现的目标。因此,这项任务在生成式AI时代,整体上具有中等程度的自动化潜力。
如果稿件通过了审前筛选,它将被正式送审。当前期刊的同行评议系统通常允许编辑根据稿件关键词与审稿人提供的专业领域之间的匹配度来搜索审稿人。然而,这种方法存在局限性,因为关于审稿人专业领域的信息往往不完整或不够详细,无法与稿件关键词相对应,这导致编辑在为投稿寻找合适的审稿人时需要付出大量精力。针对审稿人与稿件的匹配问题,计算机科学等学科已经开发了AI工具,如多伦多论文匹配系统(TPMS)。该系统不仅采纳了审稿人提供的专业领域信息,还通过网络挖掘审稿人的出版物,并从中提取代表性的关键词和主题来创建审稿人档案。像Microsoft CMT这样的会议评审系统综合了编辑建议、审稿人自述和TPMS推荐来将审稿人与稿件进行匹配。像TPMS这样的系统可以解决基于关键词的审稿人匹配工具的局限性,因此具有很高的AI自动化潜力。
正式同行评议阶段通常涉及对四个主要标准的评估:相关性或范围、严谨性或可靠性、新颖性或原创性,以及重要性或意义,接下来是撰写评议报告(审稿人)和整合报告(编辑)。
在评估投稿的范围和相关性方面,可以使用如UNSILO和最近的GPT-4等文本摘要工具来辅助。然而,这些工具仍然需要综合编辑的判断来审核文本摘要是否符合期刊的范围和领域,因此人工智能自动化的潜力为中等。
关于投稿的严谨性和可靠性,像Enago这样的工具声称可以通过检查支持性参考文献来验证稿件中主张和论点的可靠性。GPT-4能够识别主题相关的参考文献,但由于大型语言模型可能会产生虚假信息(即“幻觉”),可能会错误地总结其内容。Statcheck等尝试检查稿件中统计测试的可靠性,但该研究的可靠性受到质疑,表明可能仍需要人工干预来验证其结果。此外,这些方法不适用于定性研究。这些工具的综合表现意味着AI的自动化水平为中等偏低。
最后,投稿的新颖性和重要性一直是评估中最具挑战性的维度,AI自动化的潜力较低。像Review Adviser这样的工具据称可以专门用于评估投稿的新颖性和重要性,但支撑这些结论的详细信息和证据较为有限。最近的一些学术文章强调在使用生成式AI工具来辅助评议和编辑活动时需要谨慎,指出由于可能出现“幻觉”,人工验证始终是必要的。
表1总结了AI工具在同行评议自动化过程不同任务中的潜力。
除了上述同行评议任务之外,可重复性检查在数据科学和经济学等学科中变得越来越普遍。这要求论文作者需要向期刊的数据编辑提供其数据和代码,以验证其结果的可重复性。在信息系统(IS)期刊中,向更高研究透明度的转变正在成为一种趋势。可以想象,类似的可重复性检验可能会成为同行评议过程的一部分。如果是这样,AI工具可以通过执行可重复性检验来辅助数据编辑,这项任务具有AI的高度应用潜力。
总体而言,上述讨论表明,AI工具在改善评议过程中的各项任务上具有一定能力,但要实现完全自动化,其能力则相对有限。
同行评议中存在许多社会文化偏见,这些偏见可能会通过算法偏见传递给AI。评议过程中的偏见可以表现为多种形式,包括第一印象偏见、意识形态/理论倾向,以及语言、社会身份和声望偏见。尽管一些研究正在尝试对这些偏见进行建模,但仍存在挑战。
特别是,机器学习AI技术本质上是保守的,因为它们是基于过去的数据进行训练的。当这些工具被用来为当前的评议决策提供信息时,可能会导致偏见。例如,在历史文献中代表性不足的国家/地区的论文在使用AI手段进行评议时可能会有更高的拒绝率,因为AI评议无法充分考虑到这些地区提交的论文质量可能会随着时间的推移而不断提高。过去,编辑大多选择来自发达地区的审稿人,这一事实也可能带来偏见。这种偏见常见于那些通过人类反馈进行微调的预生成和生成式AI技术。
同时,使用AI工具向审稿人标记有问题的论文可能会引入额外的偏见,即偏见放大。这可能导致与上述问题相反的情况,即模型对稿件的解释方式会传递给审稿人,从而产生无意中的偏见结果。例如,如果AI模型识别出以下潜在问题:(1)存在拼写错误,(2)引用了来自代表性不足地区的参考文献,或(3)使用了之前被拒稿论文中采用的技术,这可能会增加这些因素在审稿人心目中的重要程度,并影响他们的判断。随着在信息系统研究中对多样性、公平和包容性的日益重视,识别和减轻这类偏见将是至关重要的。
此外,在同行评议过程中使用AI工具也引发了伦理上的担忧。有两个突出的问题尤其需要考虑:首先是可解释性问题,这影响了评议决策的透明度。当原始数据与AI模型预测之间的关系不明确时,算法缺乏可解释性,进而导致对AI工具的不信任。如果决策的理由不透明,作者就不会认可评议结果。在使用AI工具辅助同行评议时,确保模型工作原理的透明度,以合理化所做的决策,这一点至关重要。其次是AI辅助评议过程中的责任归属问题。评议决策对作者的职业生涯具有重大影响,将如此关键的决策完全交给AI工具可能意味着编辑们在逃避责任和问责。因此,这些应用程序应当被视为决策支持系统,而不是实际的决策者。
在使用AI工具,尤其是将其用于撰写评议报告的情况下,会产生其他一些问题。像ChatGPT这样流行的生成式AI工具可能被审稿人和编辑用来总结提交稿件的要点,并对其进行验证检查,随后创建报告。这种使用方式存在几个问题,其中最重要的是“幻觉”问题,即生成错误或虚构的输出,并且这些输出与正确输出一样被确信。在同行评议报告中出现“幻觉”会有损报告的质量。另一个问题涉及机密信息的隐私保护。例如,当审稿人将提交内容的一部分上传到生成式AI工具中以帮助撰写评议报告时,这些信息可能会被用于进一步训练该AI工具,并可能在未来的用户响应中出现,从而危及机密性并可能损害作者的知识产权。还有一个问题是,当越来越多的审稿人和编辑使用生成式AI工具创建他们的报告时,评议报告的风格和内容可能会趋于一致。这种趋同可能会导致评议报告缺乏多样性和个性化,从而影响评议过程的公正性和有效性。
在设计和部署用于同行评议的AI工具时,必须认真对待并妥善处理上述问题。从上述讨论可以看出,AI技术在评议过程中是一把双刃剑,对其开发和使用进行持续研究,对于确保AI工具在同行评议过程中发挥积极作用至关重要。
首先,计算机科学(CS)研究主要涉及新流程、方法和算法的开发,多采用数学分析方法,并且往往不涉及其他学科。例如,可以设计一种新算法来识别视频序列中的特定活动,并在公共数据集上与其他最新算法进行基准测试,以展示其优越的性能。从某种意义上说,这种研究简化了同行评议过程的自动化,因为其研究范围相对狭窄,与先前工作的比较也相对客观。这使得(与其他大多数信息系统研究相比)识别相关研究文献并开发AI工具来执行任务更加容易,如评估研究成果的新颖性和重要性。
其次,计算机科学研究的大部分成果是通过会议论文集发表的,这些论文篇幅较短,评议周期较短且次数较少。而相比之下,信息系统(IS)研究则更多依赖于期刊出版物。这些差异对IS研究的同行评议产生了影响:IS研究可能更加需要AI自动化评议以加速评议周期,但需要执行自动化的任务更具挑战性。计算机科学研究人员开发了用于会议论文自动格式检查的AI工具(如SIGSOFT提交检查器),而ICIS和PACIS等信息系统会议中缺乏此类工具(因为这些会议的格式规则相当复杂)。与此同时,IS研究与社会科学相关学科的不同之处在于,该领域的编辑和审稿人可能比其他学科中的这些群体更开放和更熟悉对AI评议工具的使用。因此,与相关学科相比,IS领域的独特特性使其在使用AI工具进行评议时既带来了优势也带来了劣势。
IS领域的特性也为使用AI工具对IS研究进行同行评议提供了研究意义。特别是,虽然IS研究人员可能不是开发这类AI工具的先锋(与CS研究人员相比),但我们对信息系统的采纳及其影响方面的独特专业见解可以让我们探讨这些工具的采纳、有效性及其更广泛影响等重要问题,例如生成式AI工具对同行评议的颠覆性影响。此外,虽然预生成AI工具(其中一些近期融入了生成技术)正被期刊的出版商和编辑采用,并可能节省评审资源,但需要对它们的成本和收益进行严格评估,包括对不同IS研究范式的影响。再者,IS研究人员处于开展此类评估的有利位置,因为其研究涵盖了定量和定性研究范式,IS研究人员可以通过这些多样的研究方法来评估AI工具在同行评议过程中的应用效果,以及它们对IS研究社区的长远影响。
与此同时,理解哪些评议任务更适合自动化,并确保IS相关研究作为一个学科在同行评议会议和期刊投稿时保持前沿仍然很重要。例如,哪些工具可以用于格式检查、审稿人与稿件的匹配以及可重复性检验(如表1所示)。然后,IS期刊和会议的编辑和出版商可以针对具有中等自动化潜力的同行评议任务(如语言质量评估)与CS研究人员和开发者合作,为这些任务开发工具。在进行可靠性和严谨性检查时,需要注意的是,实现自动化的难度对于采用统计或计量经济学的定量IS研究来说可能较低,而对于数据编码具有主观性的定性IS研究来说则可能较高。最后,在评议过程中有一些任务(如撰写报告、整合评议意见、抄袭检测或评估新颖性和重要性)需要编辑和出版商等待AI技术的进步(例如使用知识图谱来验证生成式AI的输出,以防止“幻觉”)才能实现自动化。除了等待技术进步之外,使用这些工具还需要相应的法律和政策框架,以保护知识产权,并确保生成式AI工具及其使用者能够进行适当的来源归属。
本文探讨了如何利用AI工具提升同行评议效率和IS研究中的质量控制。这对于评议过程中较为常规的环节尤为适用,这些环节通常不需要过多的智力投入或专业知识,例如格式和可重复性检查、语言/可读性评估、审稿人匹配以及提升评议报告的撰写质量。然而,使用这些工具也带来了一些负面问题,如偏见、“幻觉”、伦理问题等。因此,编辑和审稿人在利用AI提高评议效率时,必须意识到这些风险。未来,为了应对这些挑战并充分发挥AI在同行评议中的作用甚至自动化潜力,仍需开展更进一步的研究。
(全文及参考文献见Journal of the Association for Information Systems, 25(1), 76-84,原文链接:https://aisel.aisnet.org/jais/vol25/iss1/9/,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 金潇苒 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn