知评价

首页 > 评价前沿 > 知评价 > 正文

技术辅助研究评估:算法偏见和透明度问题

发布时间:2024-08-16 编辑:王译晗 来源:复旦智能评价与治理


摘要: [目的] 技术有时会被用于辅助研究评估,例如自动化生成的文献计量数据为评估者提供参考,替代部分或全部的人工判断。随着人工智能(AI)的发展,技术以新的方式辅助研究评估的可能性不断增加。在研究评估中,透明度和公平性被普遍认为十分重要,而AI的引入带来了新的挑战,本文旨在探讨其影响。[方法] 本文回顾并简要总结了关于透明度和公平性的普遍性问题,并探讨各种类型的技术辅助研究评估(Technology Assisted Research Assessment, TARA)所引发的具体问题[结论] 尽管TARA在透明度和偏见方面可能存在不同程度的问题,但在大多数情况下,它是否会加剧同行评议中固有的透明度和偏见问题尚不明确。[创新点] 针对TARA中的算法偏见和透明度问题及其影响首次进行分析。

关键词: 技术辅助研究评估;文献计量学;研究评估;机器学习;算法偏见;透明度

01

引言

技术辅助研究评估(TARA)是指通过计算机自动化或AI生成的信息,支持或替代人类判断进行研究评估。在避免引入系统性不当激励机制的前提下,TARA能够优化评估结果、节省评估成本。过去,TARA主要致力于对文献计量数据库和计量指标(如文章引用次数、期刊影响因子)的计算机化处理,但随着AI的兴起,技术可以提供更广泛的功能,例如识别或筛选评审专家、检测抄袭、检查方法细节,以及从文献计量数据、文本或其他元数据中预估文章的整体质量

在研究评估中,透明度和公平性是两个重要的关注点。从公平性角度来看,对研究人员或机构存在偏见是不可取的,而从系统性角度来看,对某些研究领域、方法或成果类型的偏见也不宜存在,因为这可能会引导产生不当的激励机制,导致研究人员为了迎合评估标准而改变研究行为,而这种改变并不符合科学研究的真正利益,例如偏好容易获得高引用率的研究领域。透明度同样重要,以确保被评估者能够检查TARA数据中的关键假设和计算结果,识别错误或不当计算。

文献计量数据通常需要大量的计算处理,可能会降低透明度并导致偏见。本文延续了先前关于文献计量透明度和偏见的讨论,将其扩展到TARA这一更广泛背景,并结合普遍性的AI透明度和偏见问题进行分析。

02

TARA的透明度

2.1 AI算法在TARA中的应用

许多TARA任务都依赖于AI算法。如前所述,例如筛选评审专家、检测抄袭、检查方法细节,以及根据文献计量学、文本或其他元数据估算文章的整体质量或未来的引用影响。本节将讨论这些任务中AI算法透明度的程度。例如,已经提出了使用阈值、回归或AI方法从文献计量信息中评估学术出版物的质量或未来的引用次数。如果这样的系统被用于相关场景中,那么让最终用户理解系统的原理并提高系统透明度,允许研究人员验证输入数据并能够理解算法生成结果的各个步骤,将有助于增强用户对该系统的信任。然而,这通常会以牺牲准确性为代价,因为目前大多数机器学习任务中的算法并不透明

2.2 不透明的AI算法

在研究评估领域之外,AI研究人员也在讨论这样一个问题:大多数机器学习算法几乎完全不透明,因为它们过于复杂,难以直观理解其在特定情境下的工作原理

深度学习是一种有效但不透明的AI算法。深度学习模型可能具有成千上万个互联节点的神经网络,每个连接都有自己的权重。虽然输入层和输出层是可以解释的,但中间层即使节点不多也难以直观理解。文献计量指标中使用的矩阵是二维的,且矩阵计算通常是简单的,而神经网络可能有超过两层的多层结构,层与层之间的连接可能由函数驱动,而不是简单的公式。支持向量机(SVM)算法由于复杂性而显得不透明,难以直观理解其如何解决特定问题。这是因为SVM在超出人类理解范围的高维空间中运作。

相比之下,决策树是一种相对透明的简单算法,因为它易于理解,所需检查的多个决策都具有透明度。决策树由一系列二元决策组成,这些决策导向最终的建议。图1展示了一个决策树的示例,在没有DOI的情况下,可以使用该决策树来确定引用的文章是否与数据库中的给定文章匹配。可以忽略树中的术语“nearly(几乎)”,因为该决策树可以用精确的公式来操作。从这个意义上讲,它是完全透明的,因为做出匹配或不匹配决策的原因很容易确定。然而,决策树在一定程度上仍然具有不透明度,因为它们是由复杂的AI算法构建的,这些算法通过识别庞大数据库中的模式来决定添加哪些节点


目前三种先进的机器学习算法——随机森林、梯度提升决策树和极限森林,都使用数百个同时运行的决策树,并通过数学公式将它们的输出进行组合。在这种情况下,虽然它们所有的构建模块都是透明的决策树,但由于其复杂性,整体算法上仍然不透明,因为要检查每个决策所涉及的200个决策树是不现实的,也难以直观理解200个决策树组合后的效果。

2.3 可解释AI

算法的不透明性使得检查算法是否引入了偏见变得更加困难,也增加了算法所有者对决策负责的难度。这催生了可解释AI(XAI)或“白盒”AI,这类算法的决策过程可以被人类专家理解,如线性回归、有限规则集或决策树。这也可能允许专家根据他们的知识对存在错误的AI进行部分调整。在XAI中,透明度存在不同的层次,其中最透明的层次是能够向最终用户解释其工作原理而不仅仅局限于AI专家的理解范围。但如前文所述,即使是建立在大数据集上的决策树类型的XAI,在构建过程中也并非完全透明,因为它依赖于从大量数据中识别模式,即使最终结果是可以被理解的。

03

TARA的偏见

3.1 算法偏见

算法可能会呈现偏见,并基于这些偏见做出决策。算法偏见有多种类型:

设计偏见:由于系统设计不当造成。例如,由于创建者的偏见或考虑不周,面部识别系统如果仅针对白人面孔进行训练,在实际使用中就可能产生不良影响。又如,若设计者未能意识到某些信息的重要性,系统可能会选择一组不适当的输入,导致无法显示关键信息。例如,AI系统在根据职业成就评估候选人质量时如果未考虑职业间隙信息,就可能会产生对于女性的偏见。

既有偏见:系统从输入数据中学习并沿袭社会中已有的偏见。例如,由于某些职业类别存在严重的性别化(如护士、木工),一个基于候选人简历推荐工作的机器学习系统可能会复制并加剧这些职业现有的性别分化,例如只向男性推荐木工工作,只向女性推荐护理工作。此类算法还可能主要向男性推荐高级职位,或向少数族裔候选人推荐低薪职位。在这种情况下,系统会识别出一种模式(例如,以前面试过的大多数高级职位候选人都是男性),然后利用简历中的性别及其他信息,帮助预测候选人是否应该申请高级职位。尽管系统也可能会建议女性和非二元性别人士申请,但要触发这一建议,其简历必须要表现得更加出色。

间接偏见:AI系统可能会因为一些与其设计初衷目标无关的因素而产生偏见。例如,一个展示付费广告的系统可能主要针对低消费成本的人群以覆盖最大的受众,但这可能导致广告被不成比例地投放给特定性别或年龄段的人群,除非该系统专门针对人口统计平等进行配置。类似,情感分析系统在反映情感观点时,也可能不成比例地反映那些情感表达更为明确的人群的观点,例如女性相较于男性。

3.2 AI在TARA中的偏见

使用机器学习的TARA系统可能会反映构建它所使用数据中的既有偏见,或产生新的偏见。本节分析了这些偏见对各种研究评估任务和应用的实际影响:

通过从文献计量学和其他数据中学习与研究质量相关的模式来预测同行评议分数的系统,可能会继承文献计量学和同行评议中的一些偏见,甚至可能产生新的偏见。在文献计量输入方面,在大多数领域,较高的引用次数通常与更高质量的研究呈正相关,因此AI系统可能会依赖引用次数。如果系统接收到的是经过领域归一化处理的引用次数而非原始引用次数,那么这将有助于避免对低引用领域的严重偏见。由于AI系统通过学习同行评议分数来进行优化,假设同行评议分数没有反映出与引用数据相同的偏见,那么理论上,AI系统能够通过学习人工评分来修正AI产生的偏见。然而,在实践中,这种理想情况很难实现,因为AI系统往往无法获得足够的训练数据来学习并纠正这些偏见,因此文献计量的偏见可能会在很大程度上被AI系统复制或只能部分规避

先前研究开发了一个AI系统来评估研究文章的质量,并探讨该得分与其同行评议分数相比,在多个维度上是否存在偏见。通过使用REF2021的临时同行评议评分以及设计用于从文献计量数据中预测这些评分的AI系统,该研究发现,AI解决方案并未对女性、早期职业研究人员或大型机构(在英国通常更具声望)表现出偏见(或纠正已有偏见),但确实对那些发表高质量研究的机构产生了轻微的偏见,因为AI在评估过程中可能会掩盖或不能充分体现其真实、全面的研究质量,降低了这些机构原本应有的较高评分(化学领域除外)。

一些同行评议中的偏见也可能会被AI系统习得。这些系统预测质量分数的方式是在一组包含文献计量信息和同行评议分数的期刊文章数据集上进行训练,或者根据现有的文章和评论集合学习撰写同行评议报告。这主要取决于AI系统在学习阶段是否将相关的偏见信息输入进来,以及审稿人判断的多样性。例如,关于声誉信息,如果AI系统未输入作者的职业信息,那么就无法直接从人工评分中学习到声誉偏见;同样,如果系统中未输入作者的性别和国籍信息,那么即使同行评议评分中存在性别和国籍偏见,AI系统也无法直接学习到这些偏见。此外,AI系统也很可能忽略版面偏见,因为它通常不会得到版面信息。

如果认知距离偏见和确认偏见主导了相关文章的同行评议评分,AI系统就可能会学习到这些偏见。例如,如果所有教育领域的评审者都因认为定量研究从根本上优于定性研究而给后者低分,那么AI系统可能会学习到这种对于定性研究的偏见。另一方面,如果评审者在支持定量研究和支持定性研究之间的分布较为均衡,那么AI系统则可能不会学习到这方面的偏见,在这方面的偏见甚至可能比个体评审人员更少。同样,如果评审者对某个主题存在一致的偏见,那么AI系统可能会学习到为该主题分配较低评分的模式。

最后,许多研究评估需要使用语言技术辅助TARA系统来完成某些任务。自动翻译系统可能会引入性别偏见,因此依赖翻译的AI系统(例如,用于处理非英语撰写且没有英文翻译的文章)可能会引入性别偏见。作为质量评分预测的一部分,处理文本输入的AI系统可能因为语言表达方式产生对于少数群体的偏见。例如,一项实证研究开发了一个AI系统,通过对提交的论文进行词频分析来预测会议审稿的接受/拒绝决定。该系统发现,最有用的因素多属于表面特征(如避免使用“quadratic”这样的词汇,减少句子数量,增加难词的使用,页数多,以及每个单词包含更多音节等),只是间接与高质量相关,而非关于质量本身的衡量。这种方法可能会对非英语母语者产生偏见,因为他们可能更倾向于使用更简单直接的语言。

04

结论:透明度、偏见和不当激励

如上所述,TARA可能由于隐匿的流程、设计上的不透明算法或系统复杂性而缺乏透明度。在某些情况下,用TARA取代或辅助以实现更为透明的评估机制可能是难以实现的,例如同行评议,因为这一机制要求评审者明确证明评分的合理性。然而,当同行评议的决策过程对于被评审者不透明时,从检查偏见(除决策外)和更有效地辅助评审者的角度来看,TARA的引入通常会增加研究评估在某些方面的透明度,但也可能减少其他方面的透明度。因此,在决定是否采用TARA时,识别和评估这些变化至关重要。

在研究评估中使用TARA来辅助或替代同行评议可能会引入新的偏见,或纠正同行评议中的偏见(如裙带关系)。目前,对于文献计量学(现阶段最重要的TARA类型)的净效应,几乎没有强有力的证据,因为其价值存在领域差异,且由于同行评议本身也存在偏见,因此没有一个真正的基准可以用于比较文献计量与同行评议。然而,迄今为止最为全面的研究表明,如果在AI系统中使用文献计量学来评估某一国家已发表的期刊文章质量,其结果相较于专家同行评议并不会增加或减少对性别、机构规模或早期职业研究人员的偏见。当然,即便是使用全自动化的研究评估系统,人类的判断仍然在算法和输入数据的选择、结果的解释以及基于结果的决策中发挥着重要作用。因此,自动化解决方案并不能消除在更广泛研究评估系统中对人类公平判断的需求。自动化也不能忽视引用次数作为研究评估证据的重要性及其作为未来技术辅助评估系统输入时的局限性

研究评估中另一个重要的考虑因素是它们是否会产生不正当激励。在这种情况下,透明度可能对研究评估不利,因为如果评估对象提前了解评估程序,可能会因此调整其行为。同行评议在这方面体现出一种优势,因为评审者基于认知做出判断的过程是不透明的。当然,理论上仍然存在一些不正当激励的可能性,例如引用评审者的研究或与评审者交好,但相比之下,这些似乎是微不足道的。


(全文及参考文献见Aslib Journal of Information Management 2023年10月,原文链接:https://www.emerald.com/insight/content/doi/10.1108/AJIM-04-2023-0119/full/html,本期推文为节选摘编,略有删减和编辑。)




本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨 王译晗

本期编辑 | 宋欣雨

基地官网:https://statevalbase.fudan.edu.cn



· end ·


下一篇

生成式人工智能时代的同行评议

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433