文献计量评价是否会带来性别、机构或跨学科的偏见？-国家智能评价与治理实验基地

文献计量评价是否会带来性别、机构或跨学科的偏见？

发布时间：2024-04-19 编辑：王译晗 来源：复旦智能评价与治理

摘要：在评估受公共资助的研究时，通常使用文献计量方法或以文献计量为辅助的同行评议方法，然而目前尚不清楚文献计量学方法在辅助或替代同行评议方法时是否会产生偏见。本文借助英国研究卓越框架(REF2021)中关于期刊论文的三种评分机制(同行评议得分、领域标准化引用次数及期刊引用影响的领域标准化数据)来研究这一问题。本文评估了文献计量学在完全替代同行评议或在同行评议中起辅助作用时，可能对女性研究者、机构院系和跨学科研究产生的影响。结果表明，在上述三个可能产生偏见的领域中，最为明显的是机构，文献计量评价可能会对顶尖机构产生不利影响，仅使用文献计量学方法进行评价可能会掩盖或不能充分体现院系的真实、全面的研究质量。在使用文献计量学或以文献计量学为辅助的同行评议时应考虑这一点。

关键词：研究偏见；性别；同行评议；REF2021；跨学科

引言

当前国家层面科研评价的主流做法是以同行评议为主，文献计量为辅，同时，人工智能等方法在文献计量学中正在发挥越来越大的作用，但是，仅使用文献计量指标进行评价的做法依然很常见。因此，探讨文献计量指标是否会产生偏见至关重要。

本研究调查了文献计量指标在替代或辅助同行评议时可能会产生偏见的三个潜在领域：作者性别、机构院系和跨学科研究，从而回答以下问题：

•RQ1：在不同领域中，与基于同行评议的评分相比，基于论文或期刊文献计量指标的评分是否对顶尖机构有利？

•RQ2：在不同领域中，与基于同行评议的得分相比，基于论文或期刊文献计量指标的评分是否有利于女性研究者？

•RQ3：在不同领域中，与基于同行评议的评分相比，基于论文或期刊文献计量指标的评分是否对评价跨学科文章有利？

研究背景

论文引用指标与研究质量

将“引用”作为评价学术论文价值、质量或影响力的指标的核心理念基于这样一个假设——科研人员通过引用来认可先前的研究成果，因此一篇文章的引用次数反映了其对后续研究的影响力。然而，由于引用动机的不确定性，比如受到社会因素的影响，这一假设存在诸多局限。更重要的是，研究质量通常被认为包含三个维度：严谨性、重要性和创新性。引用量或许最能够反映的是一篇文章的重要性，但能否作为严谨性和创新性的有效指标则有待讨论。此外，引用量并不能反映文章的社会影响。因此，从理论上来看，在任何领域中，引用数量与研究质量的相关性较为薄弱，除非质量的三个维度出于某种原因而高度一致，或社会影响、严谨性、创新性都能够对引用行为产生正面影响。尽管先前研究大多发现RAE/REF分数与机构平均引用数量之间存在统计学上显著的正相关性，但学科之间存在差异。此外，这些研究很少揭示文章层面的相关性，因为数据汇总后，相关系数自然会提高。因此，文献计量评价是否对顶尖的机构院系有利仍有待探讨，这也正是RQ1关注的焦点。

期刊引用指标与研究质量

期刊影响因子(JIF)在正式和非正式的科研评价中被广泛使用。与研究社区内部交流而生的非正式期刊声誉相比，JIF的优势在于其相对透明。在引用次数被认为是研究质量合理指标的领域中，引用次数较多的期刊往往刊载了更多高质量的文章，因此，JIF能够提供一个较为客观的研究质量指标。在某些领域，它可能比单篇文章的引用次数更能反映质量水平。此外，在JIF受到高度认可的领域，在JIF高的期刊上发表论文将形成正反馈循环，使得高JIF的期刊越来越多地发表高质量的研究。但是，创新度高的研究可能更倾向于在JIF相对较低的期刊上发表，因此该指标无法很好地捕捉创新性这一质量维度。

JIF以及其他类似指标的多种局限性促成了《旧金山研究评估宣言》，该宣言明确反对这些做法。JIF延续了引用次数评价的许多缺陷，例如在那些引用次数并非良好研究质量指标的领域(如艺术与人文学科)中，它们并无太大价值；不同领域之间存在天然的引用差异，但JIF等指标常在不同领域间进行不适当的对比。此外，技术性问题层出不穷，包括对引用次数偏态分布的处理不当、计算错误，以及在计算JIF时分子与分母的不一致性。这使得期刊通过频繁发布社论等可被引用的非研究性内容来提高自身的JIF成为可能。因此，尽管JIF等指标的计算简单直观，但其使用却需要格外谨慎。

学术界中的性别偏见：

同行评议与文献计量学

性别歧视是否会影响对女性研究者工作的评价？这是学界普遍存在的担忧，这主要是因为性别歧视并未从社会中被完全根除。全球范围内，在高级职位及重要学术奖项的获得者中，女性的比例偏低，高被引学者名单中也同样以男性为主。例如，在2004~2010年意大利VQR研究评估期间，女性提交的各种类型的成果在同行评议或文献计量评价中获得高评分的可能性低于男性，即便在评估中考虑了年龄、资历和强制性产假等因素后仍然如此，并且这一现象与审稿人性别无关。然而，关于性别歧视如何影响学术界的同行评议和引用次数，学界内部的观点仍然存在分歧。许多研究尝试调查女性研究者在研究评价中是否遭受歧视，但结论并不一致。此外，女性相对较短的职业生涯也导致了职业发展和斩获奖项更有利于男性。由女性撰写的研究在某些领域可能获得公正评价，而在那些对女性有“排斥”的领域则不然。

一项研究将2004~2010年意大利VQR中7,500项成果的文献计量评分与同行评议评分进行了比较，研究发现，即使考虑到年龄、学术职级和合著者身份，女性提交的文章的同行评议评分低于文献计量评分。但这项研究没有揭示学科领域差异，也没有揭示期刊影响力施加的影响。此前的一份英国白皮书同样表明，在某些领域，与同行评议相比，文献计量学对女性有利，但没有提供细节。

评估跨学科研究的困难

跨学科研究对于开展具有社会挑战的应用性研究以及基础科学研究具有重要价值。与单一学科研究相比，评估跨学科研究的引用次数可能不那么直接有效，因为其重要性可能更多地依赖于学术界以外对其社会价值的评价。因此，引用之外的因素在评价跨学科研究质量时显得尤为关键，并且评估这些因素在本质上是复杂的。然而，目前还缺乏大规模的基于引用的证据来支持上述观点。

对跨学科研究的引用分析倾向于评估跨学科研究的平均引用次数与其组成领域的平均引用次数之间的关系。例如，一些研究发现跨学科研究的引用次数可能高于或低于其组成领域的平均值，这取决于所讨论的具体领域。当跨学科研究基于多样性的三个维度(多样性、平衡和差异)，将更多的领域关联衔接起来时，则能够吸引更多的引用；而结合了不相似领域的研究，则难以获得较多引用。因此，从引文分析的角度看，跨学科研究的影响力还不明确，且目前的研究还未全面揭示跨学科性与研究质量之间的关系。

方法与结果

本研究将文献计量学指标应用于一组已获得REF2021同行评议分数的论文，旨在评估将文献计量学指标作为同行评议的等价替代是否会带来系统性的评分变化，揭示其相对于同行评议的潜在偏差。研究使用了来自英国高等教育机构提交的148,977篇文章的数据，这些文章的首次发表时间为2014~2020年。数据分析主要基于文章的引用次数和期刊影响因子，同时利用 Scopus 数据库提供的引用信息来进行标准化和分析。此外，分析还考虑了文章的学科领域和发表年份，以调整引用次数的计算。通过模拟 REF 程序，评估了文献计量评价在完全替代同行评议或辅助同行评议时，可能对机构院系、女性研究者和跨学科研究产生的影响。

分析结果表明，在除化学领域的所有学科领域中，文献计量学评分都可能对发表高质量研究较多的顶尖机构不利。将期刊或论文的引用数据用到同行评议中可能产生均值回归效应。文献计量学评分对女性稍有利，这一点在物理科学、工程学和社会科学中最为明显。在约一半的评估领域中，跨学科研究在文献计量学评分中受益，在经济学与计量经济学、政治与国际研究两个领域相对显著。

总之，在三个文献计量评价可能产生偏见的领域中，最明显的是机构，文献计量评分对顶尖机构可能产生不利影响。这就导致了一个悖论——被认为是高质量的机构更容易拿到高的文献计量评分，但这些机构在同行评议评价时，其结果表明文献计量学指标并不能完全揭示这些机构的多方面质量优势。也就是说，仅使用文献计量评价可能会掩盖或不能充分体现顶尖机构的真实、全面的研究质量。

讨论

RQ1：在不同领域中，与基于同行评议的评分相比，基于论文或期刊文献计量指标的评分是否对顶尖机构有利？

本文首次揭示了相比于同行评议，文章和期刊层面的文献计量学指标对顶尖机构的不利影响。之前的研究和国家研究评估活动中的评估标准，以及与绩效相关的资助程序似乎并未涉及这一方面。但是这一发现的局限在于本研究中对文献计量评分的随机分配，即本研究模拟的是如果每个星级类别中的文章数量是预先确定的，文献计量学将如何被应用。这种模拟方法试图反映出如果评估系统中有固定的质量分数配额，例如为了进行领域间的规范化引用，文献计量学可能的应用方式。然而，由于在现实中，评估通常不会严格预设每个评级类别中的文章数量，因此，文献计量学评分的随机分配可能会产生阻尼效应，即评分可能因随机分配而显得过高或过低，不足以真实反映文章的实际质量。

RQ2：在不同领域中，与基于同行评议的得分相比，基于论文或期刊文献计量指标的评分是否有利于女性研究者？

对于RQ2，在论文和期刊层面的引用中，对女性的轻微性别偏见与之前的研究一致，即在英国，女性相比于男性在引用方面具有小规模优势。这与对意大利2004~2010年数据的相关研究一致，该研究使用了期刊影响因子和引用次数相结合的计量方式，并在组合回归中以研究领域作为虚拟变量。此外，评价结果也有可能受研究团队性别差异的影响，例如，与同行评议相比，文献计量评价也许更青睐资深的男性末位作者。

RQ3：在不同领域中，与基于同行评议的评分相比，基于论文或期刊文献计量指标的评分是否对评价跨学科文章有利？

本研究首次发现跨学科研究与其引用优势之间缺乏一致性的现象，这与之前的研究一致，即跨学科的性质是复杂的，没有单一的质量衡量模式，包括引用。在极少数评估领域中发现的例外情况可能是由于这些领域内具有相对稳定的跨学科模式，如引用较高的经济物理学。但本文使用的跨学科数据并不完整，因此可能二者之间存在某种关系，但由于跨学科研究的标记方法问题，这种关系未能显现。

同时，本研究存在多个局限：①在其他国家的同行评议以及不同的评议目标中，文献计量的价值会有所不同；②在REF2021中，英国研究者仅提交了他们认为最佳的成果，而那些质量被认为较低的学术成果的生产者可能已被转为纯教学合同，以避免其成果被评估从而影响排名；③如果不考虑引用的偏态分布，进行领域/年份标准化可能会得出不同的结果；④REF2021的34个评估单元(UoAs)范围相对广泛，采取不同的学科分类方案可能会产生略有差异的结果；⑤随着时间的推移，特别是期刊级别的变动，结果也可能发生变化；⑥随着PLoS One等大型OA期刊的崛起，性别识别可能引入了与种族相关的二级偏见，尤其是那些算法难以识别的姓名；⑦最为关键的是，跨学科研究的标记可能并不准确，评估跨学科研究的引用有时也需要更长的时间窗口；⑧本研究未探讨文献计量学相对于同行评议产生性别偏见的原因，而理解这一点有助于判断潜在的偏见是存在于同行评议还是文献计量学之中。

结论

研究发现，文献计量学指标不能完全揭示顶尖机构的多方面质量优势。因此，在文献计量评价时应该意识到这一潜在缺陷，要么接受它，要么采取措施弥补它。这同样适用于REF，文献计量学应用于支持同行评议而不是取代它。例如，在REF评审员意见存在分歧的情况下，如果文献计量学信息不能提供明确的质量决策支持，那么选择给出与机构平均水平一致的质量分数是合乎逻辑的，这一做法可以一定程度上减少文献计量学的偏差。

在英国，女性相比于男性在文献计量评价中享有微小的性别优势。这一发现应该令那些支持利用文献计量学进行科研评价的学者感到欣慰，因为至少与同行评议相比，文献计量学不太可能产生针对女性的偏见。鉴于女性在社会和学术界面临的额外障碍，这种轻微的引用偏好有助于缓解针对她们的历史偏见。

研究结果还表明，与同行评议相比较，跨学科研究总体上并不会因为使用文献计量评价方法而处于不利地位。但评估者应对那些文献计量学可能产生误导的个别高/低引用的跨学科领域保持谨慎。

关于个人层面的文献计量评价，例如在职位任命、晋升和终身教职等方面，研究表明，论文和期刊层面的引用信息总体上不会对女性或跨学科研究人员不利，因此在适当的情景下继续使用论文层面的文献计量学指标是可行的。

(全文及参考文献见Research Policy 2023年第52卷第8期，原文链接：https://doi.org/10.1016/j.respol.2023.104829，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨邓晨菲王译晗

本期责编 | 金潇苒

基地官网：https://statevalbase.fudan.edu.cn

·end·

焦点研讨 | 人文社会科学的研究质量评估