影响因子能否代表期刊的同行评议质量？-国家智能评价与治理实验基地

影响因子能否代表期刊的同行评议质量？

发布时间：2024-05-31 编辑：王译晗 来源：复旦智能评价与治理

摘要：期刊影响因子(JIF)通常被视为期刊质量的代理指标，但支持证据十分有限。目前尚不清楚期刊的同行评议特征与其影响因子之间的关系。本文分析了提交给1,644种生物医学期刊的10,000份同行评议报告(JIF从0.21到74.7不等)。首先对与评议完整性(材料与方法、演示与报告、结果与讨论、重要性和相关性)和指导性(建议与解决方案、示例、认可、批评)相关的内容进行人工编码，然后对transformer机器学习语言模型进行了微调和验证，以对语句进行分类，最后研究了不同内容类别的语句数量和百分比与JIF之间的关联。研究发现：

JIF越高，评议字数的中位数越长。
高JIF期刊中，涉及“材料和方法”的语句比例高于低JIF的期刊。
“演示和报告”类别则相反，高JIF的期刊对此类内容的重视程度较低。
在指导性方面，与低JIF期刊相比，高JIF期刊的评议对“建议和解决方案”的关注相对较少。

总之，高JIF期刊的同行评议往往更完整（特别是在研究方法上），相对较少关注演示内容或提出解决方案。但也要注意，JIF并不能可靠地代表单个稿件的同行评议质量。

引言

同行评议是一种由领域专家对提交至期刊的稿件的原创性、严谨性、可靠性和潜在影响进行评估的科学评价过程，是科学研究中至关重要的一环，并且在数据库和研究档案中越来越受到重视。随着近期撤稿事件频发，以及掠夺性期刊的出现，人们对同行评议的严谨性和有效性产生了担忧。尽管存在这些担忧，针对同行评议质量的研究却很少。人们对高质量同行评议的决定因素和特征知之甚少。同行评议报告的保密性以及评估其质量的数据库和工具缺乏，阻碍了大规模的同行评议研究。

影响因子最初是为了帮助图书馆做出馆藏索引和订购决策而开发的。它是一种基于期刊的指标，计算方式是将前2年发表的论文在当前年份收到的引用次数除以前2年发表的“可引用项目”数量。期刊的声誉、影响因子和同行评议质量是学者选择投稿期刊时最常见的标准。基于引用次数能够反映期刊在该领域重要性的假设，影响因子通常被视作期刊质量的代表。影响因子还被用于学术晋升、招聘决策和研究经费分配，导致学者对在高影响因子期刊上发表文章的追求愈发狂热。

尽管人们普遍使用期刊影响因子(JIF)作为期刊质量的代表，但关于JIF能否作为期刊质量衡量指标的实证研究却很少。特别是，尚不清楚期刊的同行评议特征与期刊质量之间的关系。本文基于10,000份同行评议报告样本，通过对同行评议报告语句进行人工编码和定量文本分析，研究了医学和生命科学领域期刊的同行评议特征与JIF之间的关联。具体而言，本文研究了JIF与同行评议报告中能够反映评议完整性和指导性语句的关系。

研究方法

本研究基于2014年1月24日至2022年5月23日期间提交给Publons的同行评议报告(样本仅限于具有JIF的医学和生命科学领域期刊)进行分析。Publons(隶属于Web of Science)是一个允许学者跟踪其同行评议报告的平台。研究过程如下：

(1)数据收集：从Publons数据库中随机选取了10,000份生物医学期刊的同行评议报告，JIF范围从0.21到74.7，涉及1,644种期刊。

(2)手工编码：两位研究人员对188,106个语句进行了人工编码，将其分配到与评议完整性和指导性相关的8个内容类别中的一个或多个。完整性包括：①材料与方法(是否对方法进行了评论？)；②演示与报告(是否对论文的演示和报告进行了评论？)；③结果与讨论(是否对结果及其解释进行了评论？)；④论文的重要性和相关性(是否对论文的重要性或相关性进行了评论？)；指导性包括：⑤建议与解决方案(是否提供了改进建议或解决方案？)；⑥示例(是否提供了例证来支持其评论？)；⑦认可(是否指出了优点？)；⑧批评(是否指出了问题？)。以上类别采用二进制评分(1表示是，0表示否)，一句话可以在多个类别中进行编码。编码过程考虑了类别的操作性和编码者间的可靠性，最终计算了Krippendorff 's alpha 以衡量可靠性。

(3)机器学习分类：使用DistilBERT模型对同行评议报告中的语句进行预测分类。性能指标包括精确度、召回率和F1分数。

(4)回归分析：使用负二项回归模型和线性混合效应模型分别分析了每个类别的语句数量和语句百分比与JIF分组之间的关联。回归模型考虑了数据的层次结构，包括期刊和审稿人的变化截距。

(5)关键词分析：对语句进行关键词分析，识别出每个类别的独特词语，总结了各内容类别中常用的典型词汇如下图。

讨论

结果表明，影响因子与同行评议报告的特征和内容存在关联。随着JIF的增加，评议报告的长度增加，所有内容类别的相关语句数量也相应增加，尤其是在材料与方法类别。随着JIF的增加，提供建议与解决方案、示例或处理工作报告的语句的普遍性有所下降。最后，来自亚洲、非洲和南美洲的审稿人比例也有所下降，而来自欧洲和北美的审稿人比例有所增加。

JIF的局限性已被充分证实，越来越多的人认为不应使用JIF来评估期刊上发表的研究的质量。《旧金山研究评估宣言》(DORA)呼吁在资助、任命和晋升方面避免任何基于期刊指标的评估方法。DORA得到了数千所大学、研究机构和个人的支持。本研究表明，提交给高影响因子期刊的同行评议可能比提交给低影响因子期刊的同行评议更为完整。因此，我们是否应该重新审视JIF，并将其作为同行评议质量的代理指标？与期刊内部不同论文的引用次数分布差异类似，报告的长度及其与完整性和指导性的关联度在期刊内部和不同期刊论文之间差异很大。简言之，JIF并不能可靠地预测单个稿件的评议质量。

随着JIF的增加，同行评议报告的长度也随之增加。这可能是因为来自欧洲和北美的审稿人以及以英语为母语的审稿人倾向于撰写更长的报告，并更愿意审阅高影响因子的期刊。此外，高影响因子期刊可能更有声誉，因此能够吸引更多资深学者。值得注意的是，有证据表明，报告质量会随着审稿人年龄或审稿年限的增加而下降。有趣的是，一些具有高影响因子的医学期刊近年来致力于提高审稿人的多样性。然而，由于数据不完整，我们无法检验审稿人资历水平对同行评议的影响。无论资历如何，审稿人可能会对影响因子较低的期刊进行简短的审稿，认为提供较为简单的审稿即可。另一方面，简短的评议不一定意味着肤浅，同事对于质量非常差的论文来说，撰写长篇评论可能并不值得。

同行评议报告多年来一直被隐藏，阻碍了学者对其特征进行研究。之前的研究多基于较小的、选定的样本。先前的一项随机试验评估了匿名审稿对同行评议质量的影响，该试验基于提交给单一期刊的221份报告。如今，科学变得更加开放，出版物和数据的开放获取以及开放同行评议逐渐推广。一些期刊现在随文章一起发布同行评议和作者回复。文献数据库也开始提供评论选项。欧洲科学技术合作(COST)同行评议新领域行动(PEERE)成立于2017年，旨在审查不同领域的同行评议，该行动基于来自多个学科的数百种Elsevier期刊数据。

Publons是当前最大的同行评议报告数据库，也是唯一一个不限于单个出版商或期刊的数据库，是同行评议研究的独特资源。基于医学和生命科学期刊的10,000份同行评议报告，本研究可能是有史以来规模最大的同行评议内容研究。但本研究存在以下局限：①认为其评议符合常规质量标准的审稿人，更有可能将其评议报告提交到Publons。②如果Publons数据库的期刊选择取决于JIF，这可能会导致分析结果偏差。③本文结果主要针对相对常见的内容类别。④我们只审查了同行评议报告，没有且无法考虑期刊编辑和编辑人员为改进文章而做出的额外贡献。换言之，尽管本文结果为同行评议研究提供了有价值的见解，但它们并未能全面描述期刊的整体质量保证过程。⑤由于数据库中缺乏信息，我们无法分析公开和匿名同行评议报告之间的差异。同样，我们也无法区分原创文章的评议与其他类型文章(例如叙事评论文章)的评议。⑥一些期刊在评估稿件时不考虑“重要性和相关性”，可能会影响该内容类别的分析结果。⑦最后，我们无法评估同行评议报告的内容在多大程度上决定了该论文被接受或被拒绝。

(全文及参考文献见PLOS Biology 2023年第21期第8卷，原文链接：https://doi.org/10.1371/journal.pbio.3002238，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨邓晨菲王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn

· end ·

如何使研究评估更符合“发展”目标？