诺奖得主也榜上无名?揭示不同方法导致的高被引学者名单差异-国家智能评价与治理实验基地
知评价

首页 > 评价前沿 > 知评价 > 正文

诺奖得主也榜上无名?揭示不同方法导致的高被引学者名单差异

发布时间:2025-07-18 编辑:王译晗 来源:复旦智能评价与治理

图片

摘要:科睿唯安(Clarivate)及其前身汤森路透自2001年首次发布高被引学者名单,并自2014年起每年持续发布。该名单依据出版物和引文数据,在几乎所有学科领域识别“高被引学者”(Highly Cited Researchers, HCRs)。然而,关于HCRs的界定存在多种方法,科睿唯安的方法仅是其中之一。识别HCRs可以采用不同策略,例如使用学科归一化引文率或绝对被引次数;是否包含自引;采用全计数或分数计数;统计所有作者、仅限通讯作者或仅限第一作者;采用短期、长期或可变的引文时间窗口;以及选择较短或较长的出版时间区间。本研究旨在探讨不同识别方法对实证结果的影响。人们或预期,基于相同文献计量数据的不同识别方法应会产生高度重叠的名单。然而,通过本研究的比较分析发现,方法选择显著影响最终被识别为HCRs的样本及其特征,引文时间窗口的长度、统计所有作者还是仅限通讯作者等选项的影响尤为显著。基于实证分析结果,建议HCRs名单的使用者充分认识到不同方法对最终名单所产生的重要影响。

关键词:文献计量学;高被引研究人员;科睿唯安;Scopus


01

引言

科睿唯安(Clarivate)及其前身汤森路透自2001年首次发布高被引学者名单,并自2014年起每年持续发布,利用出版物和引文数据在几乎所有学科领域识别出被广泛引用的“高被引学者”(Highly Cited Researchers, HCRs)。

然而,HCRs的界定标准并非唯一,科睿唯安的方法只是众多可能方案之一。理论上,基于相同的文献计量数据、时间跨度和作者群体,采用不同的方法应当产生高度重叠的名单。但已有研究表明,这种预期并不成立。

本研究构建了四种替代性的识别方法,与科睿唯安的方法进行系统比较,发现方法选择对结果具有显著影响。需要指出,所谓“绝对正确”的HCRs名单并不存在,本文亦无意推荐某种“最优”方法,而是旨在揭示方法学选择对结果的重要影响。任何方法的评估,都必须建立在对“HCRs”这一概念在特定分析场景下的明确定义之上

本研究主要考察不同方法所产生名单的异质性,包括名单之间的重叠程度及其对国家和机构层面统计结果的影响。分析指标包括:(1)平均学术年龄;(2)性别分布;(3)机构归属;(4)合作团队规模。此外,本文还评估了不同方法在识别诺贝尔奖得主方面的差异,包括入选人数及差异成因分析。

02

HCRs识别的五种方法

本研究比较了识别HCRs的五种方法(变体):

变体0(Variant-0):为近似科睿唯安方法。识别每个学科中发表前1%高被引论文的作者。为了与其他方法保持可比性,对该方法做了如下调整:(1) 采用3年引文窗口;(2) 排除自引;(3) 使用OECD的FoS学科分类;(4) 允许一篇论文归属于多个学科。由于各学科规模差异,最终被纳入的论文数量略高于Scopus论文总量的1%。此外,剔除了合作作者超过30个机构的论文,这导致2010-2018年论文总数减少了1455篇(占比0.7%),剩余218,638篇。在35个学科中,计算作者数量的平方根作为阈值,作者在该学科内的论文数量若达到阈值即入选。跨学科HCRs的识别方式是将作者在所有活跃学科中(其论文数量除以该学科阈值)的得分累加,若累加值≥1,则该作者入选。最终,变体0在2010-2018年间识别出14,349名HCRs作者,占同期所有独立作者的0.07%。其中5,342名通过学科内计算入选,9,007名通过跨学科计算入选。

变体1(Variant-1):与科睿唯安方法不同,不仅限于前1%高被引论文的作者,而是基于数据库中所有论文,计算每位作者在每年、每学科的绝对被引频次。该方法关注被引总量,而非发文数量(例如,10篇论文每篇被引10次的作者,与1篇被引100次的作者权重相同)。变体1涵盖2010-2018年间约2000万名作者,远高于变体0的约100万名。每年各学科中被引频次达到或超过前1%阈值的作者均被纳入,最终名单包含318,913名作者,占全部作者的2.1%。该方法关注作者的整体影响力(不考虑被引来源),但存在两个主要缺陷:(1) 高产但单篇论文被引较低的作者容易入选;(2) 大型合作团队中,所有作者均被分配全部被引次数,导致引文重复计算。

变体2(Variant-2):在变体1的基础上,引入了分数计数(即所有作者平分论文被引次数)。各学科中分数被引次数排名前1%的作者入选(包含临界值作者)。最终,变体2识别出313,475名HCRs,占同期所有作者的2.0%。按年度来看,在作者中这一比例几乎保持在1.5%左右。该方法的优势是避免引文重复计算,但缺点是:(1) 所有合作者被等同对待;(2) 大型合作的高被引论文对单个作者的贡献度较低。

变体3(Variant-3):即“通讯作者主导”方法。假设通讯作者是论文的主要贡献者,识别被引频次总和排名前1%的通讯作者。其优势是所有引文和论文仅归属于一个作者。但该方法忽视了非通讯作者的贡献,且各学科和机构的通讯作者署名习惯存在差异。最终,变体3识别出94,415名通讯作者HCRs,占同期所有通讯作者的2.0%,占所有作者的0.6%。

变体4(Variant-4):基于Ioannidis团队的标准化引文指标数据库(2016发表,2019、2020年更新),包含全球前100,000名作者。采用六项指标:(1) 学科归一化引文得分;(2) h指数;(3) Schreiber h指数;(4) 独著论文被引次数;(5) 独著或第一作者论文数量;(6) 独著、第一或末位作者论文被引次数。通过对六项指标进行对数转换归一化(0-1)并等权加权生成复合指数。为与本研究其他方法可比,筛选最后发表年份≥2010年的作者,最终获得94,364名作者名单,占2010-2018年全球作者的0.6%。

03

结果

本研究的结果分析分为三个部分:第一部分关注不同方法识别出的HCRs名单的重叠程度,即各方法识别的HCRs名单是否高度一致,还是存在明显差异。第二部分探讨不同方法所识别HCRs的特征,主要包括:(1)平均学术年龄;(2)性别分布;(3)机构归属;(4)合作团队的平均规模。第三部分分析不同方法在特定应用情境中的表现,核心问题是:各方法识别诺贝尔奖得主的能力有何差异?各HCRs名单中包含的诺奖得主数量是否接近?如果存在差异,其成因是什么?为此,研究团队从物理学、化学、生理学或医学以及经济学领域的HCRs名单中识别了诺贝尔奖得主,回溯了自1985年以来所有相关获奖者的作者档案。鉴于HCRs与诺奖得主均属于全球顶尖科学家群体,研究预期高被引名单中应包含大量诺奖得主。

3.1 不同方法识别名单的重叠情况

本研究首先统计了五种方法识别的HCR的绝对数量及其在作者总体中的占比。结果显示,不同方法产生的HCR数量及其占比存在显著差异:变体0的HCR数量最少(n=14,349),仅占2010-2018年作者总数的0.09%;变体1识别的HCR数量最多(n=318,913),占比达2%;变体2的HCR数量略低于变体1(n=313,475),同样占比2%;基于通讯作者的变体3识别出94,415名HCR,占作者总体的0.6%,但在所有通讯作者中占比为2%。

图1展示了五种方法识别名单的双边重叠度与双边排他性。结果显示,变体0名单中98%和92.2%的作者分别存在于变体1和变体2名单中,而变体3仅包含变体0中60.4%的作者(占变体3名单的9.2%)。这表明,如果将通讯作者视为主要贡献者,变体0可能遗漏了大量核心贡献者,显示出当前主流方法对合作论文中的贡献分配存在偏差。此外,变体1与变体2的重叠度仅略高于50%,验证了全计数与分数计数方法对HCRs名单构成的显著影响。变体3能够覆盖变体0和变体1约三分之二的HCR,覆盖变体2的比例接近四分之三,表明分数计数有助于更好地识别通讯作者。变体4(基于Ioannidis数据集)的名单与其他方法的差异最大:与变体0的双向重叠度分别为43%和6.6%;与变体1的双向重叠度为11%和48%;与变体2的双向重叠度为14%和61%;与变体3的双向重叠度为23%和29%。

图片


3.2 HCRs的特征

(1) 机构归属

通过比较不同方法识别的德国HCRs的机构分布,发现变体0具有较高的选择性,而变体4与其他方法存在明显差异。以2018年为例(见表1),马普学会在所有方法中均位列德国研究机构的首位,这与其在基础研究领域的卓越表现相符(例如多次获得诺奖)。莱布尼茨协会与亥姆霍兹协会的排名则取决于所采用的方法:变体0和变体3将莱布尼茨协会排在第二,其余方法则将亥姆霍兹协会列为第二。

图片

变体1显著提升亥姆霍兹协会的排名,主要原因是该机构具备密集的合作网络,尤其是与高校的合作,导致多机构合作论文在全计数法下获得较大优势。变体4同样将亥姆霍兹协会列为第二,但与马普学会的差距与其他方法一致,没有产生变体1的夸大效应。

图2通过相对指数(各机构HCR占比除以马普学会基准值)揭示机构间差异:变体1和变体2显著降低了莱布尼茨协会的排名;变体0降低了亥姆霍兹协会和高校的HCR占比;弗劳恩霍夫协会在变体0和变体1中表现最弱;应用技术大学在变体1和变体4中处于劣势。这一结果表明,HCRs名单的机构分布受方法选择的系统性影响,在德国机构层面呈现出显著差异

图片

(2) 学术年龄

表2展示了2010-2018年Scopus数据库中所有作者及各方法识别的HCR在四个学术年龄段的分布。研究发现,年轻学者在所有HCRs名单中的代表性均显著不足。在变体4中,99%的HCR属于学术年龄超过16年的群体;变体0和变体3的该比例为70%;变体1和变体2则包含更多年轻学者。

图片

表3进一步按学科领域展示了2010-2018年间各方法识别的HCRs的平均学术年龄。结果显示,所有方法识别的HCR平均学术年龄均显著高于同期作者总体平均水平,这一现象符合成为HCR需长期积累高影响力成果的逻辑

图片

在国家层面的比较(见表4),德国、美国、中国和英国均呈现相似规律。尽管中国学者总体平均年龄较低,但变体4识别的中国HCR群体依然是各方法中最年长的。特别值得注意的是,采用变体0时,美国的HCR平均年龄低于德国,而在采用变体3时则相反。这可能是由于美国学者的平均被引率较高,使得他们在更严格的筛选下也能更早达到入选门槛。采用变体1、2、4时,美德两国HCR的年龄特征趋于一致。

图片

(3) 性别分布

图3显示了五种方法识别的HCRs及全球Scopus作者的女性占比。所有HCRs名单的女性比例均低于全球作者的女性比例,呈现明显的性别失衡。其中,变体4的女性占比最低(约15%),变体0次之(约20%)。

图片

其余三种方法的女性代表性相对较好,且呈现随时间上升趋势,这与全球学术界女性作者比例的增长趋势一致。采用全计数的变体1女性比例最高。各方法对比表明,女性担任通讯作者的比例显著低于男性合作者

进一步分析显示,工程学和社会科学领域女性的HCR代表性相对较好,而自然科学领域女性HCR的比例明显低于该领域女性作者的整体比例。这反映了学术影响力评价中的系统性性别差异。

(4) 团队规模

国际合作论文的被引表现通常优于独立研究成果。鉴于本研究对比的大多数HCRs识别方法均采用全计数或分式计数方式统计作者贡献,研究者团队规模(定义为每位作者所有论文的平均作者数)可能影响HCRs的遴选结果。

图4显示,所有方法识别的HCR团队规模均呈逐年上升趋势。采用分式计数的变体2识别的HCR团队规模最小,显示出对团队规模的依赖程度较低;变体3和变体4团队规模相近;变体0和变体1的团队规模最大,变体0的增长趋势最为明显,在观测期末几乎追平变体1;变体1始终保持最高的团队规模,这验证了全计数法下大规模合著的优势效应。

图片


3.3 不同变体识别HCRs中诺贝尔奖得主的能力

本研究进一步比较了五种方法在识别诺贝尔奖得主方面的表现。图5显示,2010-2018年各方法对当年活跃的诺奖得主的识别率:变体0的识别率最低,仅为10%-13%,其余四种方法的识别率在61%-92%之间。变体4表现最佳,年识别率接近90%;变体2次之,年识别率为76%-87%。

图片

图6进一步揭示了各方法对诺奖得主的绝对识别数量。变体0由于筛选严格,入选人数最少,诺奖得主占比显著低于其他方法。通过计算诺奖得主入选概率的倍数(即某方法的入选概率与随机抽样的比值),发现:变体0的诺奖得主入选概率为普通作者的32-51倍;变体3表现最优,倍数达到131-196倍;其余三种方法介于34-63倍之间。

图片

综上,实证结果表明:不同方法对诺奖得主的识别能力存在系统性差异,方法选择直接影响评价结果的有效性。若目标是识别顶尖科学家(如诺奖得主),不宜采用过于严苛的变体0,而应选择更具敏感性的识别方法。这一发现强调了方法选择对实证结果的决定性影响,为HCRs评价提供了重要参考

04

讨论

本研究证实,HCRs的界定标准存在多种可能,使用不同的方法会产生差异显著的名单。通过对五种实证变体的比较可以清晰看到,引文计量的策略选择——如是否采用学科归一化还是绝对引文数、是否剔除自引、采用全计数还是分数计数、是否限定作者角色、引文窗口设定等——将系统性地影响被界定为HCRs的样本特征及其机构分布格局。

本研究还揭示,不同的识别方法会导致德国科研机构的排名发生变化。尽管马普学会始终位居首位,但莱布尼茨协会和亥姆霍兹协会的相对位置则会随方法选择发生显著更替。无论采用哪种方法,所有HCRs名单都表现出明显的高龄化特征。以变体4为例,99%的HCRs学术年龄超过16年,平均科学生涯长达25.4年。变体0的情况亦类似,这与科睿唯安所宣称的“兼顾早期、中期和资深研究者”的目标存在偏差。性别分布方面,所有方法识别的HCRs女性比例均明显低于全球作者的女性比例,性别失衡问题尤为突出。其中,变体1的女性代表性相对较好,但总体仍显不足。团队规模分析进一步揭示,全计数方法(如变体1)显著增加了大规模国际合作团队成员入选HCRs的概率。这种方法在高合作度领域尤其容易放大团队效应,从而影响个人贡献的准确识别。在识别诺贝尔奖得主方面,五种方法也表现出显著差异,这一结果表明,通讯作者法兼具较高的筛选精准度和对高影响力研究者的良好捕获能力

基于上述发现,本研究提出核心警示:HCRs名单高度依赖所采用的计量方法,直接将其作为机构评估或人才聘用的决策工具存在显著风险。具体建议包括:(1) 人才遴选时,建议优先采用通讯作者法,更加聚焦于论文的核心贡献者;(2) 进行长期科研趋势分析时,可采用开放式引文窗口,以更全面地反映科研积累效应;(3) 若目标为动态监测近期变化,宜采用短期引文窗口,以敏感捕捉学术界的最新动态。尤其需要强调的是,若目标是识别顶尖科学家(如诺奖得主),应优先选择在历史效度上表现最优的方法体系;而用于学术机构的人才评价时,则需特别关注研究者的实际贡献度,避免因合作机制或署名规则导致的偏误。总之,实现方法透明化和结果的情境化解读,是消解引文计量偏差、提升评价公正性的根本路径。


(全文及参考文献见Scientometrics 2025年第130卷,本期推文为节选摘编,略有删减和编辑。)




本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨 王译晗

本期编辑 | 宋欣雨



· end ·


下一篇

AI可以被列为作者吗?——探究AI在学术出版中的贡献认定

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433