知评价

首页 > 评价前沿 > 知评价 > 正文

研究评估中使用Altmetrics的利与弊

发布时间:2023-02-10 来源:复旦智能评价与治理,复旦新学术


摘要研究评估中,为了补充基于引用的指标,学界提出许多基于网络的指标,这些指标通常被称为Altmetrics(替代计量学),可以在Altmetric.com和Elsevier的Plum Analytics上获取或直接收集,这些组织还可以提供Altmetrics以支持机构的自我评价。Altmetrics用于学术评价的潜在优势是,它们可以反映重要的非学术性影响,并且可能出现在文章发表时的引用之前,从而提供更早的影响证据。Altmetrics的缺点通常包括指标不稳定、数据缺失以及难以将证据转化为特定的影响类型。Altmetrics虽有不足,但已被出版商广泛采用,以便作者、编辑和读者了解最近发表文章的热度。本文总结了支持和反对将Altmetrics用于学术评价的观点。虽然系统收集的Altmetrics不适用于重要的正式学术评价,但它们可以在其他情况下发挥作用:在评估发表期刊文章较少的研究机构时;在评价中寻求新的影响的证据时,以及当被个人或团体用于支持基于叙述的非学术主张时,Altmetrics都可以提供信息。此外,Mendeley阅读数作为早期(主要)学术影响力指标具有独特的价值。但使用替代计量指标的组织需要招聘或培养内部专家,以确保这些指标不会被滥用。

策略要点:Altmetrics或研究成果的替代计量指标,作为两类研究管理问题的解决方案之一被提出:(a)评估研究的社会影响力;(b)得到早期影响证据。本文梳理了以往观点,发现(a)的支持者较少,(b)的支持者很多。机构需要评估替代计量指标在提供数据和进行学术评价方面所提供的价值,以及这些价值是否足以抵消其财务和时间成本。使用替代计量指标的机构需要进一步提升内部专业知识水平,以便负责任地使用和有效解释这些指标。

关键词:Altmetrics;网络计量学;替代计量指标;负责任的指标;科学计量学


1

引言


许多个人和组织需要评估学术研究的价值或影响,以支持关于未来计划、人事晋升任命、资源分配或价值评估方面的决策。然而在评估研究时,人文学科专家的专业知识通常缺乏有效发挥途径。由于种种原因,同行评议费时费钱难以开展推进。研究的专业化导致只有少数高水平专家才可以合理地开展学术评价,而实际上大多数评价者往往缺乏对部分或全部研究成果的专业知识背景。此外,根据评价要求剖析研究成果通常复杂且耗时,在期刊文章的审阅结果,学术裙带关系的潜在影响或对竞争范式的偏见等方面,专家意见可能出现分歧。综上所述,当准确评估学术研究的成本超过做出错误决定的机率成本时,进行准确评估可能是不合实际的

针对上述问题,学界出现了进行学术评价的定量方法,特别是基于引用的指标和其他捷径。例如,某些领域的求职面试官可能会检查申请者简历中所提到期刊的名称或影响因子,以快速了解他们进行高质量科研的能力。极端来讲,国家政策的制定者可能会仅依赖定量的引用和产出指标来评估国家领域的学术表现。虽然根据引用平均数来评价出版物对后续研究有用的程度似乎是合理的,但它们并不能反映成果对学术界以外的影响。在当前研究人员展现其研究的社会影响的压力越来越大的环境下,这是一个巨大限制。

从历史上看,关于量化非学术性影响的第一次系统尝试,可能是19世纪70年代的专利分析。专利为新发明提供商业保护,因此通过计算大学的专利数或学术研究的专利引用数可以为研究提供商业方面的价值指标。该举措只取得了部分成功,因为专利在许多行业中并未得到广泛应用,许多专利几乎没有实际价值。即使在专利被得到广泛应用的行业中,它们也没有体现出创新过程的复杂性,并且个别引用是有问题的。此外,商业价值只是非学术影响力的一种。研究人员还可以衡量研究成果对文化、艺术、健康的益处,帮助非政府组织产生的社会效益,或通过其他方式支持国家的各种服务。因此在理想情况下,学术研究可能产生的所有不同类型的社会影响都应该有广泛的指标来衡量

在没有任何非学术影响指标被广泛使用的情况下(专利和专利引用除外),网络被认为是新证据的潜在来源,因为可以利用各种类型网页对学术研究的引用来评估学术研究的影响力。这些新的网络计量指标可以计算来自整个网络或来自特定部分的引用,例如在线教学大纲和Google图书。

十年前,社交网络的兴起促使人们再次呼吁创建新的社会影响指标。例如有人认为,有关学术研究的推文数量可以作为衡量公众对研究兴趣的新指标,例如通过Twitter统计儿科牙科研究的社会影响力。Altmetrics也可以类似地反映公众参与。在其他因素相同的情况下,能够吸引公众注意力的研究最有可能带来积极的社会影响,并且由于Twitter的快速发展,这些研究也更早地提供了影响证据。这产生了来自社交网络的一系列公共利益指标,包括提及研究的推文、博客帖子和Facebook帖子的数量,这些指标被称为Altmetrics,因为它们是引用的潜在(补充)替代品。Altmetric和Plum Analytics这两家公司系统地收集Altmetrics,并将其打包用于学术界。Altmetrics往往比网络计量指标更容易收集,因为它们通常可以通过社交网站提供的应用程序编程接口(API)实现完全自动收集,使其在商业上可行,而网络指标则不然。尽管如此,相关公司也已经引入和调整了一些网络计量指标添加到他们的Altmetrics中。

如今那些需要评估学术研究并发现引用指标不足的人可以从商业公司那里购买替代指标,或者使用一系列已知方法自行收集。本文总结了当前替代指标在社会和早期影响方面的优势和劣势。


2

现有的证据


引文分析研究发现,将替代指标用于评估时潜伏着巨大的复杂性,因此我们首先需要评估关于反映社会影响的替代指标潜力的理论和假设。大多数替代指标可能具有类似或更为突出的问题,因为它们未经同行评议,并且不源自于相对严谨的学术出版过程。以Twitter为例,未知因素包括学术研究的发布频率、发布主体,以及发布原因。此外,目前尚不清楚人类的推文与Twitter机器人相比是否相形见绌,学术推文用户在引用学术研究时的数量是否超过公众,以及发布关于研究的推文的公众比例是否能够为公众参与研究提供有意义的见解。所有这些问题都很难回答,而且在使用Twitter参与学术研究时可能存在学科差异,使得这些问题更加复杂。

面对上述复杂且相互关联的问题,学界已经采用了一系列标准策略来评估替代指标。以下策略是最常见的,按使用程度降序排列。

• 替代指标与引用次数的相关性

• 替代指标的普遍使用程度

• 对引用者动机的分析

• 与影响相关的用户调查

• 替代指标的预测能力

2.1 Mendeley读者

Mendeley是一款跨平台文献管理软件,同时也是一个在线的学术社交网络平台,允许用户记录他们感兴趣的学术文章,然后帮助他们从中构建参考列表。在Mendeley中记录文章的人被称为Mendeley读者,大多数用户记录了他们已经阅读或打算阅读的文章,这是一种替代计量。约有1/20的研究人员使用Mendeley,因此其读者人数会少于一篇文章的读者人数。这些读者往往是初级研究人员或学生,因此Mendeley读者数量反映了成果的学术影响力和一定程度的教育影响力,而不是社会影响力。Mendeley读者数是衡量学术影响力的早期指标,因为读者会出现在文章被引用之前,这可能是因为Mendeley不受引用文章发表时滞的影响。

有强有力的证据支持将Mendeley作为衡量所有学术领域期刊文章的早期影响力标。Mendeley读者数与所有学术领域的引用数呈强或中等相关,并且至少与引用数一样普遍。Mendeley读者数与专家对研究质量的判断也有一定的正相关关系。早期的Mendeley读者数与长期引用数呈正相关,因此它们可用于预测最终的引用次数。Mendeley对于重要领域的会议论文也很有用,但通常不用于专著和学位论文。

2.2 健康网站引用

由于引用学术研究的在线健康相关网站的激增,健康和生物医学出版物拥有最丰富的替代指标。其中一些可以被挖掘以获得高质量的引文信息。高质量的网站通常会引用一小部分文献,每次引用都可以提供有价值的社会效益。其中包括临床试验网站、国家卫生专业人员指南,以及医疗药物信息目录。F1000生物医学网站上的发表后同行评议影响类型标签也是生物医学研究社会影响证据的潜在来源。

2.3 Google Books引用

传统的引文索引,包括Web of Science和Scopus,主要索引学术期刊文章,但也会索引一些会议论文、杂志、专著和其他成果。因此,被其他类型而非期刊文章引用的研究,其影响力将被传统的引用指标低估。这个问题可以通过使用Google Books作为间接引用索引来解决,方法是将引用元数据搜索与结果过滤结合起来。在图书领域,这提供了比Scopus和Web of Science更可靠的结果,并且该过程也可用于抓取书籍的引用。

2.4 在线教学大纲提及

如果某些领域的学术研究提供了关于教学大纲的信息且可被无障碍获取,那么它可以吸引大量本科生或研究生。评估学术成果教育价值的一个简单方法就是计算有多少课程大纲提到它。虽然大多数教学大纲可能是私人的,但有相当一部分公开在网络上,并且可以通过搜索引擎查询,从而获取它们对特定期刊文章或专著的引用。

2.5 维基百科引用

免费的公共百科全书——维基百科是众多领域的学术和其他信息的存储库,其功能之一是向非专业公众传播学术知识。它还帮助其他领域学者有效总结了许多学术主题。因此,来自维基百科的引用可能代表公众或非专业研究人员对研究贡献重要性的认可。由于维基百科引用最新学术文章的比例较低(5%),并且维基百科引用计数与Scopus引用次数之间的相关性较低(但具有统计显著性和正相关性),因此它们的价值可能局限于对某些类型的影响评估。

2.6 博客

科学博客中经常讨论期刊文章和其他公共研究,对其进行批评或将其翻译给非科学受众。博客引用数很少见,仅出现在6%的近期文章中。来自博客的引用数与被引次数呈弱正相关,处于文章发表年份的博客的引用可用于预测长期引用次数,因此博客引用是强有力的影响力指标。与维基百科引文一样,它们的稀缺性是实际应用时的主要缺点

2.7 专利

专利引用中包含对其他专利的引用,有时还包含对学术研究的引用,以帮助解释发明或类似的创新。由于专利的作用是体现在财务上的,所以专利对学术成果的引用体现了与商业价值相关的指标。Derwent专利引文索引是可用于专利引文分析的示例。虽然专利引用通常不被描述为一种替代计量指标,但它们可以从Google专利网站收集,因此可以作为一种网络计量指标。但专利引用很少见,在大多数领域中只有不到1%的期刊文章被专利引用,在生物医学工程、生物技术和药理学与药剂学中这一比例可能达到7%-10%。专利引用数与被引次数呈低度正相关,因为它们具有合理的表面有效性,这表明,它们能够反映商业影响或学术研究价值中的一个维度

2.8 灰色文献引用

与期刊文章相比,关于商业、政府或非政府组织的研究可能更容易被灰色文献引用,因此它们的影响力可能无法通过传统的引用计数反映出来。灰色文献似乎经常作为免费的白皮书、传单或报告发布在网上。虽然通过Google或Bing上查询引用学术研究的PDF文件,可以在一定程度上计算在线灰色文献的引用次数,但结果可能会将教育和学术文献与其他文献混合在一起,因此结果效度不高。Altmetric.com从一些政府网站上提取引文,这些引文可以被合理认为代表着政治上的影响力。这些灰色文献成果本身也被学术研究引用。

2.9 推文

Twitter允许用户频繁发布短文,而这些短文最初限制在144个字符以内。这些推文可用于发布关于学术研究的链接,它们通常包括文章标题或简短摘要,但很少包括对文章价值的判断或解释。最近三分之二的文章都被发布在Twitter上。然而,推文与引用次数的正相关或负相关性之间的相关性较低,这对于大多数替代指标的实际应用来说太低了。根据一项调查,大多数发布期刊文章链接的用户不在学术界,发推文的用户有时试图通过Twitter反映专家权威。总的来说,推文很常见,可能反映了对文章的关注或宣传,但几乎没有证据表明它们能够反映公众的普遍兴趣或任何其他特定类型的影响力

2.10 Facebook帖数

Facebook帖子是类似新闻的短贴,可以发布或简要讨论学术出版物,链接到学术文章的公共Facebook帖。据Altmetric.com收集的数据,Facebook公开留言中链接的学术文章较少出现在Altmetric.com数据库的最近文章中。公开的Facebook帖子与引用次数的正相关性非常弱,这表明它们可能没有什么价值,而是主要用于宣传。从积极的方面来看,在发布健康或医学期刊文章公共链接的Facebook账户样本中,只有4%是个人学者,其中大多数(58%)与学术界无关。因此,Facebook上的帖子可能反映了对研究的非学术兴趣,并且缺乏令人信服的证据来证明它们作为指标的价值。

2.11 其他

学界目前已经提出并研究了各种其他网络计量指标和替代计量指标,并且将来可能会出现更多指标。此外,其他替代指标可用于估算非标准学术成果的影响力,例如博客、视频、软件和数据集。这些通常被引文分析排除在外,但可以成为有用的研究产品。例如,TED演讲备受瞩目,有时会将学术研究传递给普通观众,也有一些学者制作高质量的YouTube视频来进行科普。

3

Altmetrics的利与弊


3.1 Altmetrics的优势

1.早期影响的证据:在实践中,许多替代指标最重要的优势是它们提供了早期影响的证据。对单个研究人员、部门、大学或是资助计划的正式研究评估中,早期影响证据有助于弱化研究和评估之间的延迟,从而可以评估更多最新的研究,并在出版物太新而无法得到引用的阶段为决策提供支持指标。早期优势适用于Altmetrics,但不适用于大多数网络计量指标,因为那些指标通常出现得更晚。

2.更广泛影响的证据所有Altmetrics和网络计量指标反映的影响至少部分不同于引用影响。如果所有类型的研究影响都得到重视,那么替代指标就有可能在定量层面获得关于更广泛影响的证据,而不只是引用数量上。

3.更广泛的成果类型替代指标包含了衡量非标准成果影响力的定量证据,例如YouTube视频和灰色文献。

4.提高影响细粒度:一些替代指标可以提供影响的其他维度内容,例如文章读者的国籍、职业和感兴趣的主题领域。

3.2 Altmetrics的弊端

1.收集困难虽然Altmetrics可以在商业提供商那里大规模获取,但大多数网络计量指标收集起来很耗时。数据收集可能是Altmetrics在实际使用中的最大障碍。同时,人员的专业度会影响识别和收集信息的时间。随着近年来人们对Altmetrics认识的提高,可能会促使人们学习如何有效使用Altmetrics。

2.低覆盖率少数文章的许多替代指标非零,削弱了它们区分成果集的平均影响的能力。因此,它们可能只对大型文献集有用。例如,专利引用很少见,但足够普遍,可以用来比较大学的影响力。Altmetrics似乎在健康相关领域最为普遍和最有用,在人文社会科学和生命科学领域也相对普遍。

3.归一化困难如果没有基准值(如通过归一化获得),替代指标分数很难评估。为了规范化或针对其他组进行基准测试以生成足够的数据会增加所需的数据量。字段归一化可以使用传统引文索引中的主题类别,但非标准成果的指标可能需要一种替代方法来按主题对其进行分类。在实践中,字段归一化可能很少用于Altmetrics,因此评估者必须考虑字段的影响。

4.影响领域覆盖不完整且有偏见没有替代指标可以评估所有类型的影响。由于创建或使用方法的不同,替代指标都含有偏见。例如,以推文数量为替代指标对不使用Twitter的人有偏见,包括中国的大部分地区。国际偏见会影响国家之间的比较。

5.影响类型覆盖不完整某些类型的社会影响还不能够被任何替代指标衡量,因此一些文章可能具有社会影响但Altmetrics上仍然得分为零。例如,旨在改进发展中国家耕作方法的研究,似乎极不可能留下反映其被当地农民接受的替代计量数据。

6.缺乏质量控制几乎所有替代指标都容易受到蓄意或意外操纵,因此如果事先被评估者知晓评估方法,则不能用于评估。研究人员可能认为与替代指标相关的评估不可靠,因为其没有充分计算各类影响维度。

4

结论和建议


Altmetrics和网络计量指标有许多优点和缺点,但它们在评估研究质量方面无法与同行评议竞争,也无法与引用次数同样作为一个强有力的量化指标来支持同行评议,或者在同行评议不切实际或不受欢迎的情况下取代同行评议。替代指标在引用次数不足、需要评估非学术影响、需要早期影响证据或评估非标准成果时,最能发挥价值。在这些情况下,评估人员需要考虑Altmetrics的附加条件,即研究人员是否能够提供足够的评估证据,如果是,获取这些证据的成本(来自商业提供商或直接收集)是否过大。鉴于上述限制,替代指标只能用于为人们判断提供信息,而不是取代同行评议。此外,在解释替代指标时需要意识到其局限性。

需要使用替代指标的组织可能需要聘请经过适当培训的Altmetrics专家来帮助收集信息或了解商业供应商提供的产品,并防止对它们的错用误用(即负责任地使用指标)。或者,组织应确保评估团队的成员学习如何收集/处理和评估替代指标,以便在相关时使用它们,但不给予太多权重。


(全文及参考文献参见:Scholarly Assessment Reports,2020年第2卷第1期,原文链接:http://hdl.handle.net/2436/623132,本期推文为节选摘编,略有删减和编辑)


本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨 邓晨菲 王译晗

本期编辑 | 学术君001号

基地官网:http://statevalbase.fudan.edu.cn/main.htm


• end •


下一篇

人文学科:研究评估的“局外人”

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433