
摘要:许多国家的影响力议程使得人们越来越多地尝试评估研究的社会影响力。替代计量学、网络计量学及其他非传统指标不断被提出以支持这一任务,并且撰写发表了许多利用这些替代指标探讨研究社会影响的期刊文章。然而,针对这些指标的方法论研究揭示了一个事实:在收集、整合和解读这些数据时,必须保持高度的谨慎。本文概述了当前的替代指标,总结了实证研究,并汇整了一系列在使用它们时应避免的常见问题和错误。关键词:替代计量学;社会影响;网络计量学
一个常见的错误是在没有理论依据或针对具体问题的前提下,随意采用一揽子指标或单一的混合型替代计量指标来解决问题。由于替代计量数据提供商提供的是一套预定义的替代指标,且潜在可用的指标范围非常广泛,因此,构建一个合理的依据来选择特定指标进行研究尤为重要。这个依据应当来源于使用这些指标的目标。然而,目标往往可能是广泛且探索性的,例如寻找任何非学术影响的证据。在这种情况下,几乎所有替代指标都可能是相关的,唯一可能不包括的就是Mendeley读者(该指标主要用于衡量学术影响)。
另一个常见错误是在分析小数据集时采用稀疏指标(即大多数文章的得分为0),这通常不具备实用性。除非是事先挑选出的具有高影响力的文档集合,否则对于大多数待评估数据集中的文档来说,除了Mendeley读者和推文之外,大多数替代计量得分可能为0。指标越稀疏,为了提供有用信息,所需评估的文档数量就越多。这背后有两个相互关联的原因。首先,如果文档数量较少,那么它们在一个稀疏指标上的得分可能全为0,这样提供的信息量非常有限;其次,即使文档数量较多,但只有少数得分非零,那么平均得分的置信区间可能会非常宽,因此对区分不同文档集合的影响力几乎没有帮助。例如,维基百科引用在比较文档集合的影响力时几乎没有价值,除非这些文档是预先挑选出的高影响力文献,或者文档数量达到数千篇。
这个问题可以通过以下两种方式解决:一是使用较为稠密的指标(例如,如果与项目目标相关,可以使用Twitter和Mendeley);二是如果可能的话,扩大数据集的规模。
忽视学科差异是另一个常见的错误。与引用次数类似,不同领域的平均替代指标得分有所不同。例如,癌症相关研究的推文数量可能远高于纯数学研究。因此,比较不同领域文献集合的总推文数是不公平的。在对多个领域的文章进行统计分析时,往往会因为这种学科差异而得出误导性的结论。基于此,全校范围或Scopus数据库范围内的相关性或平均值往往没有实质性参考意义。
学科差异问题可以通过以下两种方法解决:一是计算多个平均值,每学科一个;二是计算学科标准化影响指标,该指标将计数报告为相对于学科和出版年份平均值的比率。除了学科标准化指标,另一种方法是分析学科内的百分比排名。这种方法关注的是不同学科内的相对表现,而非绝对数值,提供了一个更加公正的比较基准。
忽略出版年份差异是另一个常见问题。对跨年度数据集进行统计分析可能会产生误导,因为结果可能受到文章发表时间的影响,除非使用了学科标准化指标(这些指标也考虑了发表时间的标准化)或在学科内部同年份的百分比排名。这是因为较老的文章由于有更多时间被引用,可能会有更高的引用次数。替代计量指标得分也会随着文章发表时间的推移而逐渐变化,因此,跨年度数据分析的结果可能会部分或完全受到时间差异的影响。
不恰当地使用算术平均值是一个非常常见的错误。由于替代计量学、网络计量学和引用计数的数据高度偏斜,计算一组得分的算术平均值并不能提供最佳的中心趋势度量。这是因为结果往往会受到少数几个高得分的影响,而无法反映典型值。更好的选择是使用(偏移的)几何平均值。具体操作为:将得分加1,取自然对数,然后对这些对数转换后的得分计算算术平均值(即应用公式ln(1+x)),最后用exp(x)-1 转换回来。MNLCS(平均标准化对数转换引用得分)领域标准化指标也使用相同的对数转换方法来处理偏斜数据。这还允许从结果中计算出参数的置信区间。
替代计量指标与引用计数之间的相关性通常被计算出来,以验证替代指标的有效性,并证明它们并非随机产生的。在不适宜的情况下计算皮尔逊相关系数是一个常见错误。相关性测试有时用于探讨替代计量指标与引用计数之间的关系。由于替代计量、网络计量和引用计数的数据分布高度偏斜(即只有少数数据具有高得分),除非对原始数据进行对数转换(或者将所有数据转换为学科标准化指标)以减轻偏斜,否则皮尔逊相关系数将无法提供有用信息。皮尔逊相关系数的不适宜之处在于它们对异常值非常敏感,而异常值可能会显著改变结果。由于偏斜的数据往往包含异常值,因此,如果无法进行对数转换,应使用斯皮尔曼相关系数来比较不同指标。
相关性值的解释具有一定复杂性,主要源于离散数据的问题。这意味着,相关性的强度不仅受两个相关变量之间实际关系的影响,还受到数据分布(例如非零数据的比例)的影响。特别是当数据集中大多数值为0时,理论上很难得到高度相关性。在使用相关性时,这是一个难以处理的因素。因此,研究人员应当意识到这一难题,至少不应从相关性值中得出过于绝对的结论。
一些研究似乎忽视或未提及替代指标存在偏误,这可能会给人们留下关于其结果稳健性的错误印象。所有替代指标似乎仅反映了它们相关影响力类型中的一小部分。例如,根据一项调查,大约每12~20名发表学术成果的学者中只有1人使用Mendeley,因此它无法全面反映学术界的情况。同样,如果将推文数量作为社会影响指标,那么偏误将包括国家(一些国家很少使用)、年龄(不同年龄段的平均使用情况不同),以及人们不愿意在推文中提及的影响类型(例如治疗令人尴尬的疾病的方案)。
在另一个极端,如果将推文作为公众对学术研究兴趣的指标,那么很可能只有极少比例的公众兴趣会转化为推文——也许不到万分之一。这引入了巨大的自我选择抽样偏误,并且使得任何特定学术研究的公众关注实例在Twitter上得不到体现的可能性非常高。如果数据在足够大的规模上汇总,那么可以假设被更多推文关注的学术研究成果产生了更多的公众兴趣是合理的,因为对于大量数据来说,随机因素往往相互抵消。然而,抽样偏误永远不会被抵消,因此,比较可能具有不同偏误的文章集合的计数是不公平的。例如,一个专注于在线交流的领域的论文集合中,吸引公众兴趣的论文在推文上发布的比例很可能比一个专注于老年人交流的类似领域的论文集合要高得多。
另一个偏误来源是,替代指标的数据收集过程很可能会引入语言和国家层面的偏见。例如,教学提及次数(通过特定语言进行查询以发现它们)、Twitter和Facebook(一些国家不使用)、博客(只能搜索到有限的博客网站),以及新闻(主要新闻网站不易为学术引用所采集,而且主流的数据提供商存在语言和国家偏见)。因此,研究人员应当谨慎,避免从他们的结果中得出过度的结论,并且应当报告可能存在的偏见,以便为读者提供必要的背景信息。
对于替代计量学,一个可以理解的常见误区是将它们可能反映的影响类型与它们实际反映的影响类型等同起来。例如,由于绝大多数Twitter用户是非学术界人士,人们可能会合理地认为推文数量反映了社会关注或影响。这种观点存在缺陷,因为从逻辑上讲,非学术推文者可能根本不会发布关于研究的推文,导致推文数量可能仅反映学术界的兴趣。在这种情况下,有研究表明,关于学术研究的推文中,略多于一半来自非学术界人士。因此,推文可能反映了学术关注和非学术关注影响的混合,然而,不同领域中学术与公众的比例可能存在差异。
对此,论文应当关注如何为指标赋予明确的意义。这对于通用指标(如Twitter、Facebook,以及在某种程度上的PowerPoint引用、灰色文献引用、博客引用、Google Books引用和维基百科)来说是一个主要问题,但对于具有明确角色的狭窄指标(例如教学提及、临床指南引用和Mendeley读者)则不是问题。
对于影响力类型不明确的替代指标,可以通过对引文来源的内容分析、调查以及与创作者的访谈来帮助明确它们所反映的内容。例如,推文的内容分析表明,它们主要反映的是对文章的兴趣,而不是对研究的认可、使用或参与。相比之下,对Mendeley用户的调查表明,他们通常在阅读文章后或打算阅读文章时,将其添加到自己的图书馆中。因此,将Mendeley的“读者计数”理解为(使用Mendeley的)读者数量是合理的。
即使经过实证评估,替代指标所反映的影响类型(如果有的话)可能仍然不明确(例如,Twitter、Facebook和维基百科)。在这种情况下,报告结果时应明确指出这种不明确性。
一些替代计量学研究采用了复合指标,例如Altmetric关注分(将多个替代计量指标汇总成一个总分,采用加权求和的方式)。然而,这个关注分中所用的权重缺乏实证支持(这一点是可以理解的)。尽管这个分数在出版商网站上作为快速统计数据非常有用,读者可以点击Altmetric徽章来查看分数的详细分解,但在研究应用中不应使用该指标。
复合性问题同样适用于h指数:影响力和数量应当分开分析,以提供更为细致的信息。例如,h指数存在对女性的偏见,因为女性更可能有职业生涯中断。如果将出版物的数量和平均影响力分开分析,那么不会对女性产生偏见的指标(如平均引用次数)可以用于更公平的评价。
这通常是一个偶然的疏忽。数据的准确收集日期至关重要,因为替代指标随时间变化,因此从出版到数据收集的时间窗口会影响研究结果。虽然这对快速累积的替代计量指标(如推文计数或Facebook帖子数)影响较小,但它会影响累积较慢的替代计量指标,如Mendeley计数,以及较慢的网络计量指标,如政策文件引用。如果没有相关的日期信息,读者将无法正确解读结果或将其与相关研究进行比较。
医学替代计量学研究似乎常常忽视之前的替代计量学研究,这可能是因为它们在进行文献搜索时使用了Medline,而Medline对替代计量学文章的索引非常有限。Scopus、Web of Science、Google Scholar和Dimensions等数据库是搜索替代计量学文章的更佳选择。一个有效的文献搜索应该能够捕捉到本文提到的所有问题,确保研究设计周密,并将研究结果置于相关现有文献的背景之中。此外,它还能帮助识别出提供通用研究方法建议的文章。
这是与替代计量学实际应用相关的一个潜在严重错误。几乎所有替代指标都缺乏严格的质量控制,且相对容易被无意或有意地操纵。主要的例外情况包括临床指南、药物指南以及来自经过质量控制的数据集的灰色文献引用。相对较弱的例外(可能存在操纵但并非轻而易举)包括谷歌图书引用、新闻引用和课程大纲提及。在正式评估中使用任何类型的替代指标时,必须谨慎行事,确保这些指标的使用是负责任的,以免对被评估者造成不利影响,或者产生不良的意外后果。
在那些被评估者提前被告知的研究评价中,通常只应允许使用主要例外情况。只有在能够判断指标被操控的风险较低,且能够提供较为有效的结果时,才可以考虑使用较弱的例外情况。这实际上也是在英国REF影响案例研究中的立场。另一种做法是要求被评估的研究人员签署一份强有力的诚信声明,从而提高故意操纵的成本。类似的做法也可以适用于研究人员在简历中添加替代指标,因为他们对数据的准确性直接负责,并且这些数据可以结合简历中的其他信息背景进行评估。
在某些研究评价中,评价团队在收到提交的材料之后才会决定如何评价(例如在比利时)。在这种情况下,如果评价者认为被评价者不太可能预见到会使用某些替代指标,并且对这些指标进行操控的可能性较低,那么使用替代指标是合理的。这也适用于那些研究评价结果对研究人员或其他关键利益相关者不产生负面影响的情况。例如,用于监控资助渠道效果的研究资助者评价可能是纯粹的建设性评价。替代计量学可能被用于形成性自我评估,而无需担心故意操控,这似乎是它们当前最常见的使用方式。
替代指标,包括基于社交媒体的替代计量学和网络计量学,提供了反映不同于引文计数的影响类型,或提供更早期影响证据的潜力。这有助于形成性评估和自我评估,同时也适用于科学研究本身。但是,社交媒体替代计量指标必须谨慎使用,不能简单假设它们反映了某种特定的影响类型。对于所有替代指标,仔细推导综合指标,并认识到它们仅体现其所反映的影响类型的一部分且可能存在潜在偏见的子集,这一点尤为重要。对于使用替代指标来评估一系列出版物或知识流影响的研究人员而言,在结果中明确指出数据呈现的是一种观点而非定论性的结果,尤为关键。
总之,使用替代计量学的关键阶段如下:
·进行文献搜索,并对替代计量学文献进行批判性分析,以掌握替代计量学的优势与局限性,以及使用这些指标的适当方法。
·确定研究设计,包括研究的范围(即要分析的出版物)、选用的具体替代计量指标(与研究目标相匹配)以及数据分析方法。
·收集所需的替代指标数据,同时记录数据收集的方法和日期。
·运用适当的统计分析技术处理数据。
·批判性地审视研究结果,注意避免夸大解读结果,也不要对替代计量指标的含义做出未经证实的假设。
尽管替代计量学存在许多局限性,但它们首次提供了一种相对直接的方法来收集关于研究多方面社会影响的数据。因此,在可预见的未来,替代计量学很可能继续成为研究评价者和科学研究者工具箱的一部分。
(全文及参考文献见 Journal of Economic SurveysVolume35, Issue5 Dec 2021,原文链接:https://onlinelibrary.wiley.com/doi/10.1111/joes.12381,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 金潇苒 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn