摘要:研究价值的衡量方法并非千篇一律。学术、政策、媒体和应用等领域的评价方法各不相同。在学术界内,引用次数是评价研究价值的一种方式,更广泛的价值则通过替代指标来衡量。本研究以世界银行的出版物为研究对象,揭示了指标评价与同行评价之间的复杂关系。研究构建了三个理论类别,分别代表“价值”的极端情况:“杰出者”(高引用次数、高替代指标得分)、“研究者”(高引用次数,低替代指标得分)和“影响者”(高替代指标得分,低引用次数)。基于这三类出版物摘要进行专家访谈和定性分析,揭示不同类别的特征与差异,为理解跨领域的研究价值提供新思路。
关键词:研究价值;指标;替代计量学;引用;评价;同行评议;领域
研究机构,包括大学院系、智库及政府研究机构等,采用一系列工具来衡量其研究成果的价值。例如,通过专家同行评议来评估研究的质量,通过叙述性案例研究来反映其对政策的影响。尤其值得注意的是,计量指标已经成为衡量“价值”的主流方法,其中传统的文献计量学则占据主导地位。引用次数是其核心,它基于这样一个观点:知识的进步依赖于对先前工作的认可。
引用次数已经成为学术价值的代名词,所有被广泛使用的文献计量指标均以其为基础。总体而言,文献计量学拥有坚实的理论基础,但容易受数据来源的影响,存在自引的可能,且由于不同学科间引用模式的差异,进行跨学科的比较较为困难。对于那些面向广泛受众的研究者而言,文献计量学无法深入探索研究对社会的广泛影响,例如为政府政策提供建议或向公众传递信息等。
自“替代计量学”这一概念于2010年被提出以来,它迅速发展为一种衡量研究在学术系统之外的参与度和影响力的方法。现在已有多个商业组织开发了可以从多种来源(例如 Twitter、Facebook 和 Mendeley)汇总数据的平台。研究机构开始采用这些平台,以了解他们的研究成果是如何被不同的受众浏览、保存、讨论或推荐的,从而补充那些传统文献计量学无法覆盖的领域。尽管替代计量学最初是作为引用指标的一种替代方法,但实际证据显示,将其视为补充方法更为合适。替代指标被视为是透明且实时的,但它们具有瞬时性和不稳定性,容易被操纵,受商业组织的显著影响,并依赖于“群体智慧”。此外,不同研究领域在社交媒体上的活动具有显著的差异,且个体、机构和期刊在社交媒体话语上的不平等进一步削弱了它们的有效性和可靠性。最关键的是,在可测量与应测量之间往往存在裂隙。因为这些指标并不只是简单反映潜在的等级结构,更是通过改变研究者对学术成果和学术评价的感知和反应,影响着等级结构的形成。
除了讨论各自的优势和局限之外,文献计量学和替代计量学相关研究主要集中于讨论它们的相关性。社交媒体指标与引用次数之间仅存在中等程度的关联。普遍认为,引用指标和替代指标可用于衡量不同的使用、参与或影响元素。Karanatsiou等人提倡将两者结合使用以确保得出更为可靠的结论。Costas等人提出“异质耦合”概念,用作分析学术行为者与非学术行为者在线社交媒体平台上相互作用的通用框架,为将引用指标和替代指标视为衡量不同互动环境的指标提供了理论基础。
本文探讨如何将引用指标和替代计量指标作为潜在的“价值”指标一同使用,以理解研究的不同价值。在这一视角下,引用指标代表了学术领域内的信誉度(即学术影响力),而替代计量指标则代表来自政策、应用或媒体等外部领域的权威性、实用性或可见度(即更广泛的影响力)。通过在文献计量和替代计量坐标系中对最极端的可能组合进行分类,划分了不同的价值类型(如图1)。"杰出者"是指在学术影响力和外部影响力上均表现出色的成果;"研究者"是指学术影响力较强但外部影响力较弱的成果;"影响者"是指外部影响力较强但学术影响力较弱的成果。本文将使用这一框架为研究价值的概念化提供一种新路径。
世界银行在全球发展研究领域中位于领先地位,其受众包括学者、从业者、政治参与者、经济活动参与者和公众,因此本研究选择世界银行主要研究部门DECRG的出版物进行分析。引用指标的数据源为Web of Science核心合集,替代指标的数据源来自Altmetric.com。使用DOI将文献计量数据与Altmetric.com数据合并,保证每份出版物都包含引文数据和替代计量数据。
根据图1框架,本研究设定了9个价值类别,并从中选择了3个具有理论意义的极端类别进行深入分析。这三个极端案例类别包括:杰出者(引用次数和替代计量得分均位于前20%)、影响者(引用次数位于后20%且替代计量得分位于前20%)、研究者(引用次数位于前20%且替代计量得分位于后20%)。从这三类中选出了9篇出版物(每类3篇),提取其摘要作为访谈导读材料。然后邀请DECRG的18位发展经济学家进行访谈,包括部门主任、首席研究员及不同级别的研究人员。受访者均为专业同行,访谈通常为15~30分钟。
访谈首先要求每位受访者阅读3篇来自不同类别的出版物摘要,但不告知该出版物的作者信息或分类,然后要求受访者阐述这些出版物的价值,并对其价值高低进行判断。通过专家同行的叙述性评价,了解不同价值类别的共性与差异,探索和解释引用次数和替代计量指标如何表现出版物的学术价值和更广泛价值。
对专家同行的叙述性评价进行编码,可以深入了解每个类别的共性与差异。表3总结了专家同行对每个类别的描述和判断。
“杰出者”类别的摘要通常被受访者描述为具有较强的技术性和行话性。例如,“标题技术性极强,可能会吸引医疗保健行业的关注——例如保险业,比如精算师,非常依赖数据。”杰出者的摘要也展现出宏观视角、实用主义(即问题导向)和描述性。例如,“从该地区几个国家吸取经验教训”“是一个非常关键且重要的话题,看起来最有潜力”“一项体量非常大的描述性工作”。杰出者类别的摘要通常被认为有价值、易于阅读且具有前瞻性。例如,“它们读起来非常流畅,而且我认为它们的写作方式非常有参考价值” 。
“影响者”类别的摘要被描述为非技术性的、具有宏观视野、大规模且实用。它们被认为既有价值又有吸引力。例如 “任何人都能理解,非常重要” “涵盖多个国家的重大议题并且具有区域性重点”“在特定主题上具有实用性”。情绪化、争议性和社会相关性也经常被提及。例如,某一篇摘要使用了“可能引起争议的词汇,具有挑战性,能够引发情感共鸣”。受访者们指出这些摘要“在一定程度上给出了基本结论”,但“在某种程度上低估了争议问题的关键方面”。
“研究者”类别的摘要被描述为充满技术术语和行话,这意味着它们难以阅读且缺乏吸引力。例如,“摘要里充满了缩写词和术语,我需要读好几遍才能搞清楚这想表达什么”。研究者类别的摘要被认为更加具体化。例如,某一篇摘要“在某种程度上比较狭隘,因为它不是区域性或全球性的,而是更专注于描述具体情景”。研究者类别的摘要评价普遍不佳,“我不喜欢读它,因为太啰嗦、太枯燥。”尽管如此,一些受访者仍然认为这类摘要具有价值。例如,“在极其细微的层面上极具学术性,研究了一个界定明确的问题并取得了某些发现” 。
结果表明,专家同行对待极端类别的评价方式存在显著不同:就特征而言,杰出者和影响者类别的成果都被视为务实、大规模和具有全局视野,其中杰出者更具描述性、技术性和行话性,而影响者则是非技术性的。研究者和影响者在属性上形成对立,研究者充满技术性和行话性,而且是具体的,而影响者则是大规模和全局性的。
这些发现与Lamont的研究一致,即在专家小组评估研究提案时,重要性和原创性是最主要的评价标准,其次是条理清晰和方法论。本研究抽样的所有出版物都是以发展问题为主题,并且访谈资料均由同一组织的专业经济学家或社会科学家撰写。因此,如果由非专业人士或非专业领域的专家阅读这些出版物,可能在感知和评判上会有显著差异。
表4列出了不同类别的特征和专家判断。当出版物的摘要仅具有技术性和行话性时,通常被认为难以阅读(如研究者),当它们主要关注宏观视角或实用性时,则被认为不太有用(如影响者),但这两种类别都被认为是有价值的。当技术性和行话性的语言得到适当平衡时,这些出版物就被视为有价值的、易于阅读的和信息丰富的(如杰出者)。可见,若想使出版物被认为是可信、可见、实用或权威的,需要进行一种微妙的平衡。总体来看,采用更加专业化的摘要似乎更能够赢得专家的信任,但在更广泛的社会背景中,这种策略可能会适得其反,因为简洁性更受欢迎。
表5列出了被认为具有对立特征的类别实例。这表明,特定的特征组合,例如当技术性语言与全球焦点问题结合时,通常被认为容易阅读,但当与更具体或更细微的焦点问题结合时,则难以阅读。此外,阅读的难易程度揭示了与出版物吸引力截然不同的维度:杰出者类别通常被认为容易阅读,但不是特别吸引人或不引人注目。这可能表明,技术性和行话性可以与宏观、大规模和务实的焦点问题相平衡,以提升整体吸引力。相比之下,影响者类别被认为非常有吸引力,既不是特别容易读懂,也不是特别难读懂。这可能反映了它们对宏观、大规模和实用性问题的关注,更加凸显研究的价值和社会相关性。
本研究将指标评价(引用指标和替代计量指标)与同行评价进行比对,挖掘每个极端类别之间的差异。通过同行专家访谈发现,文本冗长、术语密集的出版物与简洁、直接、术语较少的出版物在价值判断上存在差异。不同的类别代表了不同的价值表达形式,存在可信度、实用性、可见性和权威性的不同可能组合,具有各自的特征以及随之而来的判断差异。
现有文献主要关注替代计量指标与引用指标之间的关系,认为这两个指标衡量相关但独立的对象。本研究基于现有工作证实了这一现象——即具有较高引用次数的成果通常也会具有较高的替代计量得分。
计量指标使得不同领域的分析变得简单化,因此需要有意进行审视。尽管引用指标和替代计量指标之间存在强相关性(特别是Twitter提及),但本研究进一步证实了文献计量学和替代计量学描绘不同影响领域的方式,揭示了它们之间的差异和相似之处。此外,本研究提出了一种理解研究成果价值的新方法,将计量指标和同行评议相结合,探讨了计量指标是否能够恰当衡量“价值”这一问题,这不仅对于具有平衡多目标需求和开展跨学科研究的个体研究人员来说十分关键,对于致力于改善研究成果评估过程的研究管理人员来说,也至关重要。
(全文及参考文献见Science and Public Policy, Volume 49, Issue 3,原文链接:https://academic.oup.com/spp/article/49/3/518/6550865?login=true,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 金潇苒 邓晨菲 王译晗
本期责编 | 金潇苒
基地官网:https://statevalbase.fudan.edu.cn