观点：人文学科的研究评价与指标使用-国家智能评价与治理实验基地

观点：人文学科的研究评价与指标使用

发布时间：2024-02-23 编辑：王译晗 来源：复旦智能评价与治理，复旦新学术

摘要：学界通常认为，文献计量评价是一种基于质量和事实的有效评估方法，有助于帮助作者和研究工作争取更多的资金支持。但是，由于人文学科涉及的领域更加多样化，文献计量评价在人文学科中的应用效果不佳。大多人文学者认为，文献计量仅适用于评价STEM领域的研究，不适用于评估人文学科的研究和发现。当前关于人文学科文献计量评价的主流观点可归纳为四类：(1)文献计量未能充分覆盖人文学科的多样性；(2)扩大文献计量的覆盖范围并不能解决人文学科领域所有研究问题；(3)指标的使用对人文研究实践已产生影响；(4)诸如Altmetrics等其他评估方法仍未超出传统范畴。

关键词：人文学科；文献计量评价；引用分析；Altmetrics

多种形式的研究评价是考量学术知识成果质量的关键。某些研究之所以被认为具有科学或学术性质，在一定程度上取决于它们的生产和呈现方式，但真正衡量其学术质量的是其所接受的严格评估，通常通过各种形式的同行评议来进行。本文聚焦于特定的评估形式——基于出版物、引用或社交媒体提及的指标对研究进行的量化评价，以及这些举措如何对人文学科产生影响。

多样化的出版模式、对本土语言和语境的依赖以及特定的引用实践，是文献计量指标在人文领域应用受限的主要原因。文献计量方法在研究评估中的局限促进了学界对替代评估系统的探索，这些系统试图采用新的数据来源或考虑研究的特性和异质性。尽管如此，许多人文社会科学领域的学者仍对文献计量指标持怀疑态度。本文将讨论这些方法在评估人文学科研究表现方面的潜力，并进一步探究量化评价对人文学科知识生产和学术文化的影响。

研究评价的指标应用及其影响

基于文献回顾，可将文献计量对研究产生的影响总结为以下四类：

(1)指标的使用可能会导致研究行为与研究目标偏离。研究人员可能会更加关注那些能够在评价系统中获得更高分数的任务，而非致力于全面提高工作质量。例如，为了在特定评价系统中获得高分，研究人员可能会努力提高发表文章的数量，而忽略文章的质量。

(2)许多评价系统对跨学科研究存在偏见，尤其是那些依赖期刊排名的评价系统，可能会导致对跨学科研究的不公正评估。

(3)评价系统的实施可能会导致研究任务的单一化，即能够在系统中获得奖励的任务被优先执行，而那些在系统中不常见的任务，如编辑书籍或撰写评论，可能会被忽略。

(4)文献计量评价的实施对机构产生了制度层面的影响，比如大学会试图招募高被引研究人员以提高在大学排名中的位置，或者为了在国家评价系统中获得更高的评分而进行人员变动。

文献计量学在人文学科中的应用：

四类观点

2.1 观点一：人文学科具有多样性

人文学科是一个包含多种异质领域的集合，不可将其视为统一整体而讨论。尽管大多数文献计量研究者对此表示认同，但在文献计量学文献中，人文学科通常被视作一个统一整体来讨论，而非一组包含多个不同研究领域的集合。这种做法并不合理，尤其是在涉及不同背景下人文学科所包含的不同领域时，以及与社会科学的界限模糊时。例如，性别研究、教育学、历史学或人类学中的分类既可以被定义为人文学科，也可以被定义为社会科学。

即便在更宏观的讨论中将人文学科作为一个统一整体可能是合理的，但这也会导致文献计量方法应用上的简化。事实证明，引用分析作为一种评价方法在许多人文学科中并不适用。尽管如此，某些领域（如语言学或哲学）的组织方式可能在一定程度上允许使用这类方法。因此，文献计量学并不意味着对人文学科完全没有适用性。

2.2 观点二：扩大覆盖范围并不能解决所有问题

许多研究指出，现有的数据库在人文学科研究的收录方面存在局限性，这主要是因为这些数据库主要索引英文期刊文章，导致文献计量学在人文学科中的应用受限。为解决这一问题，关键举措之一是将更多类型的文献(如非英语的专著、书籍章节和期刊)纳入数据库。

尽管文献计量数据的局限问题是一个障碍，但这并非是引文分析在人文学科中不适用的唯一或最主要原因。主要原因在于，引文分析的目标受众相对狭窄，而人文学科的受众群体则相当广泛且不易划分，包含国际学者、国内学者和非专业受众。但Web of Science和Scopus等国际主流引文数据库更侧重于面向国际学者，且覆盖率低。尽管延展数据库的收录范围能够带来一定的改善，但重要的受众群体(公众和专业学者)仍然被忽略。

人文学科的受众多样化意味着在某些人文学科领域，同行认可并不是建立声誉的唯一途径。这种多样性让人文学者在选择研究课题时拥有相当大的自由度，但同时也限制了吸引他人引用的可能性。通过引用衡量人文学科研究影响力具有局限性的另一个原因是人文学科的引用动机和方式。在某些领域，对源材料(例如文学作品或历史文献)的引用累积了相当大的数量，而且这些引用具有多种目的，与STEM相比，矛盾或负面引用也相对常见。

鉴于人文学科多样化的受众和特定的引用实践，以及不同领域知识的组织方式，基于引文的计量评价并不适用。这些问题不会因为收录范围的扩大而自动解决。

2.3 观点三：计量指标的使用已深刻影响了人文学科研究实践

尽管许多研究表明文献计量方法不适用于评估人文学科研究，但这些方法仍然经常被用于评估机构或个人。即使没有直接受到评估系统或基于绩效的资源分配的影响，许多人文学者仍然感受到针对和偏见。在笔者曾经的研究中，一位历史学家坦言对文献计量的看法：“虽然我对文献计量评价十分熟悉，但我认为这是一个为其他学科而开发的疯狂系统。”

此外，研究中的其他受访者表示，受文献计量的影响，出版实践正在从专著向文章转变。就瑞典而言，英文文章和同行评议出版物的数量增加是显而易见的。许多评价系统仍然看重文章发表，这可能导致学科内部质量标准和外在评估标准之间的紧张关系。

年轻的研究人员更容易受到文献计量评估和其他外部压力的影响，因为他们尚未获得永久职位。许多人认为年轻学者出版策略的转变对人文学科的研究产生了不利影响。但是，这种转变也可以被视为学科内部辩论的一部分，在这场辩论中，对出版策略转变的批评实质上是传统出版与面向国际受众的新出版实践之间的冲突。

2.4 观点四：Altmetrics并未超越传统范畴

近年来，Altmetrics作为一种衡量研究影响力的替代方法受到推崇，特别是在传统评估方法难以适用的学科领域。尽管能够评估研究在学术期刊之外的影响力是一个重大进步，测量的即时性提升亦是一大改进，但我认为许多替代计量指标实际上仍然面临着与传统计量方法相同的限制。一些替代计量指标仍然仅限于评估期刊文章，其中许多指标仍然主要面向学术受众，并且对非英文期刊的覆盖率较低。

在瑞典，2014年替代计量指标仅覆盖了瑞典人文学者产出的10%，并且我们对这些指标实际衡量的内容仍知之甚少。根据Altmetric.com的数据，2016年人文学科中排名最高的文章介绍了5000年前中国的啤酒配方。现在放弃将Altmetrics作为评估人文学科研究的一种可能途径还为时尚早，因为似乎许多领域的人文学者认为这一方法在一定程度上仍是有用的。

结语

同行评议无疑仍然是评估人文学科研究的主要方法。在可能的情况下，我们会看到同行评议与文献计量方法的结合使用，但这种开放式的同行评议在实践中如何运作仍然较为模糊。将不同类型的指标相结合——文献计量、Altmetrics以及其他类型的指标——可能是改进方向之一。

在选择和制定评价体系和指标时，人文学者积极参与研究质量讨论至关重要。通过参与评估标准的定义，研究人员可以避免不适合本领域知识生产方式的评价系统。自下而上的研究评估最终能够“帮助社会更好地理解社会科学和人文学科对解决重大社会挑战的贡献”。

此外，强调教学在许多学科中的重要性也很关键。人文学科的基本目标是教育和培养有修养的公民。研究和教育的分离对学术研究是有害的，而定量评估似乎加强了人文学科中的这种分离。

最后，尽管文献计量学方法通常不足以全面评估人文学科的学术成果，但这并不意味人文学科可以逃避评估。批判性评估、深入评论和讨论仍然是人文学科研究中不可或缺的一部分。

(全文及参考文献见Association for Information Science and Technology 2017年第43卷第5期第33-38页，原文链接：https://asistdl.onlinelibrary.wiley.com/doi/10.1002/bul2.2017.1720430508，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨金潇苒王译晗

本期编辑 | 宋欣雨

基地官网：https://statevalbase.fudan.edu.cn/

· end ·

综述：人文社会科学评估的指标与方法