自然科学及其另一半：文献计量学中的人文学科-国家智能评价与治理实验基地

自然科学及其另一半：文献计量学中的人文学科

发布时间：2023-03-10 来源：复旦智能评价与治理，复旦新学术

摘要：在过去的50年里，人们通过文献计量学研究了人文学科的认知、社会结构以及出版实践。本文探讨了文献计量学中用于研究人文学科性质的概念框架、方法和数据源，以及与其他领域的异同。我们对1965-2018年的文献计量学研究进行了历史回顾，对人文学科进行实证研究，区分文献计量系统结构显著不同的两个时期。第一时期，即1965年至1980年代，其特点是嵌入社会学理论框架的文献计量方法，普莱斯指数的开发和使用以及将参考文献作为数据源的期刊文献的小样本。第二时期，80年代至今，其特点是一个新的知识腹地——科学政策和学术评价——其中嵌入了文献计量方法，这一时期，文献的元数据成为分析人文学术团体文献概况的主要数据源。我们比较了这两个时期之间的差异，并批判性地讨论了不同方法所提供的分析途径。

1.引言

我们如何描述人文学科以及它与其他科学领域的区别？在过去几十年里，这个问题一直困扰着历史学家和科学社会学家。尽管如Rens等人追溯了人文学科研究的历史，探究了人文学科与其他领域之间的共性，但如Snow等人则指出人文学科是一种完全不同的探究形式。当人文学科与其他形式的科学探究在很大程度上相似时，我们应该如何理解它们的差异？如果人文学科根本不能被定性为科学，那么应该如何给它定性呢？

这些问题对文献计量学家而言也很重要。Price明确地研究了这个问题，开发了一种科学化的操作，并分析了人文学科与其他形式的科学探究有何不同。在其他文献计量研究中，对人文学科的出版实践或社会和认知结构的实证研究，是主要用于学术评价和科学政策发展的文献计量数据集、方法和指标发展的副产品。这些研究没有明确涉及人文学科的特征问题，但回答这个问题是重要的。

如今，在人文学科中，文献计量方法由于其文献计量指标的表现效果而常常不被信任。文献计量方法提供了一种特殊的表征，其结果总是具有表现力的，它们可能会影响科学系统本身。文献计量学的效果主要与研究评价过程以及普遍表征（和特定文献计量学指标）如何影响研究实践有关。

文献计量分析也提供了对有关人文学科性质的更广泛问题的见解。在整个文献计量学的历史中，人文学科的社会和认知结构以及出版实践的研究方式，通常是与其他科学领域或自然科学的一般概念进行比较。有关人文学科的文献计量学文献的早期综述主要与学术评价有关，去探究哪些文献计量指标适合用于人文学科（和社会科学）的评估目的。

在本文中，我们有两个目标：（a）区分用于研究人文学科的主要概念框架、方法和数据源，（b）反思理解人文学科本质的不同方法的分析价值。在第一个目标中，我们考虑了文献计量研究的三个关键方面：一是围绕其展开分析的理论概念，例如“科学化”或“国际化”，以及理解嵌入文献计量研究的部分理论腹地；二是为实现理论概念而开发的文献计量方法；三是用于根据经验开发文献计量方法的数据源。我们将概念框架、文献计量方法和数据源的组合理解为文献计量系统的配置。我们认为在学者研究的两个时期，文献计量体系有两种不同的结构，它们的方法明显不同：

第一个时期从1965年到1980年代，其特点是社会学框架、普莱斯指数的开发和使用，以及将参考文献用作数据的期刊文献的小样本。我们还区分了在此期间采用文献计量方法的两个学术团体——社会学家和图书情报学者。

第二个时期，从20世纪80年代中期至今，以一个新的知识腹地为特征——科学政策和学术评价——其中嵌入了文献计量方法。在这种情况下，文献的元数据（出版渠道类型、语言）而非参考文献，成为主要数据源（科学映射除外）。这种对文献概况而不是对参考文献概况的关注对人文学科的特征问题具有重要影响。我们对这一时期嵌入了图书情报领域的三种类型的文献计量研究进行区分，包括：人文学科中的文献计量指标和学术评价；研究人文学科认知结构的科学映射技术；以及使用新的国家/地区数据库来研究人文学者的出版实践。

本文的第二个目标是反思理解人文学科本质的不同方法的分析价值。我们确定了新的分析路径，并质疑“国际化”概念的基础以及它如何与“科学化”交织在一起。我们的目标是激发文献计量学界关于我们在人文学科研究中使用的概念和实证方式的辩论，并主张对人文学科的认知和社会结构进行更多（比较）研究。

2.方法

本文结合了多种搜索策略，收集1965-2018年期间采用文献计量学方法研究人文学科及其出版实践的认知或社会结构的文献计量学文献。包括使用Web of Science （WoS）、Google Scholar和CitNetExplorer，同时挖掘收集到的文献的引文网络，以补充重要的缺失文献。我们总共选取了64篇文献，文献引用关系如下图所示：

图1中的可视化集群展示了文献计量学应用的发展过程，图2、图3进一步展示了该领域第一、二阶段主流的学术团体的引文网络。

2.1 文献计量学研究的第一阶段

2.1.1 社会学中科学的实证层面

最早的文献计量研究是由早期的文献计量学家和社会学家在1960年代和1970年代开展的。在前二十年中，主流文献计量研究主要基于从科学引文索引（SCI）中提取的数据。然而，除了历史和科学哲学期刊外，人文学科期刊未被SCI收录，这一时期包括人文学科在内的文献计量研究都是基于人工收集的少量文献计量信息样本。总的来说，在这些早期的文献计量研究中，很少有人关注人文学科。这一时期只有4篇文献收录人文学科，并对其进行了一些详细讨论。在它们中，我们发现了共同的理论框架、文献计量方法和数据源，以及共同的目标，这四项实证研究分别是：Storer的“硬科学和软科学：一些社会学观察”，Price的“对硬科学、软科学、技术和非科学的引文测量”，Zuckerman等的“科学中的年龄、老化与年龄结构”，Cole等的“科学学科认知状态的测量”。这些学者采用探索性和数据驱动的方法，包括提出某些变量，这些变量与他们的“直觉”思想或科学（组织）的民间理论相匹配。

Storer旨在分析“不同科学中社会关系质量的差异，或者，也许是在不同科学领域的‘氛围’或‘情绪’中”。该文中进行实证的质量是“硬度（hardness）”。Storer讨论了评估科学贡献的方式，并认为评估总是基于最近的贡献与先前已知的文献之间的关系。Storer认为这种关系在硬科学和软科学中是不同的。硬科学拥有更紧密整合的知识体系，这通常是因为数学的使用，根据他的说法，数学可以作为“严谨性”的衡量标准来操作。因此，在硬科学中，一个新的贡献是正确的还是不正确的比在软科学中更清楚。硬度不仅表现为知识认知体系的特征，还暗示着不同的评价标准和科学家之间的社会关系。Storer提出了以下科学分类：社会学、政治学和心理学作为软科学；植物学、动物学和经济学作为中等硬度的科学；物理、化学和生物化学作为硬科学。很明显，以这种方式对科学进行分类不仅是一种区分，而是一种等级制度。Storer在结论中写道，“软科学通过使用数学驱动其变得更加严谨。”

Price紧随其后，他基于文献计量数据详细分析了人文学科。试图区分不同形式的学术——从硬科学到软科学再到非科学。对于Price而言，Storer的文章是讨论起点，并作为自身研究的背景。不同于Storer，Price的目标是研究知识“累积（cumulativeness）”的程度。对于Price和Storer来说，学术领域内的社会关系与该领域产生的知识之间存在相互关系。因此，“紧密整合的科学结构”的想法是一种社会概念，也是一种认知概念，它解释了不同形式的学术之间的差异。这种不同层次的结构再整合的想法是通过使用普莱斯指数对不同领域文章的参考文献进行研究，以实证为基础而发展起来的。普莱斯指数是指某一学科领域内，对发表年限不超过五年的文献的引用次数与总的引用次数之比值。该分数越高，该学科就越具有明显的“研究前沿”，因此在参考文献年限方面具有特定类型的引文结构。对于人文学术，Price发现没有明显的研究前沿。在这项研究中，他最明确地阐述了人文学科和自然科学是如何区分的。

对于Storer和Price来说，引用行为是科学学科的社会和认知结构的一个指标。只有特定的、紧密结合的结构才能以“研究前沿”来维持知识生产，这是自然科学知识生产与人文学科知识生产的区别。

在“硬度”和“累积”之后，第三个概念使用文献计量数据进行操作——“编码度（codiﬁcation）”。Zuckerman等将编码度定义为“将经验知识整合为简洁和相互依存的理论公式”。这个概念呼应了Storer对应用数学的兴趣和Price关于“领域的紧密结合”的想法，两者都在Zuckerman等的文章中被引用了。但是，编码度比Storer和Price开发的衡量方法更明确。Zuckerman等认为，高度“编码度的领域往往会通过将其要素融入新的表述中，来消除过去贡献的原始版本”。这使引文分析成为一种有用的衡量标准，因为通过参考文献可以看到编码度方面的差异。根据Price的数据，Zuckerman等添加了他们自己的内容，使用普莱斯指数来衡量编码度。

Cole等汇集了早期的工作，对文献计量方法的发展采取了广泛的、更具反思性的视角，他们的分析围绕编码度的概念及其与不同学科的累积和进步性质的关系展开。Cole等采用了Price开发的衡量标准，但也通过控制每个学科的文献总规模对其进行了改进。他们的发现，在自然科学和社会科学之间“即时效应”几乎没有差异，同一领域内期刊之间的差异比领域之间的差异更大。在对两家英国文学期刊的单独分析中，他们发现普莱斯指数的分数非常低，这是唯一与人文学科相关的实证研究。

这四项研究显示了一个共同的分析策略：研究人员收集在特定期刊上发表的多组文章，并分析这些文章的特定元素——表格的使用、参考文献列表中作者名首字母的使用，以及参考文献的年代。这些元素具有重要意义，因为它们被理解为提供了解一个（科学）团体社交和/或认知结构的窗口。

通过这种方式，参考文献被用来分析三个密切相关的概念——硬度、累积和编码度——所讨论的学者想用这些概念来比较科学领域的社交和/或认知结构（或代谢）。这种研究策略在一定程度上是成功的，但由于学科内部的变化问题，使普莱斯指数不能用作为理论框架基础的直观的学科层次来解释。但（硬）科学与人文学科之间的普遍区别已经明确，当今学者继续使用普莱斯指数来研究这种区别。与此同时，到1970年代末，我们看到了相互竞争的引文理论的兴起，以及科学社会学中Mertonian学派的衰落。

2.1.2 研究人文学科的图书馆员

这一时期的第二个文献计量学者团队建立在Price的工作之上。这些文献来自图书馆学，特别是关于馆藏管理。为了让图书馆员了解情况，图书情报学者分析了不同学科文献的参考文献列表中包含的参考文献类型。这类文献中的大多数文献是对特定研究领域或学科中参考文献特征的进行描述性的案例研究。尽管实证上这些研究提供了更深入的内容，但从理论上讲鲜有发展。Jones等撰写了此类研究中的第一篇，他们分析了英国历史文章的参考文献，区分了中世纪、早期现代和晚期现代历史。Frost研究了引用在德国文学研究中的作用，并根据早期研究与自然科学学科进行了比较。Heinzkill研究了英语文学研究中的大量参考文献，将他的样本中参考文献的年代与早期研究的年代进行了比较，方式与Jones等人相同。Stern在对特定作家和文学运动的文学学术研究中，甚至复制了Jones等人的表格及研究结果。Cullars分析了美国和英国文学研究专著中的参考文献，将这些参考文献与其他人文学科进行比较，并将他的结果与Heinzkill等比较。类似设计的其他研究还有很多。

一些典型的案例研究在方法论或理论上脱颖而出。Heisey的研究旨在检验Kuhn的范式理论和Price的代谢理论，他研究圣经考古学（作为科学研究领域的一个例子）和圣经考证（作为人文研究领域的一个例子）中关于死海古卷的文献，以实证检验科学文献、人文文献和参考模式之间的区别，他的分析证实，正如他所预料，圣经考古学中的参考文献要新得多，而且更常见于期刊文章，此外，他发现在死海古卷发现后的头几年内，圣经考古学文章集中出现，而圣经考证则不是这样，Heisey认为，这表明Price的判断是正确的。Zwaan等认为，以前的研究偏颇地认为所有人文学科都缺乏核心期刊，在对理论语言学的研究中他们发现学者们承认一组特定的期刊是核心期刊，理论语言学的普莱斯指数远高于其他人文学科，他们得出结论，与其他学科相比，理论语言学不符合“人文主义刻板印象”。Wiberley对五种类型的学术研究进行了文献计量分析，表明在文学研究中，描述性“参考书目”“编辑材料”“历史研究”“评论”和“理论”之间存在很大的文献计量差异。Hammarfelt借鉴了比其他研究更广泛的分析框架，并且相对而言，他的方法最具社会学意义，他对人文学科中的引用有了更好的理解，并使用文献计量数据来研究文学研究的知识结构。

第二类文献与第一类文献有共同的偏好，即使用参考文献列表来描述和比较学科，有时甚至开发和/或检验理论。采用普莱斯指数和其他措施来分析文献计量差异，并根据学科异同来解释这些差异。他们通常更感兴趣的是根据引用的出版物类型、年代、语言和来源类型对这些参考文献列表进行多样化的描述性分析。

从概念上讲，自然科学和人文学科之间存在普遍对立，包括将普莱斯指数作为用于比较学科的有效但粗略的衡量标准。这些研究以不同的方式处理这种对立，他们大多将自然科学与人文学科的对立视为既定，对其进行实证检验，或者采用更加偏向“自然科学”的特定人文学科反驳它。但除了科学领域的这种普遍对立之外，几乎没有独立的理论发展，这可能是由于众多作者的学术背景不同（主要是图书情报）所致。

2.2 文献计量学研究的第二阶段

2.2.1 文献计量学成为学术评价的工具

20世纪70年代末，文献计量学成为图书情报的一个子领域，并逐渐远离社会学和科学技术研究。1978年Scientometrics创刊对学者来说是一个重要时刻，因为它给文献计量学提供了一个专门的出路。1970年代还出现了仅次于SCI的两个新数据库：社会科学引文索引（SSCI）以及对本文更为重要的艺术与人文引文索引（A&HCI）。文献计量学者团队不断壮大，文献计量分析在科学政策领域变得愈发重要，这对文献计量学术的发展产生了深远的影响。研究绩效评估更为重要，文献计量方法的开发和使用正是在这个背景下进行的，也是今天人们主要理解文献计量方法的一个背景。

在这种新的背景下，文献计量学研究变得更加注重技术和政策。这种转变对调用的知识基础、使用的文献计量方法的类型及其数据源具有重要影响。我们首先讨论最早的文献计量学研究，探索其在人文学科中的学术评价目的，并分析“国际化”作为人文学科文献计量学研究中的一个新概念的起源及其与“科学化”的关系。在本节中，我们讨论了1980年代和1990年代依赖于WoS数据库文献从事评价的文献计量学家的第一类研究。然后我们将讨论更多近期的文献计量学研究。

关于在人文学科学术评价中使用文献计量学的早期文献引用了两个概念，首先是科学化。这个概念仍然很重要，但它不再是一门学科的认知和社会结构的特征（如在“硬度”“累积性”“编码度”的第一时期）。相反，科学化首先被定义为出版物目标受众的特征，针对科学读者的出版物与针对一般或当地读者的出版物形成对比。出现的第二个概念是国际化。出版物的“国际化”程度成为人文学科与其他领域之间以及人文学科本身的新分界线。此外，国际化和科学化经常交叉，本地导向也被假定为面向非科学受众，而国际导向总是面向科学受众。

Nederhof等研究了文献计量指标在人文和社会科学学术评价中的作用，讨论了Price和Cole，并认为这些学者的工作表明人文学科中科学发展的速度更慢。他们解释说，有两种机制导致了这种较慢的发展速度：首先，人文（和社会科学）研究人员被认为更多地参与非科学公众的“启蒙”；其次，这些研究人员主张面向当地科学公众发表更多文章，这也“导致知识增长放缓”。他们指出出版物的目标受众是自然科学与人文学科之间的主要区别，而Price和Cole的文章中并没有这一概念。根据Nederhof等人的说法，非期刊出版物和非英语出版物对于在学术评价中承认人文学科的研究文化是必要的。他们在结论中指出，“在学科方面，我们发现专著和科普文章是‘软’领域比‘硬’领域更重要的产出。”Nederhof在解释自然科学、社会科学和人文学科之间的差异时，对国际化和早期科学化研究之间的联系做出了解释：“首先，许多自然科学迎合了国际科学家群体，物理或化学等领域的基础研究具有国际研究前沿。研究前沿是指一个学科中所有活跃的研究人员目前正在做的所有工作。相比之下，许多社会科学和人文领域的相当一部分产出主要面向国家/地区和当地公众，它们经常出现在地区或国家的期刊、专著和报告中。”可见，Nederhof将国际化与研究前沿等同起来。但值得怀疑的是，出版物类型和其中描述的研究的认知特性在多大程度上相关，专著的普莱斯指数是否低于期刊文章？用“本地”语言写的书所包含的知识与用英语写的书在性质上是否不同？

Sivertsen等认为，从学术角度来看，使用特定语言出版以吸引特定学术受众是有意义的。文献计量学家倾向于将每份文献视为一个独特的分析单元，这阻碍了对人文学者出版实践的更深入理解。例如，面向少数读者的某种语言的出版物，其内容与面向同样具有学术性但无法接触到的读者的英文出版物相同。Sivertsen最近表明，作者倾向于使他们的出版渠道多样化。因此，独立于所有其他文献来理解每个文献是有非常大问题的。Colavizza论证了专著在历史文献的认知网络中扮演着独特的角色，并且这个角色不同于期刊文献。有证据表明，出版物类型的多样性在人文学科的认知结构中发挥着特殊的作用，因此，人文学科在本质上不同于其他科学领域的认知结构。

2.2.2 科学映射：人文学科中文献计量学的新兴领域

20世纪80年代和90年代是文献计量学越来越关注学术评价的时期。然而，在用于学术评价的文献计量学的发展过程中，出现了科学映射技术，这些技术使用参考文献和引文关系作为主要数据源，提供了人文学科的新见解。

大多数这些映射研究都是探索性的，并且具有概念验证格式，它们表明，文献计量学可以在人文学科中以特定方式使用。这些研究旨在确定社会或认知社区以及这些社区之间的（跨学科）关系。一些研究是通过绘制在某一特定期刊上发表文章的作者的图谱来进行的，而另一些研究则是调查已建立的学术团体之间的跨学科空间。Larivière等通过共同作者绘制机构之间的关系，以更宏观的社会学视角探索人文学科。一些学者旨在在早期社会学文献的基础上增加我们对人文认知结构理论的理解。Leydesdorff等绘制了一小部分人文学科（两本期刊）的认知结构图。在一项更大规模的研究中，Leydesdorff等对整个A&HCI的认知结构进行了探索性分析，并将此与其他各种人文学科结构进行比较。Colavizza最近的工作旨在研究核心资源在历史认知网络中的作用，发现各种类核心资源在历史认知结构中扮演着不同的角色，例如，专著主要建立全球联系，而期刊文章更常用于较小的本地集群。

通过科学映射技术，我们对人文学科的认知结构有了新的认识。直到这十年，这些文献大多是探索性的，没有明确的理论或与其他科学领域的明确比较。然而，这些方法为跨学科比较和对比各种认知结构的比较方法提供了新机会。将使我们能够理解诸如期刊在科学领域的不同作用、科学领域认知和社会整合的差异，以及人文学科自身认知和社会结构的时代变迁等问题。这些见解对于深入了解人文学者使用的出版渠道生态至关重要。

2.2.3 新的数据库，新的研究问题

随着丹麦、挪威和法国出版数据库的出现，新的数据源已可用于研究人文出版的实践和概况。这些数据库，以及提供或多或少完整出版记录的大学知识库，为文献计量研究界提供了新的机会。我们将讨论这些数据库使文献计量研究成为可能的类型。

新数据库允许对更大规模的出版概况进行研究（机构、学科和国家之间的比较），并且有着比早期研究更好的覆盖范围，还提供了关于出版实践更详细的内容。这导致了一系列新文献的出现，它们使用这些数据来分析人文（和社会科学）出版实践的各个方面。

这些研究主要是描述性的。一些研究科学系统本身以及基于绩效的资助机制可能对出版实践产生的绩效影响。其他研究分析了编辑专著的作用、专著编辑和专著作者的特征，通过专著位置来展现出版实践中的国际化出版和出版风格。

这些新研究使用新方法处理文献计量数据，例如主成分分析法和重心法。他们在实证上也更广泛，更少关注文献计量指标的发展。虽然这一部分新文献表明数据来源和方法越来越多样化，但概念方面发展缓慢。缺乏新的研究问题，与科学映射相比，这些研究提供了对人文学科社会结构以及出版实践和概况的洞察，但没有提供人文学科的认知结构。

但最近的两篇文章可能会提供新分析途径，包括人文学科的认知结构。在Kulczycki等人2018年的一项研究中，比较了八个国家的出版实践，讨论中包括科学系统和国家的特征，以解释不同地区和学科的出版物概况的差异，通过将科学系统的特征纳入宏观层面的文献计量研究，可以更详细地研究人文学科研究治理与出版实践之间的关系。Guns等人在2018年发表的另一篇文章介绍了一种比较人文学科认知结构和社会结构的新方法，通过比较人文社科中佛兰芒作者出版物的认知和组织分类，表明人文学科的社会结构和认知结构之间存在差异。这些结果证实了Leydesdorff等人在科学映射方面的早期工作，并开辟了一条新的研究途径。虽然他们仍然缺乏参考数据，但Guns等人找到了一种方法来研究人文学科的认知结构，并将其与其社会结构联系起来，无需参考数据。

3.结论

人文学科需要理论更新。本文分析了如何使用文献计量方法来研究人文学科的认知和社会结构以及出版实践。我们划分了两个文献计量学术时期，总结了五类文献计量研究。

第一时期，1965年到1980年代，社会学家开发了文献计量方法来检验社会学理论，图书情报学家利用这些早期的社会学尝试，采用文献计量学方法更详细地研究人文学科中引用行为的性质。第二时期，20世纪80年代至今，文献计量学开始嵌入图书情报学，并越来越远离科学社会学。正是在第二个时期，我们看到了由部分重叠的学术团体进行的三种类型的研究：学术评价、科学映射以及涉及新的国家/地区出版数据库的研究。这两个时期之间最显著的变化是文献计量研究所嵌入的概念腹地的变化。第一阶段，文献计量研究植根于科学社会学的理论框架，这种情况从20世纪80年代开始发生变化，当时文献计量方法越来越多地用于科学政策和学术评价。

Price认为人文学科的知识增长与自然科学不同，这是我们在60、70年代探索许多文献计量研究的基础，并且在后来继续发挥重要作用。在用于学术评价的文献计量学和出版物概况研究的背景下，人文学科已被证明栖息在多种不同的出版物类型中，但是这种多样性是非常有限的。文献计量学家将人文学科出版实践与自然科学（即英文期刊出版物）中理想的典型出版实践概念进行了比较，他们尚未研究出版物类型之间的认知差异或不同出版物类型的作用。迫切需要进一步研究和概念化的是出版实践与人文学科认知和社会结构的关联方式。

研究这些关于人文学科的认知和社会结构以及出版实践的更基本问题，需要开发新数据集，并将文献计量学与其他（定性）方法相结合。这将为科学社会学、科学史和科学政策研究中的问题提供令人振奋的新答案。

（全文及参考文献见Journal of the Association for Information Science and Technology，2019年第70卷第10期，原文链接：https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24206，本期推文为节选摘编，略有删减和编辑。）

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 宋欣雨金潇苒王译晗

本期编辑 | 学术君001号

基地官网：http://statevalbase.fudan.edu.cn/main.htm

• end •

人文学科的研究评估，我们应当……