摘要:商业文献计量数据库及其所提供的定量指标被广泛用于研究评估,这对人文学科来说并不公平,人文学科在许多方面本质上不同于其他领域。本研究旨在根据引用和合作,从五个大小无关的文献计量指标来看差异的程度。我们依照OECD(经济合作与发展组织)的六大学科分类对分类的InCites数据进行比较,并使用45,987个人文资源对人文学科的子领域进行比较。结果表明,人文学科在统计上与包括社会科学在内的所有其他领域都有所不同。除此之外,人文学科的各个分支领域都各不相同。这一主要发现表明,人文学科不是需要新的定量评估指标,而是需要不同的评估方法,例如自下而上的方法。
关键词:人文学科;文献计量指标;InCites;web of science;自下而上的方法
美国科学信息研究所实施的引文索引改变了研究评估的方法 (1964年科学引文索引(SCIE),1973年社会科学引文索引(SSCI),1978年艺术与人文引文索引(AHCI))。这主要针对决策者,他们更喜欢易于使用的数字(例如出版物和引文)来评估研究人员的表现。如今,如果不在Web of Science(WoS)或Scopus索引的期刊上发表论文,许多学者就不可能获得终身职位或晋升。因此,准确、公正地评估研究和研究人员至关重要,这要求在制定评估标准时考虑学科差异。否则,可能会导致对任期和激励措施的误判。
从本质上讲,人文学科的研究在许多方面与纯科学有很大不同。文献研究表明,人文学科涵盖的主题大多是地方性或区域性的,因此国际出版的动态大不相同,在研究成果中使用母语更为普遍。数据证明,AHCI收录的英文论文比例为72%,而SSCI和SCIE的收录比例为93-94%。从事人文学科的学者出版的出版物类型各不相同,不仅限于期刊文章,图书或图书章节和非学术出版物也很重要。除此以外,人文学科更多地采用定性研究方法。人文学科的研究人员更喜欢单独工作,而合作是实证科学的常见做法。而且,人文学科的论文不像其他领域那样经常被引用。
不幸的是,传统的评估技术和方法仅基于商业引文索引产生的文献计量指标,其主要学术成果是国际期刊上的文章,无法应对这种多样性。因此,对人文研究和研究人员的评价一直是一个有争议的问题。直到最近几年,还没有关于这个问题的具体尝试。《布拉格宣言》(或社会科学和人文科学研究评估的挑战),《莱顿宣言》(尽管它没有直接提到人文学科),《旧金山研究评估宣言》(DORA),以及《赫尔辛基学术交流多语言倡议》都是由评估实践中的问题驱动产生的,堪称近年来人文学科研究评估的里程碑。欧洲人文社科研究评估网络(ENRESSH)、欧洲人文社科联盟(EASSH)项目、EVALHUM倡议、研究评估SSH会议(RESSH)和促进人文社科的ICT国际会议 (ICTeSSH)都聚焦在这个议题上。
Giménez Toledo总结了人文学科研究评估的当前做法:
•使用商业数据库以外的所有学术成果和数据源;
•采用自下而上的方法和更多定性的研究评估;
•在研究评估中考虑开放获取、开放引用和替代计量指标;
•负责任地使用指标;
•对研究的社会影响进行评估;
但是,大多数机构仍然以特定的商业数据库作为数据源,进行主要以文献计量指标作为评价标准的定量评价。本研究的主要目的是展示人文学科在商业文献计量数据库中的地位,并展示人文学科与其他领域的主要区别。研究问题如下:
•经济合作与发展组织(OECD)的六个学科领域在每篇论文的引用率方面有何不同?从这个角度而言,人文学科的地位如何?就每篇论文的引用次数而言,人文学科的子领域是否相似?
•人文学科在文献被引率和高被引论文百分比方面与其他领域有何不同?人文学科的子领域是否也在这两个变量上不同?
•人文学科的合作实践是否与社会科学相似?人文学科的子领域的合作模式是什么?
这项研究基于2020年9月9日在InCites中检索的两个数据集。
第一个包括涵盖Web of Science(WoS)(1980–2020)255个主题类别的所有类型的出版物和引文数据。这255个学科类别分为6个主要学科和39个S级OECD学科领域:自然科学(63类)、工程与技术(45类)、医学与健康科学(59类)、农业科学(11类)、社会科学科学(48个类别)和人文学科(29个类别)。
对于第二个数据集,我们下载了WoS索引的45,987个独特的人文资源(例如期刊和书籍)的数据,以分析不同人文学科子领域之间是否存在差异。我们根据OECD的五个人文学科子领域对其进行了分类,即历史学和考古学(16,805个来源);语言和文学(14,338个来源);哲学、伦理和宗教(12,026个来源);艺术(7,541来源);和其他人文学科(1,224个来源)。
考虑到是否满足参数检验假设(正态分布,n>30),我们进行了Kruskal-Wallis、Mann-Whitney和两个独立样本t检验,以通过引用变量和合作变量比较人文学科的六个主要领域和五个子领域变量。引文变量是每篇出版物的引用次数、被引用论文的百分比和高被引用论文的百分比,而合作变量是产研合作的百分比和国际合作的百分比。本文还计算了Kruskal–Wallis(η2)、Mann–Whitney(rG)和两个独立样本t(Cohen’sd)检验的大小,以呈现更准确的结果。
我们使用SPSS(21版)进行统计检验和描述性统计。RCommander的KMgglot2插件用于创建箱线图、散点图和95%置信区间图。
数据分两个阶段进行分析。首先,我们根据引文和合作数据的五个不同变量比较六个主要领域。然后,我们将重点放在人文学科上,并使用相同的变量比较了人文学科的五个子领域。
3.1六大领域比较
本文通过表1中列出的引文和合作变量对OECD的六个主要领域进行了比较。如表1所示,人文学科的五个变量在六个领域中值最低。
图1显示了OECD学科领域的出版物和引用的分布。该图证明了纯科学在出版方面的主导地位。在这些论文中,81%发表在三个主要的纯科学类别:自然科学(33%)、医学(27%)和工程学和技术(21%)。人文学科出版物的总数几乎与相对较小的纯科学领域——农业科学相似。OECD学科领域的引用分布揭示了人文学科的主要特点。人文学科仅占数据集中总引用量的0.52%,而自然科学占44%,医学占30%,工程技术占17%,社会科学占6%,农业占1.5%。
图1的另一个重要方面是证明了子领域的差异,不仅适用于人文学科,也适用于所有科学领域。
3.1.1引文
自然科学领域每篇论文被引用次数的中位数为19次。农业科学和医学与健康科学紧随其后,分别为14和13。工程和技术为10,社会科学为9,但人文学科每篇论文被次数的中位数甚至不到1(0.68)。箱线图如图2显示每个领域中各类别的论文的引用值。人文学科以其不同的地位脱颖而出。在人文学科下的29个类别中,有7个类别的值大于2(从高到低依次为语言学、伦理学、考古学、科学史和哲学、语言和语言学、社会科学史和哲学)。语言学类别的每篇论文引用次数最高,为7.85,但仍低于其他五个大类的中值。
同样,人文学科被引用出版物百分比的中位数相当低(16%)。其他领域的被引出版物率中值介于51%和78%之间。
自然科学每400篇论文中至少有1篇,社会科学领域每500-700篇论文中至少有1篇(0.19%)被高引用。0.18%的农业科学论文,0.17%的医学与健康科学论文和0.15%的工程与技术论文被高引用。人文学科中超过一半的类别(15个)没有高被引论文。伦理学在人文学科中被高引用的论文比例最高(0.14%)。人文学科其他13个类别的高被引论文比率在0.015%(每6667篇出版物中有一个)和0.0003%之间变化。
3.1.2合作
在国际合作方面,一半类别的自然科学至少有五分之一的论文是通过国际合作发表的。167篇论文中只有一篇在人文领域进行了国际合作(0.60%)。其他四个领域的国际合作论文在总论文中的占比在9%到13%中变化。人文学科与所有其他领域有显着差异。
排除人文社科学科,学界产研合作论文率在1-2%左右,工程和技术最高(其中一半类别至少占2%)。在社会科学的24个类别中,每500篇论文中至少有1篇是与产研合作发表的。在近四分之一的人文类别(8个类别)里没有观察到产研合作。伦理学(0.12%)、科学史和科学哲学(0.10%)以及语言和语言学(0.10%)是人文学科中产研合作率最高的类别。
3.2人文学科六个子领域的比较
我们基于51,934个数据源比较人文学科的五个子领域(历史和考古学、语言和文学、哲学、伦理和宗教、艺术和其他人文学科)的引文和合作变量。
首先应指出的是,51,934个来源中约有21%尚未被引用。哲学、伦理、宗教(24.5%)和艺术(23.4%)是未引用比例最高的重要子领域。另一方面,近89%的文献的最高引用次数为3次。只有1%的论文的引用次数超过16次,2%的论文的引用次数超过10次。
图3显示人文学科的所有五个子领域都不相同。艺术和其他人文学科在每篇出版物的引用次数方面具有较低的值(参见图的左上部分)。然而,与其他来源相比,艺术子类别中的一些来源以其每篇出版物的高引用次数脱颖而出(参见图的右上部分)。从这个意义上说,最引人注目的是加拿大医学协会期刊,每份出版物有177次引用。题为“音乐家与演奏相关的肌肉骨骼疾病:发病率和患病率的系统回顾”的艺术论文被引用次数较多。该论文收录在SCIE的普通内科学类别中。但未收进WoS的A&HCI。它仅被InCites数据库视为艺术出版物。这些数据问题证明了引文数据库的局限性。
另一方面,语言和文学、历史和考古学每篇论文的引用次数最多。《学术英语:高级资源书籍》,这是一本有201次引用的书,其次是《塞维利亚伊西多尔的词源》(129次引用)。哲学、伦理学和宗教的出版物引用次数处于中等。
图3展示了人文学科每个子领域被引文献百分比的95%置信区间图(左下)和散点图(右下)。根据95%置信区间图,展现出最大差异领域的是艺术,它被引文献的百分比最低(平均值=20.6,中值=12.5)。散点图(右下角)表明人文学科每个子领域中至少有一篇被其他所有文献引用的文献。
尽管人文学科的五个子领域在每篇论文的引用次数和引用文献的百分比上有所不同,但这些测试结果在统计上不显著。
人文学科各子领域的高被引论文率和合作统计列于表2。哲学、伦理学和宗教的高被引出版物率最高,在10,000篇论文中大约有两个被高引用的出版物。语言和文学在产研合作中的比例最高,大约是每10,000份文件中有4份。历史和考古学,还有哲学、伦理学和宗教,这两个子领域的国际合作率都在2%左右,是最高的。另一方面,艺术和其他人文学科的所有三个变量值最低。
本研究根据InCites生成的大小独立的文献计量指标,在分类基础上展示了人文学科与其他领域之间的差异。可以理解,人文学科不同于医学与健康科学、自然科学、工程与技术、农业科学,但在所有指标上也不同于社会科学。虽然社会科学和人文学科通常被放在一起考虑,但这项研究提出它们是不同的。社会科学的转变,从在地方和国家期刊上发表母语论文到在政策的影响下在WoS索引的国际期刊上发表英语论文,可能是这种分离或分化的原因。此外,社会科学仅在引用率和产研合作方面与除人文学科外的其他领域不同。事实上,最近的一份关于社会科学对英国私营部门的作用的报告发现,除了科学、技术、工程和数学(STEM),社会科学也被广泛使用并被视为在企业中有价值的。关于每篇论文的引用,除了人文学科之外,社会科学仅与自然科学不同。在国际合作中没有发现社会科学与医学和健康科学之间的统计差异,这是这项研究的一个有趣发现。
本研究的一个显著发现是,一些在SCIE期刊上具有高影响因子的文章可能会被AHCI收录,会极大改变人文学科的指标值。这必须是未来要研究的主题。这种方法是正确的,因为这些论文的主题是关于人文学科的跨学科主题,例如伦理学。然而,几篇文章可以改变该领域的总体情况。所有这些发现证明,基于期刊的方法不足以描绘科学领域的图景,尤其是对于人文学科。另一方面,使用核心引文索引(例如Web of Science或Scopus)作为人文学科的研究评估工具限制了研究评估。可以考虑像谷歌学术这样的不同类型的数据源,但应注意谷歌学术的局限性,例如数据质量和可靠性问题。
本研究发现,人文学科与其他领域之间的差异表明了以不同方式评估人文学科研究和研究人员的必要性。然而,政策制定者仍然认为人文研究者有必要发表WoS索引论文。例如,虽然在中国的艺术和人文学科领域在WoS索引期刊上发表文章并不是获得终身教职的强制性要求。但是,如果发表的话,有可能免除某些其他要求,甚至有可能使研究者直接晋升为正教授。人文学科研究者强烈批评用不是为他们,而是为实证科学开发的定量指标进行评估。
关于如何评价人文学科一直存在争议。大多数研究批评当前的评估方法,一直在努力寻找一种简便方法来评估人文学科研究。自下而上的评估就是其中之一,它不采用自上而下的方式(由政策制定者或决策者进行评估),而是“基于各自学科的研究实践”。在此背景下,为克服人文学科研究评估的挑战,国家和区域数据库的建设被提上日程。一些国家已经实现了。国家数据库有挪威的CRISTIN(https://www.cristin.no/english/)、意大利的CINECA(https://www.cineca.it/en)、巴西的Lattes(http://lattes.cnpq.br/)、印度的IRINS(https://irins.org/irins/)和斯洛文尼亚的SICRIS(https://www.sicris.si/)。区域数据库有Flemish Academic Bibliography for the Social Sciences and Humanities(VABB-SHW, https://www.ecoom.be/nodes/vabb/en)、European Reference Index Information for the Humanities(ERIHPlus, https://dbh.nsd.uib.no/publiseringskanaler/erihplus)、Open Access Publication in the European Research Area for Social Science and Humanities(OPERAS, https://operas.hypotheses.org/)。
这项研究最重要的结论是,每个学科领域及其子领域的结构彼此不同。如果不考虑这些差异,所有研究评估活动都可能产生错误的结果。尽管有揭示科学领域实践差异的文章,但这些文章通常是为了将纯科学与社会科学和人文学科区分开。这项还研究证明,不仅科学领域之间有差异,其子领域也彼此不同。为研究人员和决策者提供负责任的研究评估方法,是研究评估过程的新需求。
(全文及参考文献见《Information》2020年第11卷第11期,原文链接:https://doi.org/10.3390/info11110540,本期推文为节选摘编,略有删减和编辑。)
本期策划 | 复旦大学国家智能评价与治理实验基地
供稿 | 邓晨菲 王译晗
本期编辑 | 学术君小熊
基地官网:http://statevalbase.fudan.edu.cn/main.htm
• end •