艺术与人文研究评估：请用数据，而非指标-国家智能评价与治理实验基地

艺术与人文研究评估：请用数据，而非指标

发布时间：2023-04-14 来源：复旦智能评价与治理，复旦新学术

摘要：[目的]本文旨在明确阐明在艺术与人文研究评估中应将包含情景的数据作为依据，而非系统化的指标。[方法/过程]对基于引用的指标的优点和局限进行调查，并与艺术与人文学科中更广泛影响力数据的现有使用证据相结合，其中特别参考了2014年英国研究卓越框架。[研究结果]在艺术与人文学科中，数据已经被作为影响力证据，这种做法应该得到更广泛的应用。[实践意义]鼓励艺术与人文研究者通过创造性地思考他们可能产生的数据类型，来展现他们研究的价值，而不是依赖标准化的指标。[创新点]本文从科学计量学的角度将艺术与人文学科的实践与研究评估相结合，并提出新建议。

关键词：研究；情报与文献学；情景信息；艺术与人文研究

01 引言

在正式和非正式的研究评估中使用基于引用的指标，有着漫长且备受争议的历史。1964年《科学引文索引》(Science Citation Index)的诞生使基于引用的指标首次被应用到研究评估中，此后，各种指标被用于期刊、文章和作者的评估。引文分析的基本原则是，科学家倾向于通过引用来承认先前的研究为他们的工作提供了信息，这是科学研究的规范行为。但这也受到了许多批评，因为引用可能是负面的，并且受被引用文章质量/贡献以外的因素的影响，因此引用数量不能直观和公正地衡量先前文章对未来研究的贡献。同时，学者们并不认为评估指标使用的这些数据能够反映出自己的研究。但有证据表明，在某些学科领域，基于引用数量的指标往往与引文数量呈正相关，因此被用于研究评估中。但这一用途通常是为专家提供关于研究质量的判断信息，而不是取代专家的判断。例如，如果需要对一个或多个研究人员的成果进行评级，那么引用指标可以作为评估的起点，作为与最初的人工评级进行交叉检验的替代数据，或作为边缘案例的额外证据来源。

尽管一些引用是负面的，也存在一些偏见因素，但在研究评估中使用引用数量的理由是，在一个相当大的出版物集合中，这种偏差可能趋于平衡，从而可以解释专家判断和引用指标之间的正相关关系。但至少在英国，由于学者们改变了其研究模式以适应评估标准，因此需要考虑任何行为变化带来的影响。

在一些国家的评估中，已经使用指标来支持同行的判断。在2014年英国研究卓越框架(REF)中，所有36个子小组(即学科分组)都使用了外部收集的Scopus引用数量以及年度领域平均值。在工程领域，学者们可能担心引用数量会更偏向于纯研究，而非应用研究，但后者在该学科中被高度重视。在数学中，引用可能被认为与数学的质量完全无关，如数学领域的最高奖项菲尔兹奖于2014年授予了数学家Maryam Mirzakhani，他的成果的引用次数并不多。在社会科学小组中，只有经济学和计量经济学小组选择了引用指标，而艺术与人文学科小组没有采用它们。但在使用引用数量的子小组中，引用数量并不是判断的核心依据，而是辅助解决评估者之间的分歧，期刊影响因子则被忽略不计。澳大利亚卓越研究中心采用了类似方法，通过提供期刊文章的引用数量，用于同行对学科质量进行判断。在社会科学、艺术与人文学科领域，引用数量只提供给心理和认知科学领域。相比之下，新西兰绩效研究基金则是根据个人提交的工作合集来评估，而没有标准限制。所有研究人员都可以提交他们收到的积极引用(和积极评论)的证据，只要他们能够解释这些引用并证明它们是积极的。

结合新西兰的案例，研究人员可能会认为，如果他们不使用引用数量，那么证明他们工作价值的主要证据来源是一份成果清单，也许还包括被同行认可的证据，如编辑职位、发表主题演讲、顾问和奖项。但这是有限的，因为关于工作影响力的证据有助于在学术领域内外对其价值进行更有力地证明。此外，对于一些学科而言，“实践即研究”是一种公认的调查模式，研究成果的传播和影响力之间的关系不能轻易分开。在创意和表演艺术领域，影响力是整个研究过程的一部分，而不是在研究结果传播后的附加。当表演、装置和展览被放置在公众面前或涉及到更广泛的用户时，这些利益相关者对过程和/或结果的反馈，由于与明确或陈述的研究目的有关，因此可以有效地构成记录项目意义、原创性和严谨性的过程的一部分。所以影响力往往体现在研究之中，而不是后续产生。本文回顾了使用引用进行研究评估的学科差异的证据，并给出了在艺术与人文学科评价中更广泛使用数据的案例。最后，本文建议更广泛地使用数据作为艺术与人文研究影响力的证据，并主张在评估艺术与人文研究时要谨慎使用指标术语，应认识到非系统化的数据的作用，而不是依赖系统化的引用指标。

02 影响力vs参与度：情景的重要性

艺术与人文研究的社会价值并不总是像医疗或技术创新等其他类型的研究那样透明或可见。因此，公众对艺术与人文研究的益处缺乏共识，我们必须提出一个更加一致的理由来证明其受公共资金资助开展研究的合理性。我们无法证明某些艺术与人文学术的社会经济影响，因为它们在其他方面也很有价值，特别是其中一些方面是无法以任何有意义的方式去衡量甚至估计的。因此，越来越多地使用循证政策可能会使参与艺术的高度主观体验边缘化。

人文学科的价值主要体现在五个方面：对意义和知识的洞见；与实际应用的距离；对幸福的贡献；对民主的贡献和为了自身发展。例如，在医学教育中人文学科的价值被证明是合理的，因为它可以帮助临床医生应对各种复杂的证据和知识。此外，艺术与人文学科的每一个单独领域可能都有其独特的贡献类型和其工作价值的合理性。与其他学科相比，也许更应当强调艺术与人文学科在教育中的价值，而不是研究人员的成果。甚至有观点认为，人文学科可以通过教育国民更有效地参与政治过程来推进民主。此外，应用艺术实践研究有着丰富的传统，包括音乐治疗、社区舞蹈和社会戏剧等，在社会、医疗和情感方面的公民社会实践中取得了关于益处的重大发现，将文化部门的影响力有效地扩展到福利和社会公平领域。

在艺术与人文学科中，引用似乎很少被使用，但数据通常被用来证明在许多情景下的价值。如英国艺术与人文研究理事会(AHRC)为其资助项目的所有者提供了如何对其进展进行自我评估的指导方针，它们区分了基于项目的直接或间接的三种不同情形：

•产出：生产的有形物品；

•成果：参与者“行为、技能、地位和功能水平”发生变化；

•影响力：“组织、社区或系统”的根本变化。

虽然“产出”很难确定，“影响力”也很难或无法衡量，但可以通过访谈、问卷调查、焦点小组和其他社会研究方法收集关于“成果”的信息，从而生成定性和定量的综合数据。这种做法似乎在一些领域得到了认可，如音乐疗法和艺术在教育学中的应用，这些都是具有明确和可衡量的目标的。但在英国REF，所有提交材料的研究人员小组都被要求提交独立的关于影响力的案例研究，来描述他们的研究如何体现非学术影响力(将在下一节详细解释)。因此对学术界内外的成果和影响力进行区分是有必要的：

•学术成果：反映在学科内外的其他学术成果；

•更广泛的成果：反映在学术界之外的成果；

•学术影响力：对学科内外学术的影响力；

•更广泛的影响力：对学术界以外的影响力。

艺术中常用的一种数据类型的例子是，在没有明确可衡量的外部目标的情况下，通常将观众规模用于评估娱乐产出的影响范围。但是仅靠数字是不够的，必须在情景中加以解释，才能转化为观众参与度或转变程度的证据。例如，英格兰艺术委员会(ACE)在其2011-2015年计划中优先考虑“为参与度最低的人和地方发展艺术机遇”。因此，在ACE指出的71个艺术参与度最低的地方政府中，接触对艺术参与度较少的受众，可能比在被认为文化参与度更高的大都市中心或地区吸引更多受众更重要。英国广播公司(BBC)等机构使用“欣赏指数”或AI来记录观众对广播和电视节目的喜爱程度，重点关注的是体验的质量，而不是观众或听众的数量。因此，受众规模可能是更广泛成果的证据，但需要具体语境才能将其转化为更广泛影响力的证据。

在英国REF2014中，每份提交的文章必须包括≥2个案例研究，来描述该研究如何产生影响力。影响力准则中指出“提交单位有责任在每个案例研究中提供关于其所声称的特定影响力的适当证据”。在艺术与人文学科小组中，案例研究的评估准则是：“公众参与可能是许多案例研究的重要特征之一，通常是实现其所声称的影响力的机制”，艺术与人文研究可能的影响力范围包括公民社会、文化生活、经济繁荣、教育、政策制定、公共话语和公共服务。REF2014中对可以用来支撑影响力的一系列定性和定量证据来源进行了列举和说明，列出的“指标”包括出版和销售数据、外部资金、使用教育材料的证据、旅游数据以及收入或就业等业务增长数据。影响力证据的其他例子包括来自用户的批评或引用、公众参与数据(包括数字和描述)、政策参与、独立证词和正式评估。

REF2014在上述部分中提供的数据范围，证明了对如何使用数字来证明研究产生的影响力的范围和重要性的理解。通过对提交给音乐、戏剧、舞蹈和表演艺术小组的影响力案例研究的考察表明，数据被广泛使用以支持和说明所提出的主张，这包括：用于资助音乐治疗中心的私人捐款；广播、创作和表演的观众人数；软件的用户号码；社区项目参与人数；博物馆和展览的参观人数；CD和DVD、书籍、学术文章、电影票房、杂志文章或唱片的销售以及下载数据；艺术倡议的会员人数；可量化的访客评论；网站点击率、推文和社交媒体曝光率；高等教育机构(HEI)的学生人数等。

这并不是说数据是证明影响力的必要或充分条件，数据可能意味着覆盖面，但不代表意义，意义可能表现为文化战略思想或政策的重大变化。这就是每个案例研究的情景化叙述应如何定位、构建和解释数据。音乐、戏剧、舞蹈和表演艺术小组报告表明，影响力最强的案例研究展现了“对用户、受众和受益者的清晰认识”，使用的是数据而不是用于描述影响力的空谈。在适当情景下，“参与者和受益者关于研究产生的影响力的有意义的(在质量和数量方面)数据”会有所用处。

03 情景数据：来自音乐、戏剧、舞蹈和表演艺术的案例研究

虽然人们不太认同使用指标作为衡量英国高等教育机构研究卓越性的模式，但REF2014的丰富数据表明，艺术与人文学科倾向于使用数字来展示其研究文化的卓越性。在考虑进程的环境部分时(占单位评估总分数的15%)，一系列领域的数据同样被提交用于提供参考，而不是决定判断。它要求各评估单位提交包括有关授予博士学位的总数和来自外部的研究收入数据，因此可以包括已离职的工作人员有关的数据，甚至是出于战略原因从其他领域调来的工作人员的数据。如果将英国高等教育统计局(HESA)的数据与提交给REF的研究成果产出以及证明提交部门或单位的活力和可持续性的项目和合作相关联，将是最有效的。与影响力案例研究一样，战略判断显然是由高等教育机构做出的，以利用选择性的数据来支持他们在评估期间提出的关于其研究成果的叙述。

例如，所授予的博士学位数量必须结合以下背景理解——通过明确阐明“实地工作、旅行和会议的程序和资金；能够反映该学科研究需要的培训方案，而非面向共性需求；以及强大的外部联系”来证明强有力的机构支持，例如参与创意产业或实践研究。这些数据可以提供一些关于活力和可持续性的指标，但仅凭数据不足以证明一个研究环境的优秀。“来自资助机构的奖励、表演机会、奖品、出版物和任命，学生在组织研讨会、会议以及通过电子期刊促进和传播创新研究方面发挥主导作用”和其他出版物举措，提供了关于该单位研究文化丰富性的更广泛的图景。单凭授予博士学位的数量可能无法揭示研究生是否能以可持续的方式完全融入高等教育更广泛的研究文化，或无法揭示小型的、新兴的单位如何为其监督和培训提供关键架构。此外，当艺术与人文学科的研究生在高等教育中获得长期或固定就业的比例不到50%时，展示研究生的就业去向就非常有必要，即我们的研究生将学到什么？我们如何让他们在学术界内外运用他们的知识和技能，为应对挑战做好准备？

关于外部研究收入，REF使用HESA对来自一组特定资金来源的研究收入进行定义。创意艺术的研究，尤其是研究实践，通常是由HESA未收录的机构资助的，这种收入的重要性往往明显与该单位环境部分中的卓越研究项目相关。在创意艺术学科(艺术、设计、音乐、戏剧、舞蹈和表演艺术)中，非HESA数据值得仔细考虑。

此外，这些学科中有一定比例的研究优先考虑参与和协作实践，一些从业者为基础研究做出了贡献。数据可以体现一个单位在获得收入方面的成功程度，但不能展现其生产力如何，使用收入作为固定指标存在不足。虽然REF2014中对数据的使用多种多样，并且在展望中提出更高水平的标准化和数据获取指南将是有用的，但必须确保为REF2014后续设计的任何系统，都不是造成限制和适得其反的。研究评议工作的真正益处在于通过启动一种程序，让院系和学科去反思他们在做什么以及在如何做。

04 艺术与人文研究的引用

所有以引用为基础的艺术与人文研究评估中的一个重要问题是，艺术家产出了各种作品，包括乐谱和乐器表演、软件设计和舞蹈表演，这些自然都是不可引用的。事实上，来自现象学、文化唯物主义、人文地理学和社会学的理论观点，经常作为一种方法论和传播模式来支撑批判实践的研究必要性。此外，专著在人文学科中尤其重要，但很难找到专著的引用，因为目前的引文索引由学术期刊主导，而且Web of Science和Scopus对专著的覆盖不够全面，无法用于评估。此外，尽管一些出版商会对专著进行同行评议，并仔细挑选作者，但为了保证销量，他们仍然会青睐更热门的研究主题。覆盖也存在一些国际性问题，这些问题对人文学科的影响大于对自然科学学科的影响。提交材料中会议贡献只有不到1%，会议作为传播研究成果的主要模式，在艺术与人文研究文化中似乎作用不大，但往往具有分享正在进行的工作的形成能力。

也许一个更根本的问题是，虽然自然科学家和社会科学家可以在某种程度上声称正在建立一个有等级的知识体系，其中通过引用以前的工作来证明新工作的地位是很重要的，但对于艺术与人文学科来说却不是这样。相反，创造力在艺术中受到重视，这在某种程度上与等级化的知识体系相反，人文学者可能会通过引用来证明他们工作的原创性，而不是他们对知识体系的贡献。此外，他们可能会引用相对不相关的领域，以试图扩大他们的潜在受众，因此，他们引用的内容可能不如他们引用的人重要。在某些领域，例如文化史，需要广泛引用古代一手资料，可能会抑制对当代研究的引用，使引用数量对该领域的当代研究评估不那么有用。

鉴于高被引的性质，艺术与人文学科的高被引数量可能不像其他领域那么理想。在自然科学领域，热门话题可能是被引用最多的，对这些热门话题的贡献，有时被称为研究前沿，可能会受到高度重视，因此他们的高引用反映了同行的价值观。相比之下，人文学科中，前沿领域的研究可能会受到一些质疑，因此它们的高引用可能反映了更广泛社会意见的对立面。这可能是因为人文学者比科学家更不倾向于为团队做出贡献。此外，人文学科的核心产出，即专著，似乎无法从合作中受益，而自然科学和社会科学的产出，即期刊文章则可以。因此，艺术与人文学者在不同的研究课题上合作的机会和动机可能相对较少。在人文学科中，有争议的或糟糕的学术也可能被反复提及，因此获得高引用，虽然这可能比较少见。最后，对于哪些指标可以用来帮助评估不同学科的艺术与人文学者的研究质量这一问题，是可以在特定领域的达成共识的。此外，本文中提出的多个类型的指标组进一步证明，仅靠引用数量不足以进行人文学科研究评估。

总的来说，对典型艺术与人文学科产出的任何一类引用都可能远不如对自然科学、生命科学或社会科学产出的相应引用全面，而且从中得出的任何引用数量都缺乏与学科研究目标的直接联系。在自然科学领域，引用数量与同行评议质量分数之间存在很强的相关性，加之自然科学的等级性质，在一定程度上表明适当标准化的引用数量也可以是学术影响力的合理指标。但对于艺术与人文学科而言，这并不具有说服力，因为引用数量与其他学者质量判断的相关性较弱，且引用与学术重要性之间没有很强的理论关联。因此，引用数量充其量可能是艺术与人文学科学术影响力的一个弱相关指标。

05 结论：使用非系统的数据而不是指标的情况

目前没有足够的证据能够确定引用数量有助于提高同行评议对艺术与人文研究的质量判断的准确性，因为它还不足以作为学术影响力的指标。还有学者担心，引用数据将产生一种不正当的激励，阻碍冷门研究领域发展，因此系统引入引用数量的整体效果可能是负面的。这并不是主张艺术与人文学科例外的论点，而是一种基于现实的认识，即任何评价方法都不应该因为改变研究人员的行为而影响他们的研究范围和边界。

但由于定性或定量数据可以在一些艺术与人文学科研究项目资助的评估中提供帮助，在一些类型的评估中鼓励这种方法是有其合理性的，例如REF影响力案例研究、职业(例如任命、晋升和终身教职)评估和院系评估。在这些情况下，艺术与人文学科的多样性以及对成果背景解释的需求表明，产生一组所有参与者都需要报告的数据类型是不太可能的，甚至来自两个来源的数据可能也不具有可比性，因此一味推动标准化将适得其反。相反，被评估者应该自主选择自己的数据进行报告，同时需要解释这些数据在相应情境下的背景和意义。因此，对这些数据和叙述的评估应是主观的，由人工判断而非算法识别，即在艺术影响力的评价方法中，有时使用在社会科学中开发的标准方法工具包是不合适的，因为它们必然会过度简化艺术的效果。

在艺术与人文研究评估中更广泛地使用情境化数据的有利之处有两方面：一是评估会更加准确，因为它们不仅基于叙述，还包含支持证据；二是研究人员自身也会被驱动着去深入思考他们工作所产出的结果和影响力的类型，这可能会帮助他们专注于他们涉及范围内最有影响力的研究类型。然而，不利之处一是会偏向更容易获得数据的研究类型，以及要花费时间去收集此类数据。例如，如果需要设计、发放和评价调查问卷，可能需要大量时间。二是人文学科的某些领域可能主要从事与学科建设，没有产出成果，因而没有与广泛受众进行面对面接触，因此在鼓励使用数据的评估中将处于不利地位。因此必须通过提出论据来证明其对社会的价值，以及给出关于为什么这种价值不能反映在任何类型的数据中的理由来弥补。这些建议与上述关于艺术与人文研究的发现直接相关，也可能适用于其他一些认为传统学术指标没有帮助的学科领域。

总之，在对数据需求的争议中使用的语言很重要。艺术与人文学科的研究人员有理由对任何使用指标的尝试保持警惕，因为指标的内涵中包括引用数量和将社会和文化效益转化为经济术语的驱动力。指标这一术语的特殊问题，在于人们很容易将其误认为是对研究质量的衡量，而不是被认为是在某种程度上与研究质量有关的其他方面的衡量。相比之下，包含情景的数据(或证据)不存在这一问题，并且倡导通过提供数据来表明研究结果或影响力，这在直观上更加合理，也更有可能成功。

（全文及参考文献见Journal of Documentation, 2015年第71卷第4期，原文链接:https://www.emerald.com/insight/content/doi/10.1108/JD-02-2015-0028/full/html，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 金潇苒宋欣雨王译晗

本期责编 | 金潇苒

基地官网：http://statevalbase.fudan.edu.cn/main.htm

·end·

什么是研究的质量？建立评估视角下贯穿设计、过程、影响的属性框架