什么是研究的质量？建立评估视角下贯穿设计、过程、影响的属性框架-国家智能评价与治理实验基地

什么是研究的质量？建立评估视角下贯穿设计、过程、影响的属性框架

发布时间：2023-04-07 来源：复旦智能评价与治理，复旦新学术

30A14

摘要：虽然评估指标不断激增，但学界仍需要超越文献计量的方法，明确什么是好的研究，哪些是其驱动因素或决定因素。本文回顾了研究政策、科学政策和科学计量学文献，以提取研究质量的关键维度，从而建立基于文献的关于研究质量属性的框架，该框架经过了专家的修正。研究提供了对研究质量的系统定义，由包含66个属性的结构化分类来表示。本研究将这些属性整合到一个三维框架中，包括研究设计(事前)、研究过程(事中)和研究影响(事后)三部分。本研究的主要价值是提出了一个基于文献的全面的质量属性和评估观点清单，可以为下一步理论研究和政策讨论提供支持，以明确科学研究质量和影响的最终驱动因素。该框架还可用于设计基于多维质量观点的研究评估新程序。

关键词：设计；评估；影响；质量属性；研究过程；科学研究

引言

本文的作者之一近期参加了一所大学举行的会议，该会议打出了“建设卓越大学”的口号。这种现象反映出在确定科学工作质量问题时普遍存在的问题，特别是在研究越来越被局限于“卓越”和“影响”的时代。当然，“卓越”是由多个方面和维度驱动的，与教育系统质量、可持续发展实践的实施、吸引国际生的能力以及许多其他因素有关。

本文中，我们讨论了一个极具争议的话题，即什么代表研究质量，什么是研究质量的属性。我们专注于在研究实践中建立对质量的多维理解，以及与科学研究质量相关的公认概念的可操作框架。社会对科学研究的巨大关注影响了国家和国际研究评估体系。受到一定程度上的全球趋势的驱动，各国政府对研究质量的认知已经集中在相当模糊的“卓越”概念上，这是许多评估制度的基础。在这个质量评估主要通过同行评议或主要通过文献计量指标进行的时代，对质量的多方面进行系统评议至关重要。本文旨在帮助理解科学研究质量的多个维度。

许多因素使得评估科学研究质量越来越重要。首先，大学和研究机构可用的财政资源有限，需要更有效地为研究项目和团体分配资金；其次，国际竞争掀起了评估热潮；第三，社会对科学研究过程和结果的认识和公众对科学研究结果的关注有所提高；第四，教育和研究质量对于吸引国际人才和创新组织至关重要。

对研究过程和产出的评估，如出版物、研究项目、衍生产品、专利等，主要通过同行评议进行，但越来越多地受到文献计量信息的辅助，这些信息来源于一些基本的指标，如出版物数量、引用次数和期刊影响因子。指标被视作衡量研究质量和生产力的“代理”标准，并在很大程度上被用作指导学术和政策决策(如职业发展或预算分配)的基础。长期以来，人们一直在争论质量量化指标的局限，包括学科差异、社会和循环效应以及结果指标的不足。观察发现，目前最先进的研究评估由定量和定性方法的组合而成，但通过更仔细地观察质量维度，来探索富有成效的组合能够带来什么仍然十分必要。

如何超越文献计量学制定更全面的方法来评估研究质量，引发了世界范围内的争论。2012年，一群学术期刊编辑和出版商提出了《旧金山研究评估宣言》(DORA)，该宣言提出了一些建议，包括研究影响的定性指标(如对政策和实践的影响)。2014年，欧盟委员会启动了一场关于“科学2.0”的在线公众咨询，强调了传统指标的局限性，以及开发评估科学研究的替代方法的必要性。

尽管这些举措强调，定量评价应更加充分地与定性评价相结合，但要定义新方法和新工具是极其复杂的。广泛使用的简单(但无效)指标和因不透明、无法计算或难以解释而无法使用的更复杂指标之间存在着紧张关系。此外，衡量标准的不同使得很难将一个机构的评估结果与其他机构或学科的评估结果进行比较。关于研究质量定义的文献很少，因此有必要确定研究质量的系统定义。此外，应确定更实用和细粒度的评估指标，以应用于正式或非正式评估工作。

因此，本文的研究目标是给出关于研究质量的系统定义，从而对什么是好的研究及其驱动因素提供更细致和跨学科的理解。为此，我们进行了系统的文献综述，并收集了专家意见，得出了贯穿设计、过程、影响和评价视角的综合评估框架。本文首先(第2节)回顾了相关文献和理论观点，然后介绍了本文的研究过程(第3节)，接下来介绍了这一研究过程的主要结果。之后阐述了(第4节)科学研究中质量的属性，建立(第5节)一个学术研究综合过程。然后讨论了(第6节)现有理论的进展和下一步研究的途径。

背景

从历史来看，对科学研究质量和生产力的定量评估主要基于对出版物及其被引用数量、期刊影响因子和h指数等相关指标。在此基础上，学界还引入了其他指标来衡量研究人员的“核心”科学产出，如g指数和hg指数。因此，学界并不缺乏定量指标，它们已经形成了理论并被使用了至少半个世纪。文献计量指标是一种可以使评估过程更高效、更具成本效益的判断手段。

但是，评估研究质量也需要同行评议形式的专家判断，当前最先进的评估方法结合了定量指标和定性同行评议。有人认为，研究评估的未来取决于先进指标和同行评议的“智能组合”。Holbrook等进行了一项尝试，将“传统”定量和文献计量学的相关指标与更多定性和更具体的指标结合，从而形成了一个由56个指标组成的清单，结合了质量和外部影响，并试图突出“负面”影响和现象。另一次尝试是Snowball，这是由一个研究密集型大学组成的国际集团发起的一个自下而上的项目，作为政府和资助组织制定的指标的替代方案，旨在与同行评议和其他形式的定性评价相结合。

知识生产本身正在发生变化，社会需求和观点越来越多地内化于研究中，加速了通过塑造评估标准和制度以体现社会贡献的趋势。评估专家认为，科学政策需要超出对商业产出的强调，去包含更广泛的智力、社会、文化、环境和经济回报。同时，人们也越来越怀疑同行评议制度的质量和有效性。

研究质量评估的另一个相关趋势是，网络在衡量研究人员的活动方面发挥着越来越大的作用。这种替代指标，或“altmetrics”，展现了许多潜在的优势，如开放性、快速积累和各种研究成果的实时可追溯性。然而，altmetrics也显示出一些风险，例如“商业化”的影响、一些数据质量偏差、缺乏理论和经验证据以及被操纵的风险。

科学质量的定量评价深深植根评估社会影响比单独评估学术质量更复杂。问题之一是如何找到合适的工具和方法来衡量影响。为了定义社会影响，学界引入了不同的概念，如社会效益、有用性、公共价值、知识转移和社会相关性等等。于文献计量指标和评价体系，这些定量方法很强大，但在处理复杂的“质量”概念时却表现出很大的局限性。因此，定量评价通常与同行评议相结合。虽然有许多综合评价制度的例子，但还没有一个成为新的标准。另一个问题是，质量一词现在通常包括研究之外的影响，这本身就是一个非常复杂的问题。本文旨在通过系统梳理文献，结合专家建议，为这种争论做出贡献。

研究过程与方法

文献综述过程分为4个步骤，如图1所示。第一阶段(文献综述)，重点回顾了关于研究政策、科学政策和科学计量学的一些跨学科专业文献，其中特别关注质量的多方面含义，并对其进行描述和系统化。本文使用Google Scholar、ISI WoK和Scopus数据库，以“研究质量”“科学研究质量”“研究评价”“质量评价”和“质量评估”等为主题词，检索文章标题、摘要和关键词。经过初步筛选，选取93篇文献进行进一步分析。

第二阶段(概念集合)，从选定的论文中提取了研究质量的相关概念，作为研究质量的属性或维度。笔者收集了所有文章中关于研究质量的概念，然后按字母顺序排列。这使我们能够快速确定相同或易于比较的术语，这些术语被整合为一个整体性的概念。我们没有去除与不同“对象”(如提案、文章、项目、研究人员、中心等)相关的质量概念，因为我们的分析旨在定义一个全面和通用的质量定义，以用于从多个角度和分析“对象”。然后我们根据初步合并（如消除重复和冗余）汇总，获得了关于质量维度类别的草稿，如表1所示。

第三阶段(专家反馈)，向政策研究、评估研究和科学计量学领域的专家组发送质量维度清单草稿。我们向专家发送了电子邮件，邀请在专家以下方面提供意见：(a)研究的效用和细化总体目标的建议，新的文献或实践证据补充；(b)对拟定的质量维度清单进行更具体地整合和修改；(c)质量维度与不同类别(研究设计、研究过程和研究影响)的关联。我们得到了7位专家的回复，并有5位专家给予了完整的反馈，他们认为这项研究在学术和政策讨论中都很有趣和有用，并为进一步定义质量提供了帮助。从另外2位专家那里，我们收到了比较一般性的意见。其中一位专家表示，一个重要的现象是“认知情境化”，这意味着标准要在不同的情况和学科中被赋予不同的权重。

第四阶段(创建框架)，我们最终确定了分类，还使用了聚类分析来提高分类有效性，解决了质量维度之间的重叠问题，建立了最终框架。这一过程产生了两个主要结果：(a)文献综述和经专家验证的关于研究质量属性的综合清单；(b)宏观的评价类别和整体过程说明。

科学研究质量的属性

研究质量属性和维度可能与以下内容相关：

1.研究设计：所有与研究概念、研究目的、研究方法、初始假设和最终焦点有关的内容，可称为事前质量。

2.研究过程：研究活动的执行、研究方法和工具的应用、研究人员的行为以及研究结果的正式化和报告。虽然在大多数评估中这不是重点关注对象，但这最贴近研究人员的日常实践。

3.研究影响：成果共享、对学者和同行的影响、研究结果的采纳或利用以及对社会的最终影响，可称为事后质量。

设计(Design)特别关注研究的目的和焦点，它们可以跨越人类知识的不同学科和领域。跨学科方面的研究表明，研究质量通常是利益相关者偏好的表达，而非是衡量“好”与“坏”的标准，这意味着在跨学科研究中得分高的不一定比在这个标准上得分低的研究“更好”。

过程(Process)涉及研究的数据、方法和报告。所采用的方法和工具对于确保“可信”研究的可复制性、严谨性、有效性、可靠性和一致性至关重要。研究应是利益相关者表达诉求的“催化剂”，利益相关者应尽早参与诉求表达。用于设计、开展和监测研究的方法（策略/协议/技术）可以是“传统”/常规方法或创新方法。

影响(Impact)可以被视为研究及其成果对个人、学术和社会产生的影响。当前科学与社会之间的联系比以往更为密切，这产生了新的压力，即要求提供更多证据来证明科学如何影响以及在多大程度上影响社会。这种影响通常是通过使用计量学数据(如文章引用、期刊排名和影响因子)来衡量的。altmetrics是否以及如何用于评估研究，仍是一个颇有争议的主题。

表2至表4展示了与设计(D)、过程(P)或影响(I)相关的研究质量属性清单，共计66个与研究设计(13个)、研究过程(31个)和研究影响(22个)相关的属性。

虽然本框架有助于全面理解质量，但在实际应用于评估工作中时需要进一步的改进。特别强调的是，当针对特定的评估背景/评估目的/评估工作时，如何选取标准很重要。从这些角度来看，拟议的框架提供了质量相关标准的全面定义，但这些标准和预期的评估之间，可能存在高低不定的相关性。此外，还需要明确信息来源或证据，来支持定性或定量的分析以及对上述不同质量属性的评估。表5展示了有助于评估的信息说明。

整体过程说明

前文描述了研究设计、研究过程和研究影响，即研究质量的事前、事中和事后视角，这3个视角描述了科学研究的过程。用一个更为普遍的观点来看，科学研究被描述为6个阶段，包括以下内容：①构思，即确定进行研究的理由或动机(触发因素)及其高层次目标；②准备，即研究的定义、具体的目标和开展研究活动的计划；③执行，即研究活动的实际开展；④报告，即正式撰写研究执行的工作和取得的结果；⑤出版，即在学界/同行群体中分享研究成果；⑥传播，即成果的出版后传播及其产生的影响。

综合整个过程来看，首先，可以确定研究设计和过程之间的联系。研究的质量确实与如何将研究设计转化为适当的行动有关，即虽然定义了原始研究概念和进行了全面的研究设计，但计划活动的执行不力将阻碍研究质量。其次，研究过程和影响之间存在联系。研究的质量与研究产生影响效果的潜力有关，因此，质量取决于研究人员不断审视研究如何有助于改善现状的能力。最后，研究设计和影响之间存在联系。研究的质量取决于设计目标的实际实现，这可能取决于对研究概念和研究活动实施的有效设计。图2展示了研究设计、过程和影响之间的关联。

讨论和结论

1 主要贡献

本文构建了一个包含科学研究质量66个属性的综合框架，以及基于研究设计、过程和影响的属性分类。该框架基于对研究评估、研究质量和影响的文献的系统回顾，并结合研究政策和评估领域专家的意见进行完善。本研究旨系统化研究质量的维度，以便为实证研究、政策制定和评估提供广泛的、可推广的框架，以描述什么是研究质量，哪些是其驱动因素。

研究质量是一个复杂的概念。本文提出了一个通用的概念模型，具有一定的普适性。作为一个清单，研究者可以从中提取不同属性，组成更具针对性的评估框架，明确在不同应用情况下的优先事项，以进一步支持质量评估。

评估是一项重要社会活动，在研究领域尤其如此。关于评估制度和实践的文献十分多样，囊括了来自不同期刊和学科的数千篇文章。当今世界范围内的争论主要围绕如何为研究评估建立更综合和更可靠的指标。研究质量的概念因研究内容而异，但定义与质量相关的属性或维度的全面清单可以作为建立新评估框架的重要起点。

2 政策影响和框架的实际应用

质量框架可以为基于一组关键变量和参数的研究活动和结果分析提供支持。该框架可以为确定关键绩效以及之后的活动规划、要实现的目标和用于衡量进展的标准提供讨论基础。该框架还可用于支持更多的定量评估程序，如用于评估有特定目标的研究。

使用本框架的一种可能方法是生成一个研究概况(图表)，该图由对被评估研究中可能存在的不同特征的判断组成。这也可用于分析资助或评估制度是否对某些类型的研究存在着天然的不公平。另一个潜在用途是在事前评估和事后评估之间建立更合乎逻辑的、明确的关联，并将这些与研究人员和研究组织的活动和实践联系起来。

该框架对潜在影响的讨论还需要关注从事研究活动的个体和组织的社会责任问题。特别是，对于企业主导或企业支持的研究，应考虑企业社会责任问题。虽然本研究没有发现涉及大型组织和公司的科学研究的社会影响的文献，但当前科学与社会之间的关系越来越多地卷入讨论漩涡，这种争论能够产生新的动力促使研究者去证明许多科学研究如何产生社会影响。

3 研究展望与结语

社会对科学研究战略相关性的日益关注丰富着国家和国际研究评估制度。部分制度受全球趋势的影响，对研究质量的认知已经集中在“卓越”的概念上，成为许多评估制度的基础。本文主要目的是帮助我们理解科学研究质量的多个维度。本研究也存在着一些局限性，质量评估维度主要是一个基于文献的框架，还需要进一步的理论研究和专家分析来验证评估维度的可靠性。此外，将该框架初步应用于研究单位的样本(如研究计划或手稿)可以提供有用的反馈，以不断测试和完善框架。

虽然文献计量学整体上是正面的，但本研究未来还可以帮助确定什么是“错误”(或危险)的科学研究评估标准和指标。还可以在审查过程的前中后期优化对研究成果的编辑或同行评议。最后，质量属性框架的细化可以通过确定“优先级”来表示，并根据具体的评估内容或过程，识别高相关性、中相关性和低相关性的质量属性。

(全文及参考文献见《Sustainability》2022年第14卷第5期，原文链接：https://www.mdpi.com/2071-1050/14/5/3034，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

供稿 | 邓晨菲金潇苒王译晗

本期责编 | 宋欣雨

基地官网：http://statevalbase.fudan.edu.cn/main.htm

· end ·

别无选择：研究评估对英国学者写作实践的影响