人工智能大模型价值对齐评估研究综述-国家智能评价与治理实验基地

人工智能大模型价值对齐评估研究综述

发布时间：2025-09-09 来源：知网

作者：蒲泓宇^1,2 贺云帆³ 赵星^1,4

作者单位：1. 复旦大学国家智能评价与治理实验基地；2.复旦大学发展研究院；3.复旦大学国际关系与公共事务学院；4.复旦大学大数据研究院

摘要：[目的/意义]大语言模型作为生成式人工智能技术当下核心之一，其价值对齐问题已成为人工智能安全治理的重要挑战，如何评估大模型与人类价值观的对齐程度引起了学界广泛关注。本文旨在系统探讨大模型价值对齐评估的核心路径与方法，为构建安全可靠的人工智能系统提供理论支持，推动大模型的安全应用。[方法/过程] 基于有益性（Helpful）、无害性（Harmlessness）、诚实性（Honest）和可控性（Handleable）的“4H框架”，解析了价值对齐的核心指标，并系统对比了静态评估和动态评估模式。[结果/结论] 大模型价值对齐问题解决的关键一环在于合理的评估方案，学界围绕大模型价值对齐也以提出诸多对齐指标，并且形成静态评估和动态评估两类评估体系，本文进行了系统性梳理，并综合现有研究和大模型发展现状，发现未来需更多关注自动化、跨文化和多模态评估等方面的研究。

关键词：人工智能;大模型;价值对齐;评估体系；

来源期刊：图书馆建设

基金资助：国家社会科学基金重大项目“人工智能颠覆性应用的社会影响与信息治理研究”（项目编号：23&ZD224）研究成果；

专辑：信息科技

专题：自动化技术;新闻与传媒

分类号：G203;TP18

在线公开时间：2025-04-10（知网平台在线公开时间，不代表文献的发表时间）

收录数据库：CNKI

多模态AI时代的图书出版一体化探析