学术成果

首页 > 科学研究 > 学术成果 > 正文

人工智能大模型价值对齐评估研究综述

发布时间:2025-09-09 来源:知网

作者:蒲泓宇1,2 贺云帆3 赵星1,4

作者单位:1. 复旦大学国家智能评价与治理实验基地;2.复旦大学发展研究院;3.复旦大学国际关系与公共事务学院;4.复旦大学大数据研究院

摘要[目的/意义]大语言模型作为生成式人工智能技术当下核心之一,其价值对齐问题已成为人工智能安全治理的重要挑战,如何评估大模型与人类价值观的对齐程度引起了学界广泛关注。本文旨在系统探讨大模型价值对齐评估的核心路径与方法,为构建安全可靠的人工智能系统提供理论支持,推动大模型的安全应用。[方法/过程] 基于有益性(Helpful)、无害性(Harmlessness)、诚实性(Honest)和可控性(Handleable)的“4H框架”,解析了价值对齐的核心指标,并系统对比了静态评估和动态评估模式。[结果/结论] 大模型价值对齐问题解决的关键一环在于合理的评估方案,学界围绕大模型价值对齐也以提出诸多对齐指标,并且形成静态评估和动态评估两类评估体系,本文进行了系统性梳理,并综合现有研究和大模型发展现状,发现未来需更多关注自动化、跨文化和多模态评估等方面的研究。

关键词:人工智能;大模型;价值对齐;评估体系;

来源期刊:图书馆建设

基金资助:国家社会科学基金重大项目“人工智能颠覆性应用的社会影响与信息治理研究”(项目编号:23&ZD224)研究成果;

专辑:信息科技

专题:自动化技术;新闻与传媒

分类号G203;TP18

在线公开时间:2025-04-10(知网平台在线公开时间,不代表文献的发表时间)

收录数据库CNKI




下一篇

多模态AI时代的图书出版一体化探析

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433