作者:蒲泓宇1,2 贺云帆3 赵星1,4
作者单位:1. 复旦大学国家智能评价与治理实验基地;2.复旦大学发展研究院;3.复旦大学国际关系与公共事务学院;4.复旦大学大数据研究院
摘要:[目的/意义]大语言模型作为生成式人工智能技术当下核心之一,其价值对齐问题已成为人工智能安全治理的重要挑战,如何评估大模型与人类价值观的对齐程度引起了学界广泛关注。本文旨在系统探讨大模型价值对齐评估的核心路径与方法,为构建安全可靠的人工智能系统提供理论支持,推动大模型的安全应用。[方法/过程] 基于有益性(Helpful)、无害性(Harmlessness)、诚实性(Honest)和可控性(Handleable)的“4H框架”,解析了价值对齐的核心指标,并系统对比了静态评估和动态评估模式。[结果/结论] 大模型价值对齐问题解决的关键一环在于合理的评估方案,学界围绕大模型价值对齐也以提出诸多对齐指标,并且形成静态评估和动态评估两类评估体系,本文进行了系统性梳理,并综合现有研究和大模型发展现状,发现未来需更多关注自动化、跨文化和多模态评估等方面的研究。
关键词:人工智能;大模型;价值对齐;评估体系;
来源期刊:图书馆建设
基金资助:国家社会科学基金重大项目“人工智能颠覆性应用的社会影响与信息治理研究”(项目编号:23&ZD224)研究成果;
专辑:信息科技
专题:自动化技术;新闻与传媒
分类号:G203;TP18
在线公开时间:2025-04-10(知网平台在线公开时间,不代表文献的发表时间)
收录数据库:CNKI