近日,复旦大学举行了一场特别的报告会。复旦大学国家智能评价与治理实验基地副主任、大数据研究院教授赵星,浙江大学公共管理学院信息资源管理系“百人计划”研究员蒋卓人于线上线下共话“生成式人工智能的挑战与治理”。
从2011年苹果手机首次推出的Siri语音助手,到今年包揽奥斯卡七大奖项的电影《瞬息全宇宙》,生成式人工智能早已融入人类生活。当下,ChatGPT类工具进一步引爆全球人工智能热潮,赵星和蒋卓人携手带来一场贯穿生成式人工智能前世、今生和未来的学术盛宴,解析生成式人工智能带来的多重挑战。
何为生成式人工智能?目前,生成式人工智能还没有统一的定义,一般可以理解为一种能够根据提示生成文本、图像或其他媒体信息的人工智能系统。
“这个技术不是像魔法一样凭空出现的,而是有着悠久的历史渊源。”蒋卓人强调。
1932年,法国工程师Georges Artsrouni创造了装置“mechanical brain”(机器大脑)。它通过查询多功能词典完成翻译,输入、输出都是一条纸带。蒋卓人认为,虽然它和今天的机器翻译不同,但它完全符合今天对生成式人工智能的定义,即人类输入一段内容,机器产生一段新的内容。
在20世纪中,麻省理工学院创造了最早的生成式人工智能之一Eliza,Judea Peal(朱迪亚·珀尔)引入了贝叶斯网络因果分析概念,Yann Lecun(杨立昆)等展示了如何利用卷积神经网络来识别图像……
2006年,华裔计算机科学家李飞飞着手构建数据库ImageNet。该数据库中有超过1400万张手工标注的图片,包含超过2万个类别。“正是有了这样一个庞大数据库的支撑,深度学习才能得以兴起。所以我们总说,好的科研品位,加上持续不断的努力,就能成就一段好的学术生涯。”蒋卓人评价。
ChatGPT何以成为明星产品?
1750亿参数量、3000亿训练单词数,这是ChatGPT的数据。2022年发布后,ChatGPT在短短两个月内吸引了超过1亿的用户,成为有史以来用户增长最快的应用。
蒋卓人认为,要理解ChatGPT,就要理解它的关键技术:大模型基础训练、指令微调、人类反馈强化学习。
面对生成式人工智能带来的挑战,赵星从资源、技术、应用与社会伦理四个维度进行解读。
从资源维度来看,生成式人工智能需要高质量的数据,而中文世界的数据质量弱于英文。赵星认为,即使有很强大的翻译能力,类ChatGPT工具的中文处理效果也显著弱于英文,核心的原因之一是投喂的中文数据质量较差。另外,硬件技术也是支撑我国人工智能产业高速发展的关键要素。
“当我们准备向全社会投放一种通用性工具,却不能明确它的科学原理是什么,就一定会有内生性的风险。”人工智能风险中最核心的一点在于其结果的不可承受性。“我们很少在治理问题上处于如此无力的状态,”赵星说。在应用层面上,生成式人工智能产业发展的确定性与风险治理的不确定性将长期存在。
而在社会方面,生成式人工智能不仅深陷知识产权与信息泄漏问题,或也将塑造真正的信息茧房。“当生成式人工智能24小时都伴你身边,潜移默化地,你会误认为一切都是你自己的决定。”
赵星警示,“我们面对的,是一个会在短时间内崛起,或将引起严重后果且后果未知的事物。”
“我们能否在未知的风险爆发之前找到抵抗它的办法?这是生成式人工智能内生安全治理要解决的问题。”赵星说,“我们需要在人工智能风险来临前,给人类社会点亮一个新的技能树:应对人工智能非传统安全问题的能力。”
“我们应当在每一位年轻人的成长过程中,让他们学会如何与人工智能良好共处与规避‘信息茧房’,以及如何去做一个智能社会中的‘好人’。当我们知道可能的风险是什么、产生在何处,生成式人工智能治理便有机会转化为常规性安全问题,我们就能尝试寻求到治理闭环的实现。”赵星说,“然而这仍需要理论、实践上长期的探索。”
赵星团队开始探索生成式人工智能在科学评价中的应用,创新构建了“客观数据、智能算法、专家评议”三者和谐共生的“数智人”评价与治理新范式。近期团队也在开展利用类ChatGPT工具进行智能评价系统构建的探索实验。
新民晚报记者 张炯强
原文链接