数据安全是数据要素市场活跃发展的重要基石,隐私计算作为数据要素安全领域的关键技术之一,是支撑各个行业数字化转型工作的最底层技术。
在“2023WAIC数据要素与隐私计算高峰论坛”上,复旦大学教授、上海市数据科学重点实验室主任肖仰华,就当前隐私计算面临的突出问题等课题,带来了最新的前沿思考。
肖仰华指出,大模型,尤其是生成式大模型发展起来后,对隐私带来了前所未有的挑战。本来,隐私问题还是原来的问题,比如隐私的泄露、版权的侵犯。为何现在变得比较突出?主要还是源于大模型本身是大规模参数化的。本身规模巨大,数据来源多样,所以隐私计算保护非常困难。而且生成式大模型往往是从海量的语料当中随机拼接和概率化的生成,所以传统意义上隐私侵犯的认定,在大模型时代就会失效,在侵犯的识别上比较困难。
“大模型是基于深度神经网络Transformer的架构,本质上是黑盒模型,所以到底习得了什么样的知识和能力,现在还都是一个黑盒,这对隐私保护是非常困难的。”肖仰华指出,在应用中保护用户的隐私,需要建立起系统性的防范体系。首先从用户角度来说,一定要建立起对大模型隐私的安全意识。要充分意识到在使用大模型过程当中,个人的数据有可能被服务方所收集,从而可能会泄露隐私。
其次,从提供大模型服务的厂商角度来说,应该要提升服务的规范性,要给用户充分的知情权,要在用户完全授权的情况下,在合理范围内收集用户相关的使用数据,不应该超出用户授权的范围,这是技术之外的因素。
从技术本身来说,将来可能会有一些保护的中间层,这些中间层来自于很多用户的查询或者是使用,并可以混淆、打乱信息,此时平台方就无法知道哪些用户在查哪些私密信息。传统的手段在大模型应用方面还是有一定的适用性。
隐私计算接下来如何发展?肖仰华认为,在大模型时代,隐私计算迎来了全新的机遇。在不可控、不可编辑、难以解释的大模型环境下,传统方法如何进行发展,这既是挑战,更多是机遇。
“我觉得大模型的发展要兼顾监管和发展,不能盲目发展,让大模型变成脱缰的野马,但也不能一管就死,要把握好尺度。要建立起大模型发展的安全底线、伦理标准和一些合规的规范。生成式大模型在生成过程中,对生成的内容要建立起合规的规范,比如说内容是否涉政涉黄,在敏感内容的规范方面,国家部门已经推动了相关的法规。”
此外,在他看来,大模型的合规性上,一定要从数据源头上去解决。比如训练大模型的语料数据本身有没有问题,这些数据有没有版权和隐私侵犯?所以要加强对语料术语的认证。很快就会有机构去从事相应的工作,对大模型语料的合规性加以验证。有关部门也会出台相关的法规措施,来推动语料的合规性认证和规范。
他补充,在大模型隐私保护方面,还有一条很重要的路径,即利用大模型自身能力来保护隐私。由于大模型能力很强,可以识别出语料当中哪些内容是可能侵犯隐私的,可以用来保护用户的隐私场景,利用大模型来清洗隐私问题,或者利用大模型对生成结果进行评估。即一方面解决隐私问题,另一方面也要充分利用大模型能力来解决隐私问题。
阅读原文