今年以来,数据开放和监管并行。
一方面,自《网络安全法》出台生效后,《数据安全法》《个人信息保护法》相继落成,为企业划定数据的合规底线;另一方面,数据的开放共享已成大势所趋,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(简称“十四五”规划)要求加强公共数据开放共享,激活数据要素潜能等。
如何合规地利用数据发展成为未来的新议题。近日,锘崴科技创始人、董事长王爽在BEYOND Expo国际科技创新博览会人工智能创新论坛上提到,回顾2021年,带有数据隐私保护的AI技术加速落地,隐私保护计算便位列其中。通过应用多种密码学和人工智能技术在数据源上的“精细加工”,隐私保护计算实现了数据使用的“可用不可见”。
王爽表示,近年来,隐私保护计算的市场规模逐渐扩大,但仍处于发展初期。未来,隐私保护计算的发展仍需打破数据孤岛,构建连接多个主体的数据生态网络。
隐私保护计算是在数据源上“精细加工”
“数据从资源转变为要素的过程中,面临着多重挑战。”王爽介绍,在将数据交予第三方处理时,一方面要防止个人隐私信息或商业机密的泄露,保障防御合规;另一方面,数据极易被复制,一旦交给第三方,可能会出现被转卖、滥用等问题,失去其作为要素的价值。
针对将原始数据交出后的隐私信息泄露问题,有人提出通过对数据进行“粗加工”,也即数据脱敏解决。然而,王爽表示,脱敏后的数据并无法完全将敏感信息去除。
去年,锘崴科技和国家癌症中心共同完成一项范围包括34个省级行政区、100多家医院、7000多万病人的研究。研究结果发现,基于国家相关指南或者国际上惯用的标准完成脱敏后的数据,依然有0.01%的病人有被可识别的风险。可见数据脱敏并不等同于《个人信息保护法》中规定的“数据匿名化”,后者要求数据经过处理后无法回溯到个体。将脱敏后的数据交付出去仍有隐私保护的风险。
此外,数据脱敏的过程还可能“损坏”原数据,导致最终成品受到影响。例如,对年龄泛化后,再据此做相关分析,可能会影响整个建模的精度。同时脱敏后的数据并没有解决数据极易被复制后的滥用和转卖等问题。
另一种方法是在数据源指定的数据处理者外“修建栏杆”,将传输入其中的数据管住,防止被盗用或转卖——这是数据沙箱模式的原理。数据使用方可以在数据源指定的安全边界内完成数据相关的计算和分析,并获得结果,以解决数据使用权、管理权、所有权的确权问题。但新难点同时浮出,王爽认为,大数据研究、AI模型构建通常需要丰富的数据维度及极大的样本量,往往找不到一个公共的沙箱让所有计算参与方都将数据放入其中。而用不同数据源构建不同沙箱进行独立计算后再通过类似荟萃分析的方式合并,将可能引入计算误差,影响整个模型的精度。
无论是数据脱敏,还是数据沙箱模式,在多中心合作的场景下都需把数据交出去做处理。“相比于前两种模式,隐私保护计算可以理解为直接在数据源上完成精细加工,将半成品交给中间工厂,后者再将这些半成品组装成为最终的产品。”王爽介绍。以计算三个企业员工的平均年龄为例,隐私保护计算并不需要每个企业将每个员工的年龄交出,只需每个企业在本地算出本企业的员工数量和年龄总和这2个参数,再将来自这三个企业的6个参数合并即可,其他复杂的模型的隐私计算范式同理。
据悉,隐私保护计算技术综合了包括联邦学习、可信计算环境、多方安全计算、同态加密等多种底层技术的综合性解决方案。
未来需构建数据生态网络
隐私保护计算对于构建未来的数据市场生态起到什么作用?
“从未来的发展趋势看,数据既要放得开,又要管得住。隐私计算技术能够赋能于数据要素化的实现,让数据所有权、使用权和管理权分离。”王爽举例,11月25日,上海数据交易所成立,首批数商单位与数据交易所完成签约,其中既有数据提供商,也包含了隐私保护计算在内的底层技术提供商等。数据交易所能够撮合多个数据主体,借由隐私保护计算可将技术节点分布在多个数据源中,形成一张数据网络,根据需求输出结果,从而使数据能够反复创造价值,实现数据交易。
近年来,我国隐私保护计算市场规模逐渐扩大。据智研咨询发布的《2021-2027年中国隐私计算行业市场深度分析及投资前景趋势报告》,早在2012年隐私计算初创企业数量就呈增长趋势,至2020年,隐私保护计算初创企业已达71家,同比增长33.96%。
在王爽看来,目前隐私保护计算尚处于发展初期。“大多企业都在致力于通过隐私保护计算去搭建数据的网络,但光有技术并不足。”他表示,数据生态网络的构建需打破数据孤岛,协调多个数据源部署隐私计算的节点。未来,需要在各行各业建设类似于大数据中心的角色,协调连接多个数据源。
“以政务数据为例,其开放利用不仅需要顶层政策的支持,如“十四五”规划中强调政务数据开放,还需要各省或市的大数据中心统筹政务数据的协调整合,而隐私计算企业则可为其提供底层技术平台,实现数据价值的可信转化。”王爽说。
来源:21世纪经济报道 21财经