隐私计算研究进展、现状及趋势

中标 | 305万，光大银行基于联邦学习的方法研究与模型建设项目

2023-02-24

干货 | 基于全同态加密的高安全性隐匿信息查询(PIR)工程实践

2023-02-24

今天为大家分享李凤华、李晖、邱卫东、牛犇、邹德清等编写的“隐私计算研究进展、现状及趋势”，收录在《中国信息处理发展报告（2021）》中。

一个新的理论从创立到得到社会各界认可，往往需要较长的时间，克服各种困难，不断迭代演进，逐步发展完善，隐私计算还需要做大量的理论和技术探索研究。根据大数据安全和隐私计算技术的发展，中国中文信息学会大数据安全和隐私计算专业委员会 2018 年因势而成立，隐私计算是本专委会致力于推动的重要学术工作。经过几年来隐私计算的研究与发展，隐私计算得到学术界和产业界的认同，因此本专委会（李凤华、李晖、邱卫东、牛犇、邹德清等）从 2021 年开始撰写隐私计算研究进展报告。

12.1.研究背景与意义

随着通信技术、网络技术和计算技术的持续演进和广泛应用，形成了包含因特网、移动互联网、物联网、卫星通信网、卫星互联网、天地一体化网络等异构网络的泛在互联环境。泛在互联环境具有开放性、异构性、移动性、动态性等特性，并与边缘计算、云计算等技术深度融合。在性能越来越强的智能终端支持下，泛在互联环境能够提供不同层次的多样化和个性化的信息服务，实现了“万物互联、智慧互通”，极大地推动人类社会发展，对社会、政治、经济、文化等领域有重要战略意义。在泛在互联环境下，信息广泛传播，呈爆炸式增长，电商、物流、支付、导航、社交等信息服务新业态不断涌现，大型互联网公司在服务用户的过程中通过采集、存留、交换、衍生等手段积累了海量数据，数据频繁跨境、跨系统、跨生态圈交互在信息服务的推动下成为常态，如图 1 所示。这些加大了隐私信息在不同信息系统中有意或无意留存的可能性，隐私信息保护短板效应、隐私侵权追踪溯源难等问题也随之而来，个人信息保护面临的问题与日俱增。

针对上述问题，各国政府部门展现出高度重视的姿态。例如，欧盟颁布的《通用数据保护条例》（General Data Protection Regulation，GDPR）强化了对被遗忘权、删除权的要求；我国颁布的《中华人民共和国民法典》将隐私保护纳入法律规定；中央网信办、工业和信息化部、公安部、市场监管总局四部门联合发布《关于开展App违法违规收集使用个人信息专项治理的公告》规范个人信息采集；2021 年 11 月 1 日，《中华人民共和国个人信息保护法》生效实施，明确了个人具备对个人信息处理的知情权、删除权等，个人信息的权益保障已成为国家战略。个人信息保护面临的诸多具体问题包括：缺乏体系化标准规范与指引，App过度采集个人信息，后台隐私数据越权使用与个人画像，个人信息过度留存，生态圈之间信息共享缺乏延伸控制和迭代按需脱敏，多副本留存和保护短板效应凸显，删除权无法保障，数据交易和流动缺少有效监管手段，数据利用、脱敏、删除的合规评测缺少技术支撑等等。为解决这些问题，学者们针对某一环节的不同应用场景提出了诸多解决方案，这些方案虽能在特定应用场景、特定假设条件下解决特定的隐私信息泄露问题，但在面对“万物互联”场景下尚未提供体系化的保护能力。个人信息保护的核心是隐私保护，隐私保护的根本问题是需要体系化的理论和关键技术以实现全生命周期的隐私信息管控，隐私信息管控的核心技术是个人敏感信息的分类分级和延伸控制，并在此基础上实现个人信息使用的知情权、脱敏、删除权/被遗忘权、流转管控和监管五位一体，迫切需要体系化、完善的隐私计算理论。

12.2.隐私计算内涵与研究范畴

12.2.1. 相关领域的学术内涵

与隐私计算相关领域的概念内涵，目前学者有不同的理解，为了促进隐私计算的健康发展，本报告首先对相关概念内涵进行简要说明。

【1】个人信息与隐私信息：个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息，包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。隐私信息是指个人信息中的敏感信息，是不想被非授权人知道的信息，是个人信息记录中的标识符、准标识符和敏感属性的集合。隐私反映了标识符、准标识符和敏感属性的关联关系。

【2】隐私泄露与隐私保护：隐私泄露分为两种情况，一是在有边界信息系统内隐私信息被非授权访问造成的泄露，二是在信息交换过程中未脱敏或脱敏强度没有达到要求而造成的泄露；对应的隐私保护也分为两种情况，一是保障信息不受损失前提下隐私不被非授权者获取及处理，我们称之为隐私防护；二是在隐私交换与处理过程中信息接收者得到隐私的信息量要小于信息发送方的同一隐私的信息量，使接收方不能完全获知发送方的真实信息，我们称为隐私脱敏。例如，去标识化使敏感信息与信息主体失去关联，也是信息量损失的形式之一。

【3】数据安全：主要指保证数据的机密性、完整性、不可否认性等，保证被保护的数据具有可恢复性，即信息的无损性。大多使用密码学、访问控制等方面的技术实施。

【4】密码学：主要研究范畴是保护信息的机密性、完整性和不可否认性的理论及应用技术。机密性的本质是信息没有损失，在共享范围内所有人得到的内容是相同的，主要用于防止在知悉范围之外的人获得被保护的信息；机密性的研究范畴是面向数据安全、传输安全等场景，并不特定针对隐私保护，在特定场景下可用于隐私防护。完整性是防止信息被篡改，其研究内涵与隐私保护没有任何关系。不可否认性可用于确定数据来源、交易等场景的真实性，还可用于隐私全生命保护过程中的审计取证。

【5】访问控制：主要用于控制信息知悉范围，即确认主体访问客体的权限，不涉及信息内容的变更，但可决定主体访问信息的全部或部分。传统上用于数据保护，在泛在互联环境下也可作为一种知悉范围的控制机制，可在同一授权体系内用于隐私防护，但当信息离开该授权体系时不能提供延伸的访问控制。

【6】可信计算：通过可信基、可信执行环境、信任传递机制等构建可信系统，核心是保障计算环境的可信性和数据在计算过程中不被篡改。可信计算的本质是在可信系统范围内提供数据安全，当数据离开可信环境将无法保证数据安全。从隐私防护的角度，可信计算仅为隐私数据处理提供一个可信赖的计算环境。

【7】机密计算：在受信任的硬件执行环境基础上构建安全区域，所有参与方将需要参与运算的明文数据加密传输至该安全区域内并完成运算，安全区域外部的任何非授权的用户和代码都无法获取或者篡改安全区域内的任何数据。机密计算过程中的元数据不被计算参与方所获取，主要用于云计算场景下计算结果以明文或者机密性保护的方式交换。机密计算可在可信硬件执行环境下实现隐私防护，但当数据离开可信硬件执行环境时无能为力，仅适用于云计算等特定场景下的隐私防护。

【8】密文计算：是指计算过程中的数据不被计算参与方所获取，主要用于外包计算场景。同态加密是密文计算的代表性技术，是在事先确定转换规则的前提下，所有参与运算的明文数据使用该规则转换为密文，在密文空间中进行特定形式的代数运算并得到结果，密文运算的结果再通过相应的转换规则转换为明文运算结果，该结果与明文运算结果一致。本质上密文计算参与运算的明文及明文结果都没有信息损失，因此密文计算仅可用于计算过程中的隐私防护。

【9】安全多方计算：在事先确定参与方数目范围及交互协议的前提下，所有参与方以密文形式交互参与运算的信息并完成预先约定的运算任务，所有参与方都能得到运算结果的明文，但不能得到相互交互参与运算的明文信息。安全多方计算是无中心的计算架构，在有恶意参与者的情况下，诚实参与者仍能得到正确的结果，并且不泄露敏感信息。现阶段参与方的数目一般是两方和三方比较常见。秘密共享和不经意传输协议是构造安全多方计算协议的重要机制。本质上安全多方计算没有信息损失，适合于参与方较少场景下的隐私防护，但不适合于参与方高动态变化场景下的隐私防护。

【10】可算不可识：在 AI 和大数据应用中通常需要使用大量数据，但并不关心某个人的具体信息，可算不可识的目标是去标识化，原始数据不受损失，也不对敏感属性进行脱敏，因此可算不可识是隐私计算的一种应用需求，但并不能代替隐私计算。

【11】可用不可见：指泛在互联环境下用户可以得到数据计算的结果，但不能获取原始数据。可使用机密计算、密文计算、安全多方计算、“数据不动程序动”等技术或机制实现，属于数据安全的应用需求，而原始数据不出域是访问控制的研究范畴，可用于隐私防护。

【12】联邦学习：是多方利用自身拥有数据完成机器学习模型训练的一种分布式架构，合作方之间交换训练中间结果和模型参数，而不交换数据本身，自然而然减少了数据泄露，联邦学习的中间结果也会泄露数据的部分信息。因此，联邦学习是 AI 训练模型的一种模式，对隐私保护而言它仅是一种应用场景。

【13】隐私增强计算：Gartner 发布的 2021年前沿科技战略趋势[1]中提到了隐私增强计算，但我们认为其命名并不妥当，隐私保护的根本目的是不能让隐私本身增强，但“隐私增强计算（Privacy Enhancing Computation）”的中英文词义顾名思义应理解为隐私的增强计算技术，相应地应属于挖掘隐私信息的技术领域，即使隐私特征信息更加凸显出来。我们认为，若要表达用于隐私保护的技术，建议称为“隐私降低计算（Privacy ReducingComputation ）” 或 “ 隐私保护能力增强（ Capability Enhancing for PrivacyPreservation）”的计算技术才更为恰当。

综上，我们梳理隐私、个人信息、数据、数据安全、隐私防护和隐私脱敏等概念之间的关系，如图 2 所示。其中，安全多方计算、同态加密、可信计算、密文计算、访问控制等技术是属于数据安全范畴，也可用于隐私防护，仅适用于特定知悉范围内没有信息损失的敏感信息保护。隐私脱敏是面向泛在互联环境下隐私信息泛在共享的隐私保护需求，是按照隐私保护的需求对隐私信息进行适当的损失以保护个人权益。隐私计算是针对泛在互联环境下隐私信息共享的全生命周期隐私保护和管控的理论和方法。

12.2.2.隐私计算内涵

12.2.2.1.隐私计算的定义

隐私计算的核心思想是支撑隐私信息的感知量化，建立隐私信息操作过程中的可计算模型，刻画隐私操作组合时隐私分量的量化演变规则、隐私保护算法能力评估、保护效果量化、隐私传播控制及其相互之间的映射关系，确定不同约束下能达到的最优隐私保护效果以及实现最优效果的隐私保护算法及其组合。隐私计算的最终目标是隐私保护的自动化执行，构建支持海量用户、高并发、高效能隐私保护的系统设计理论与架构，实现不同算法之间的有效组合。隐私计算的定义为[2]：隐私计算是面向隐私信息全生命周期保护的计算理论和方法，是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时，对所涉及的隐私信息进行描述、度量、评价和融合等操作，形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术，支持多系统融合的隐私信息保护。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作，并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。隐私计算是泛在互联环境下隐私信息保护的重要理论基础。

12.2.2.2.隐私信息的形式化描述

信息 M 可以是文本、图像、语音、视频等一种模态数据或者几种模态数据的混合数据。信息 M 中包含的隐私信息 X 用六元组表示，其中I代表隐私信息向量，其分量表示信息 M 中语义上含有信息量的、不可分割的、彼此互不相交的原子隐私信息；A 代表隐私属性向量，其分量表示隐私属性分量，用于量化隐私信息分量及分量组合的敏感度。在实际应用时，不同场景下的不同隐私信息分量可进行加权动态组合，这些组合会产生新的隐私信息，将不同隐私信息分量组合的隐私信息敏感度也作为扩展的隐私属性分量，因此隐私属性分量的数目多于隐私信息分量的数目；Γ代表广义定位信息集合，表示隐私信息分量在信息 M 中的位置信息及属性信息，可对隐私信息分量快速定位； Ω代表审计控制信息集合，表示隐私信息分量在传播过程中一个具体的审计控制向量，用于记录隐私信息分量在流转过程中的主客体信息和被执行的操作记录，当发生隐私信息泄露时，可进行追踪溯源。Θ代表约束条件集合，表示隐私信息分量对应的约束条件向量，用于描述在不同场景下实体访问对应隐私信息分量所需的访问权限；Ψ代表传播控制操作集合，用于描述隐私信息分量及其组合可被执行的操作，例如复制、粘贴、转发、剪切、修改、删除等操作，这些操作不破坏I的原子性。

12.2.3.隐私计算研究范畴

12.2.3.1.隐私计算关键技术环节

为了能够自动地对不同场景、不同类型的隐私信息进行差异化保护，需要构建出清晰的、软硬件高效实现的隐私计算框架，包括隐私信息的感知、隐私化、存储、融合、交换和销毁等关键技术环节。隐私计算所涵盖的 6 个环节的关系如图 3 所示，可指导隐私信息保护系统的实现。

【1】感知：在感知环节主要关注隐私描述规约、隐私分量判定、分类与分级量化。在隐私描述与规约机制方面，需要解决隐私元数据提取、隐私标记和编码、隐私的描述、隐私信息变化过程、推理规则等；在隐私分量判定、分类分级量化方面，在给定一个或多个数据文档的情况下，判定是否存在隐私，以及隐私分量的量化度量。所设计的隐私计算模型需要具备对主体、时间、空间三维演化的刻画能力。

【2】隐私化：隐私化环节主要关注脱敏机制、算法保护能力的评价理论和方法等问题。在脱敏机制方面，研究如何构造适用于隐私保护、与传统数据加解密不同的脱敏操作，k-匿名、混淆、泛化、抑制、解耦、加扰、差分隐私等都可作为大规模隐私保护信息系统的局部组件；在算法评价理论和方法方面，需综合判定和评价所选用的隐私保护算法是否满足相应的保护需求、是否具备对抗关联分析能力等方面要素，并给出相应的评价标准理论和方法。

【3】隐私信息存储：存储环节主要关注同质隐私信息去冗、隐私感知的混合数据分割存储、单副本的多用户完整性校验等问题，支持远程访问和细粒度访问的新型访问控制机制、局部数据修改和群修改的新型访问控制机制，以支撑隐私保护删除权、被遗忘权的落地实现。

【4】隐私信息融合：融合环节主要关注隐私信息匹配、隐私信息变换和隐私属性衍生、约束条件映射、隐私操作和隐私保护方案的自适应选择等问题。

【5】隐私信息交换：交换环节主要关注延伸访问控制机制、隐私动态调整、隐私侵权行为的判定和溯源取证等问题，通过延伸授权解决二次分发问题。

【6】隐私信息销毁：销毁环节主要关注删除指令通知机制、隐私信息的确定性完备删除等问题。确定性删除需保证隐私化后的信息不能去隐私化，且在接收到用户要求删除指令或者与用户约定信息存储到期后自动删除。建立通知消息机制和一套通知关联系统，通知其他隐私信息控制者和处理者删除隐私信息，释放存储空间。

12.2.3.2.隐私计算框架

隐私计算框架是在隐私信息全生命周期的各个环节中建立应用场景、保护需求与计算模型之间的映射关系。基于场景描述和保护需求，适应性地选择相应环节的计算方法实现相应的计算功能。从全生命周期的角度出发，隐私计算框架如图 4 所示。

该框架面向任意格式的明文信息 M，具体包括以下 5 个步骤。

【1】隐私信息抽取：根据明文信息 M 的格式、语义等，抽取隐私信息并得到隐私信息向量 I 。

【2】场景抽象：根据 I 中各隐私信息分量的类型、语义等，对应用场景进行定义与抽象。

【3】隐私操作选取：选取各隐私信息分量所支持的隐私操作，并生成传播控制操作集合。

【4】隐私保护方案设计/选取：根据需求选择/设计合适的隐私保护方案。如有可用且适合的方案及参数，则直接选择；如无，则重新设计。

【5】隐私保护效果评估：根据相关评价准则，使用基于熵或基于失真的隐私度量来评估所选择的隐私保护方案的隐私保护效果。

12.2.3.3.隐私信息系统框架

隐私信息系统框架包括语义提取、场景抽象、隐私信息变换、隐私信息融合、隐私操作选取、隐私保护方案设计/选取、隐私保护效果评估等环节，隐私信息系统框架如图 5 所示。

12.3. 隐私计算主要研究进展

12.3.1. 隐私计算理论的研究进展

12.3.1.1.隐私计算理论的提出

2015 年 12 月初，在北京首农香山国际会议中心讨论隐私保护相关技术时，中国科学院信息工程研究所李凤华研究员在国内外首次提出将隐私保护相关研究上升到理论体系，强调隐私保护是一种应用需求，而隐私计算才能代表一个理论体系，为了进一步明确隐私计算的内涵，李凤华给出了 2.2.1 节所述的隐私计算定义，并于 2016 年 4 月，联合李晖、贾焰、俞能海、翁健教授[2]在《通信学报》发表“隐私计算研究范畴及发展趋势”，正式发布了隐私计算的概念、学术内涵和研究范畴。同年，该论文被列入由中国密码学会组编的《中国密码学发展报告(2016-2017)》的 4 项年度成果之一。

12.3.1.2.隐私计算理论研究的深入

2019 年 3 月，李凤华、李晖等人[3]在中国工程院院刊《Engineering》上发表了“Privacy Computing: Concept, Computing Framework, and Future Development Trends”，从信息采集、存储、处理、发布（含交换）、销毁等全生命周期的各个环节角度出发，阐明了现有常见应用场景下隐私保护算法的局限性，提出了隐私计算理论及关键技术体系，其核心内容包括：隐私计算框架、隐私计算形式化定义、隐私计算应遵循的四个原则、算法设计准则、隐私保护效果评估、隐私计算语言等内容，并以四个应用场景为示例描述了隐私计算的普适性应用。2021 年 4 月，李凤华、李晖、牛犇[4]撰写了隐私计算方面的首部学术专著《隐私计算理论与技术》，并由人民邮电出版社正式出版发行。该专著针对泛在互联环境下的体系化隐私保护需求，高度凝练并系统介绍了隐私计算研究范畴、理论及其关键技术，并深入浅出地阐述了为什么要研究隐私计算、什么是真正的隐私计算、如何研究隐私计算、隐私计算成果如何落地，以及隐私计算如何演化发展。隐私计算得到了学术界的共识和认可，隐私计算研究被列入“十四五”国家重点研发计划“网络空间安全治理”重点专项 2021 年度项目申报指南的基础前沿技术类。

12.3.2.隐私计算技术的研究进展

12.3.2.1.隐私感知与度量

【1】隐私信息智能感知：隐私信息的智能感知是针对多模态数据形成隐私信息描述中的隐私信息分量，针对不同类型的数据需要使用相应的方法和工具。例如，针对文本数据，可以使用自然语言处理方法将文本分割为最小粒度；针对图像数据，可以采用图像理解算法识别图像数据中包含的语义。在此基础上，基于隐私智能感知算法，识别其中包含的隐私信息分量。隐私信息的智能感知可以通过预先构建的隐私识别模板或者隐私知识图谱匹配来实现。要保证隐私信息感知的准确率，则需要重点研究隐私知识图谱。因此隐私信息感知更多的是借鉴自然语言处理、图像理解、知识图谱等方面的研究成果。

【2】分类分级：在数据分级分类与隐私信息识别方面，2004 年 NIST 发布了《FIPS 199 联邦信息和信息系统的安全分类标准》，从信息的机密性、完整性和可用性三个角度进行低、中、高三个等级的评定。2015 年，NIST 发布了 SP 1500-2《NIST 大数据互操作性框架：第二卷，大数据分类法》，提出了基于大数据参考架构（NBDRA）的角色样本分类体系，将每个元素分解成多个部分，提供了特定粒度数据对象的描述以及属性、特征和子特征。在国内，与个人敏感信息相关的分类分级标准包括：GB/T 37964-2019 《信息安全技术个人信息去标识化指南》、GB/T 35273-2020《信息安全技术个人信息安全规范》、JR/T 0171-2020《个人金融信息保护技术规范》、GB/T 38667-2020 《信息技术大数据数据分类指南》颁布实施；《信息安全技术个人信息安全影响评估指南》《信息安全技术个人信息安全工程指南》展开编制；GB/T 37988-2019 《信息安全技术数据安全能力成熟度模型》颁布实施，为数据安全能力的评估提供标准。

【3】敏感信息识别：李凤华等人[5]针对社交网络照片分享场景提出了一种照片隐私感知的方案SRIM（Social Relation Impression-Management）。照片中含有用户身份、位置、关系等隐私信息，分享照片可能会造成隐私泄露。SRIM 利用关系印象评估算法评估欲展示图片中的社交关系，并根据历史信息将图片接收者划分为推荐和不推荐展示两个类别,该方法不仅可以防止用户社交关系隐私信息的泄露，还可以自动推荐合适的图片分享策略。

基于分类分级标准，国内外已有部分厂商尝试利用自动化方法识别敏感数据。Amazon 公司发布了 Macie 通过机器学习和模式匹配识别 AWS 中的敏感数据。深信服智能数据分类分级平台引入了人工智能与机器学习算法，实现对数据进行多维度元数据特征向量自动提取，对相似字段数据进行聚合归类；华为云数据安全中心支持敏感数据快速识别。

12.3.2.2.隐私脱敏算法

隐私脱敏算法是隐私计算框架中按需脱敏的重要环节。当前隐私脱敏算法理论主要有针对标识符的匿名化技术和差分隐私技术。

12.3.2.2.1. 匿名化脱敏技术

在发布数据时如果不加保护的发布原始数据，会导致严重的隐私信息泄露问题。数据记录的属性一般分为三类：显式标识符属性、准标识符（Quasi-Identifier， QI）属性、敏感属性。显式标识符属性可唯一标识单一自然人的属性，如身份证号码、姓名等；准标识符属性联合起来能唯一标识一个自然人的多个属性，如邮编、生日、性别等属性联合起来可能构成准标识符；敏感属性包含自然人隐私数据的属性，如健康状况、薪酬、兴趣爱好等。匿名化脱敏的目标是设法阻止每条记录中的敏感属性与显式标识属性相链接，避免个体的敏感属性值的泄露，同时要保留敏感属性的值，以供数据的使用者对进行数据挖掘和统计分析。典型的匿名化脱敏方法包括：

【1】泛化：将某一属性值用更一般的属性值来替代。聚类是一种特殊的泛化，它将表中的 n 条记录划分至 m 个不同聚类，每个聚类中的点数不少于 k 个。

【2】数据扰动：通过加噪、数据置换、人工数据合成等方法对原始数据进行一定的修改，但保留原始数据的统计信息。加噪用于数值型隐私数据；数据置换是指交换记录的隐私属性值；人工数据合成即依据现有数据构建一个统计模型，然后从模型中抽样来构造合成数据以代替原始数据。

【3】抑制：用特殊符号代替现有属性以使得现有属性值更为模糊的匿名方法，如将手机号码写作 159****9468 以实现匿名。

【4】去耦：其不改变准标识符属性值和隐私属性值，而是将两者分开至两个独立的表中，这样，虽然数据不发生改变，但原有数据挖掘方法将不再适用。

【5】k-匿名[6]：由 Latanya Sweeney和

Pierangela Samarati在1998提出，它通过混淆数据的准标识符属性，可以在保证数据的实际可用性的条件下，保证其中的个体身份不会被恢复出来。因为k-匿名中不包含任何的随机化属性，其容易遭受背景知识攻击和同质攻击。同质攻击指如果一个匿名后等价类的所有个体的敏感属性都相同，如果攻击者知道某个用户在这个等价类中，就能推断出该用户的敏感属性。

【6】l-多样性：针对 k-匿名的同质攻击，Machanavajjhala 等人[7]在 2007 提出了一个改进的方案 l-多样性，使一个等价类中最少有 l个不同的敏感属性值。但是，l-多样性也并不能完全的保护用户隐私不被泄露，因为其只保证了多样性，忽略了属性值上语义相近的情况。例如等价类中不同的敏感属性值为胃炎、胃溃疡、胃癌等，那么至少可以知道数据的主体患有胃病。另外，针对 l -多样的偏义攻击也可能引起隐私泄露。

比如，一个新冠肺炎疾病信息的数据集中某一等价类内包含阳性和阴性人数各占 50%，从而满足 2-多样性，但我们知道正常数据集整体抗体阳性和阴性比例分别占 1%和 99%。这样若知道某个个体在这个等价类中，其有 50%的概率阳性，事实上已经发生了隐私泄露。

【7】t-邻近性：Li Ninghui 等人[8]在提出的 t -邻近方案弥补了 l-多样性， t -邻近指一个等价类中的属性分布和整个表中的属性分布之间的距离不超过门限 t。如果一个数据表中的每个等价类都满足 t-邻近，则称这个数据表满足 t -邻近。

12.3.2.2.2. 差分隐私脱敏技术

Dwork 等人[9]提出的差分隐私模型来自于密码学中语义安全的概念，即攻击者无法区分出不同明文的加密结果。差分隐私模型不需要依赖于攻击者所拥有多少背景知识，而且对隐私信息提供了更高级别的语义安全。李凤华等人[3]提出了基于差分的通用脱敏算法设计准则，包含以下步骤：

预处理:

在差分隐私保护算法中, 记隐私信息为 , 根据、约束条件集合和传播控制操作集合 , 生成对应的隐私信息向量集合 , 分析的分布特征 , 确定的取值空间或者取值集合 Ran。根据定义在上的统计查询函数 , 确定查询次数的期望值和查询结果的社会经验值 , 得到添加的噪声取值空间或取值集合 , 并计算统计查询函数的敏感度。对于一个定义在的子集上的统计查询函数 , 其敏感度定义为

其中, 为任意两个相差最多一个元素的集合, 称为相邻集合, 且为整数。

算法框架:

基于预处理结果, 充分考虑隐私保护复杂度、隐私保护效果等要素, 将差分隐私机制的数学定义表示为

其中, 表示扩展的隐私预算, 其中为常数, 与噪声分布相关, 与查询次数期望值相关, 与查询结果社会经验值相关; 为修正参数, 用来放宽条件使算法满足差分隐私定义;

是一对相邻集合; 为一个随机化算法。差分隐私保护算法框架为

While Do Alg

其中, Noise (.) 为噪声函数集, 产生的噪声满足条件; 为产生噪声的期望; 为尺度参数函数, 控制噪声分布的范围; 为指数机制中的效用函数, 控制数据经过加噪后输出某种结果的概率预期。根据应用场景和信息类别, 选择具体的噪声分布和算法参数。可以选择满足拉普拉斯分布Lap 的噪声来实现差分隐私保护, 称为拉普拉斯机制。如果噪声选择高斯分布 , 则称为高斯机制。针对非数值型数据, 可以采用指数机制和网络机制。

算法参数设计:

根据用户对隐私保护强度和可用性的应用需求, 并结合隐私信息向量的取值范围 Ran 、查询次数的期望值等要素, 确定噪声分布的具体参数取值。其中, 与输出结果的均值需求有关; 与、数据集敏感度、噪声取值空间或取值集合等有关, 即与、查询结果的社会经验值有关, 即。

算法组合:

差分隐私机制具有如下组合特性。

(1) 后处理性质 (Post-Processing Property): 如果满足则对于任意的算法 (可能是随机的) , 组合后的算法也满足 -DP 。

(2) 顺序组合性质 (Sequential Composition): 如果满足 -DP , 并且对于任意的 , 满足 -DP , 则满足。

(3) 平行组合性质 (Parallel Composition): 如果

是个满足的算法, 是个不相交的数据集, 则

满足 -DP 。

当使用差分隐私保护算法对不同数据集的多种查询统计进行保护时, 可以利用上述 3 种性质对算法的不同步骤进行组合。

算法复杂度和效能分析:

差分隐私保护算法是将噪声与隐私信息相加, 因此复杂度主要取决于噪声的生成, 隐私保护效果也取决于噪声的大小。这些均与数据集特征、数据集敏感度计算等噪声生成的参数相关, 可由算法 Alg 的复杂度 , 和算法 Alg 的隐私保护效果

来刻画。

12.3.2.2.3. 本地化差分隐私机制

本地化差分隐私使得用户可以在上传数据前, 先在本地扰动自己的数据, 这样就可以保证不可信的服务器无法准确的获得用户的隐私数据。直观上来说, 本地化差分隐私提供了一种保证, 对于任意一对用户的输入, 经过本地化差分隐私算法处理后可以达到一定程度的不可区分。2003 年 Evfimievski 等人给出了本地化差分的概念, 2008 年 Kasiviswanathan 等人给出了严格的定义如下: 对于一个随机算法 , 如果对于任意的一对用户输入和 , 算法满足:

其中Range 表示算法可能的输出集合, 则称算法满足 -本地化差分隐私, 其中参数为隐私保护预算。

本地化差分隐私常用于进行特定的统计分析任务。Random Response (RR) 机制是本地化差分隐私典型方法, 下面是其在频率估计上的应用示例。该机制的扰动方法如下。

其中是用户所有可能的输入的个数。

经过扰动之后, 用户将扰动后的结果上传给不可信的服务器, 服务器通过计算统计量

来得到对第个项目的频率。其中, 表示第个用户的上传数据, 为指示函数。Support 表示用户用机制扰动并上传的数据中, 可以对计数第个项目的频率有贡献的数据。在机制中, 。统计量为第个项目频率的无偏估计, 同时, 该方案的方差为 , 其中, 为用户个数。可以看出, 该方差随着输入空间大小的增大而增大, 因此当输入空间很大时, Random Response 机制的可用性会有明显下降。

12.3.2.3.隐私保护效果评估

隐私保护效果评估是支撑信息发布、统计查询和数据交换的决策依据，也是自动化选择隐私保护算法的基础。在大型隐私保护系统中，算法的保护效果评估可以支撑根据系统要求自适应动态替换算法，同时保持系统框架的相对稳定。隐私计算所需要的隐私保护效果评估是效果评估与算法保护能力量化、隐私信息感知量化间匹配或映射关系的联动研究。李凤华等人[3]提出了从可逆性、延伸控制性、偏差性、复杂性和信息损失性 5 个维度对隐私保护效果建立综合的评估体系。

【1】可逆性: 指隐私保护算法执行前后隐私信息的被还原能力, 具体是指攻击者/第三方从所观测到的隐私信息分量推断出隐私信息分量的能力。若攻击者/第三方能准确推断出 , 则具备可逆性, 否则不具备可逆性。

【2】延伸控制性: 指跨系统交换过程中接收方的隐私信息保护效果与发送方的保护要求的匹配程度, 具体是指隐私信息从系统转到系统后, 其在系统中的隐私属性分量与在系统中的隐私属性分量的偏差。对任意 , 在不同系统中, 若 , 则说明延伸控制性良好, 否则延伸控制性有偏差。例如, 用户 Alice、Bob、Charles 互为朋友, Alice 在微信朋友圈中发布的一条隐私信息, 设置了允许 Bob 看, 不允许 Charles 看, 但 Bob 将该信息转发至其新浪微博, 且末设置访问权限限制, 此时 Charles 就会看到。在该情况下, 用户 Alice 对该条隐私信息在新浪微博中的访问控制权限与其在微信朋友圈中的访问控制权限就不匹配。

【3】偏差性: 指隐私保护算法执行前后隐私信息分量和隐私保护后发布攻击者或第三方可观测到的隐私信息分量之间的偏差。例如, 位置隐私保护中, 用户真实所处位置与位置隐私保护算法 (位置偏移算法) 执行后的位置之间的物理距离为。

【4】复杂性: 指执行隐私保护算法所需要的代价, 即隐私保护复杂性代价。例如, 对特定向量进行置换操作 (如用*替代特定关键字) 所需消耗的计算资源小于进行 -匿名操作所需的计算资源。

【5】信息损失性: 指信息被扰乱、混淆等不可逆的隐私保护算法作用后, 对信息拥有者来说缺失了一定的可用性。例如, 在位置隐私当中, 当用户不进行 -匿名时, 用户向服务器发送真实的地址, 服务器会返回精确的推送信息; 但当用户采取 -匿名后, 服务器会返回对用户来说粗粒度的推送信息, 不可用的结果比例增加, 造成了一定的信息可用性损失。

12.3.2.4.隐私延伸控制

为隐私计算的重要内容之一，隐私延伸控制深度影响着当前和未来泛在互联环境下的隐私保护。李凤华等人[14, 15]针对单系统和跨系统图片隐私延伸控制的典型场景提出隐私延伸控制的方案

12.3.2.4.1. 单系统图片隐私延伸控制

人们日常分享的图片中经常会涉及一些朋友和路人的信息，他们可能并不希望自己被展示给未经授权的接收者。现有的图片隐私保护方案大多存在以下问题：一是图片分享中的访问控制方案大多要求图片参与者对每张图片设置策略，导致用户设置策略的时间成本极高；二是图片隐私策略推荐方案大多基于半自动的标签传播算法或图片分类算法，在训练样本过少或增加新的隐私类别时，准确率不高。李凤华等人[14]提出了一种针对图片的用户隐私保护策略生成方法 HideMe，可支撑单一系统中图片分享的延伸控制。用户可以利用丰富的内容要素构建客观场景，再通过一个基于图片场景信息的访问控制模型保护用户的隐私。

12.3.2.4.2. 跨系统交换的图片隐私延伸控制

为实现在社交网络中的朋友互动，用户的隐私图片在多信息系统、多边界之间广泛动态流转已成常态。然而，一旦用户将图片上传到社交网络平台，便失去了对上传图片的控制。传统的访问控制的方法大多关注单一系统，难以应用到跨社交网络的转发场景中；基于加密的图片隐私保护方法较少考虑访问控制策略，访问者能否完全依赖访问者是否拥有密钥；由于图片本身的复杂性和展示问题，传统的策略粘贴方法并不能直接运用到图片分享中。另一方面，追踪溯源方法大多将隐私信息与溯源记录分开存储，当隐私信息离开信息系统后，无法对隐私侵权行为进行判断。李凤华等人[15]提出了一种跨系统交互的隐私图片分享框架 PrivacyJPEG。从图片传播的角度出发，分别应用于延伸控制（正向）和追踪溯源（逆向）两个场景中。具体地，该方法将隐私标记和访问控制策略绑定到图片中，并利用加密算法保证图片的隐私区域在传播到其他社交网络时，仍只有拥有权限的用户才能访问。与此同时，通过在隐私标记中增加溯源记录信息，使得在隐私泄露事件发生后，取证人员可以对隐私侵权行为进行追踪溯源。

12.3.2.5. 隐私侵权的判定与取证溯源

在隐私交换过程中，虽然有延伸控制机制，但总存在攻击者试图想办法绕过或者篡改控制机制，或者不完整地按延伸控制要求进行控制操作。任何技术都无法提供绝对万无一失的保护，因此从整个技术发展的历史规律来看，隐私的保护与隐私的滥用是一对此消彼长的矛盾演化过程，所以一个成熟的隐私计算体系应该包含隐私侵权行为的判定与溯源。在隐私信息系统中，实现隐私侵权行为判定是自动取证的基础，也是阻断隐私侵权行为扩散的重要关键技术，判定技术需要支持在线和离线实现。隐私侵权行为判定是在隐私信息的溯源记录中根据隐私侵权行为的判定标准，判断是否存在违反约束条件和控制策略的行为；溯源是在隐私信息交换过程中将交换的路径、交换过程中的相关操作以不可篡改的方式记录在隐私信息的审计控制记录当中，为判定、取证和追踪提供依据。判定需与追踪溯源联动研究，构建一个有机结合的整体机制，而不是两个割裂开来的不相关的技术。在隐私计算的框架体系下，隐私侵权行为及取证存在于其各个步骤中。隐私侵权溯源取证框架如图 6 所示。

【1】隐私信息抽取：当信息 M 产生时，通过语义逻辑的计算分析抽取或标注其隐私信息，得到隐私信息向量 I、广义定位信息集合 Γ 和审计控制信息集合Ω ，并计算得到隐私属性向量 A 。此阶段主要用于界定隐私信息。

【2】场景描述：对信息所处场景进行抽象描述，得到约束条件集合 Θ 、传播控制操作集合 Ψ 。该阶段提供了对隐私侵权行为的判定标准，当不满足上述条件时，则判定为隐私侵权行为发生。

【3】隐私操作：依据场景限制给各个隐私信息分量分配可进行的操作，形成隐私运算操作集合 F ，并在此基础上建立传播控制操作集 Ψ ；记录信息主体对该信息的隐私操作，生成或更新审计控制信息集合 Ω 。超出上述两个集合的操作也会被判定为隐私侵权。

【4】选择/设计方案：在该过程中，分析所选择/设计方案中涉及的运算是否满足隐私运算操作集合，操作的动作、对象、结果等是否超出约束条件集合。防范隐私侵权行为发生，并作为隐私侵权判定标准。

【5】隐私效果评估：该环节包括分析计算隐私保护代价C、隐私保护效果 Q 和隐私泄露损失收益比L。当上述因素未达到预定目标时，则需要对隐私信息全生命周期保护进行反馈审核。当发生隐私侵权时，需对前4个步骤中的信息流进行溯源分析，追踪隐私侵权发生的主体。基于隐私信息六元组以及第三方监控或托管，界定隐私信息，判定隐私侵权行为，并通过隐私计算框架中各个步骤的联动，对异常行为进行取证，并找到侵权行为的源头，实现溯源取证。

12.4. 隐私计算发展趋势与展望

12.4.1. 隐私计算的基础理论

从隐私感知与动态度量、隐私保护算法、隐私保护效果评估、隐私信息延伸控制、隐私侵权行为存证和溯源等环节进一步研究并完善隐私计算框架及其数学基础，细化各环节间的关联机制、操作控制及控制信息传递，可借鉴概率论与数理统计、信息论、博弈论、拓扑心理学等学科的思想，提出全流程隐私信息的流转控制模型，持续探索隐私计算的基础理论；研究业务服务与隐私计算深度融合的高效隐私信息保护系统技术架构，提出典型应用场景的隐私信息保护解决方案，形成不同的隐私保护服务能力，推动隐私计算应用。

12.4.2.隐私感知与动态度量

从隐私信息的知识表示模型、分类分级、原子抽象建模、特征分析与隐私分量抽取、压缩感知、隐私分量关联关系挖掘等角度入手，研究隐私分量与场景关联模型、隐私分量量化与动态调整、隐私分量组合与重度量等内容，解决时空差异和主体动态下隐私动态交换的精准度量问题，支撑隐私智能保护；提出场景对隐私保护要求的量化指标、隐私动态调整量化指标、隐私组合约束的量化指标，以及这些量化指标的关联关系和动态权值，形成隐私度量的量化指标体系，支撑泛在互联环境下隐私信息交换控制与按需脱敏。

12.4.3. 隐私保护算法

在不同环节研究基于不同数学基础的隐私脱敏原语，及其等价或映射关系，支撑隐私保护算法能力评估、泛在互联环境下隐私信息跨系统交换控制；设计隐私保护算法通用框架与设计准则、脱敏控制模型、算法选择和优化组合设计、算法前后台任务动态调度等内容，支撑隐私信息保护系统的柔性重构和隐私脱敏功能的动态编排；提出算法保护能力与保护效果评估、算法保护能力量化指标之间的等价关系等，形成算法保护能力量化指标体系，支撑隐私保护算法的设计与能力评估。

12.4.4. 隐私保护效果评估

从可逆性、延伸控制性、复杂性、偏差性、信息损失性等维度入手，研究保护算法及其组合的效果评估量化指标，以及量化指标的关联关系和动态权值等内容，形成效果评估指标体系，支撑隐私保护的效果反馈、隐私保护方案的迭代优化；提出效果评估系统的计算模型、自动评估系统的柔性架构等，支撑效果评估高效快捷、隐私保护算法优化选择；研究隐私关联性分析、算法可用性增强、隐私挖掘等内容，支撑隐私保护算法能力评估、隐私发布时脱敏效果评估、隐私信息保护系统能力评估。

12.4.5.隐私侵权行为判定与溯源

以隐私侵权行为判决规则与约束表示为基础，研究延伸控制策略绑定、全流程隐私侵权线索存证、侵权行为的场景与内容的存证、侵权事件识别与判定等内容，支撑泛在互联环境下隐私侵权行为精准判定；研究隐私信息流转的主被动协同监管架构、审计信息可信存证、操作控制约束与审计信息描述等内容，支撑隐私侵权的追踪溯源；研究授权控制链构建、传播策略与控制策略动态关联、权限动态调整、策略可验证执行与可信审计、延伸授权、协同溯源、侵权场景构建与行为重构等，支撑隐私信息受控共享。

12.4.6.隐私信息的完备删除

从删除通知、通知确认、远程验证机制、传播路径发现、通知与确认拓扑生成、删除方案选择、删除操作行为可验证等方面，支撑多副本完备可验证删除；提出自动/指定删除机制、删除粒度协商机制、信息多副本检索、删除粒度控制、自主/自动删除触发、密钥自动删除、删除目标与密钥管理、最小域可信删除、最小覆写删除等，实现个人信息到期自动/按需删除；研究删除效果远程验证机制、存证推送机制、多副本全删除确认、删除不可恢复性评估、删除操作行为审计、违规留存取证、合规评测、删除流程与验证的可视化等内容，支撑删除可信验证。

12.5. 结束语

新的研究领域需要持续深入地开展研究，隐私计算也是如此。我们认为，学者应切切实实地区分数据安全和隐私保护研究范畴的异同，不应热衷于“旧酒换新瓶”。本报告仅列出隐私计算重点研究进展，并展望了重要研究方向，当然研究范畴还可以合理地扩展；隐私计算并不排斥传统数据安全的数学基础，也不排斥在某个局部环节采用数据安全的传统方法，比如加密、签名等。为了促进隐私计算理论与技术体系的不断发展和完善，更好地服务于泛在互联环境下的隐私保护，还需要围绕隐私计算的基础理论和各个环节开展更多的针对性深入研究。但当前社会上存在借用“隐私计算”热度的现象，一些公开发布的学术观点混淆了隐私计算的概念和研究范畴。基于对个人信息保护的使命感、责任感，大数据安全与隐私计算专委会主动承担起从学术角度服务社会、促进学术研究的职责，我们深感有必要编纂并发布隐私计算研究进展报告，借此机会给出隐私计算与其他相关领域的学术内涵差异，希望能引导和促进隐私计算的理论研究与应用。总之，作为隐私计算领域的第一份报告，立意定位于促进隐私计算的研究与发展，而不是一本白皮书。因此，限于篇幅仅介绍隐私计算的主要工作。

参考文献：

[1] Gartner Top Strategic Technology Trends for 2021[EB/OL] https://www.gartner.com/smarterwithgartner/gartner-top-strategic-technologytrends-for-2021

[2] 李凤华, 李晖, 贾焰, 等. 隐私计算研究范畴及发展趋势[J]. 通信学报, 2016, 37(4): 1-11.

[3] LI F H, LI H, NIU B, et al. Privacy computing: concept, computing framework, and future development trends[J]. ELSEVIER Engineering, 2019, 5(6):1179-1192.[4] 李凤华、李晖、牛犇,《隐私计算理论与技术》,人民邮电出版社，2021.4

[5] LI F H, SUN Z, NIU B, et al. SRIM scheme: an impression-management scheme for privacy-aware photo-sharing users[J]. ELSEVIER Engineering, 2018, 4(1): 85-93.

[6] SWEENEY L. k-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557-570.

[7] MACHANAVAJJHALA A, KIFER D, GEHRKE J, et al. L-diversity: privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data, ACM 2007: 1(1) 3.

[8] LI N H, LI T C, VENKATASUBRAMANIAN S. t-closeness: privacy beyond kanonymity and l-diversity[C]//2007 IEEE 23rd International Conference on Data Engineering. IEEE 2007: 106-115.

[9] DWORK C. Differential privacy: a survey of results[C]//International Conference on Theory and Applications of Models of Computation. Berlin: Springer, 2008: 1-19.

[10] MCSHERRY F, TALWAR K. Mechanism Design via Differential Privacy[C]// IEEE Symposium on Foundations of Computer Science. IEEE 2007: 94-103.

[11] BLUM, AVRIM, K. Ligett, and A. Roth. “A Learning Theory Approach to NonInteractive Database Privacy.” Journal of the ACM, ACM 2011: 1-25.

[12] EVFIMIEVSKI A V., GEHRKE J, SRIKANT R. Limiting privacy breaches in privacy preserving data mining[C]. Proceedings of the Twenty-Second ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. ACM 2003: 211–222.

[13] KASIVISWANATHAN S P, LEE H K, NISSIM K, et al. What Can We Learn Privately?. the 49th Annual IEEE Symposium on Foundations of Computer Science. IEEE 2008: 531–540.

[14] LI F H, SUN Z, LI A, et al. HideMe: privacy-preserving photo sharing on social networks[C]//IEEE International Conference on Computer Communications. IEEE 2019: 154-162.

[15] 李凤华, 孙哲, 牛犇, 等. 跨社交网络的隐私图片分享框架[J]. 通信学报, 2019, 40(7): 1-13.

访问中国中文信息学会官网（http://www.cipsc.org.cn/）即可下载《中文信息处理发展报告（2021）》全文。

编辑：李安国

来源：中国中文信息学会

申明：本文转自《中国信息处理发展报告（2021）》，分享仅供学习参考，版权归属原作者，若有侵权请联系我们处理。

– END –

行业知识交流分享，结识扩展人脉圈层

公众号后台回复【隐私计算】

可受邀加入【PCview隐私计算】交流群