范涛简明扼要地介绍了隐私计算技术的发展历程,并通过实践案例分享了纵向联邦学习与横向联邦学习的具体情况。
什么是纵向联邦学习?譬如企业A与企业B联合建模,企业B有Y(业务表现),期望优化本方的Y预测模型,设定只有企业B拥有 Y=“逾期表现”,企业A无法暴露含有隐私的X。如果想做一个建模怎么办?传统建模方法问题有企业A缺乏Y无法独立建模和企业A的X数据全量传输到企业B不可行。所以需要在保护隐私条件下,建立联合模型,联合模型效果超过单边数据建模。
横向联邦学习,它解决的问题是每家企业的数据都可以独立建模。但是为什么要横向联邦学习,因为每家企业的数据可能不够,这个时候如何做到各家企业在不共享原始数据的情况下进行建模呢?这就需要横向联邦学习技术。譬如企业A和企业B共建联合模型,期望优化联合模型,Y 表示“是否存在恶意行为”,企业A和企业B都有(X,Y),双方不暴露自己的(X,Y),所以需要横向联邦学习,在保护隐私条件下,建立联合模型,联合模型效果超过单边数据建模。
发展至今,2022年将成为一个新的技术分水岭——实现从联邦学习到可信联邦学习的跨越,是能够满足用户和监管等各方面需求的分布式机器学习范式。
范涛详细介绍了FATE开源框架的整体技术方案:其底层分为计算、存储和通信,联邦安全协议分为Paillier同态加密、Secret-Sharing(SPDZ)、OT、可交换加密、安全聚合、RSA DH、密钥交换等,再上层构建了联邦学习算法库,包括纵向联邦特征工程、纵向联邦学习、横向联邦学习、联邦深度学习、联邦迁移学习、纵向联邦统计、安全信息检索(PIR)、安全求交(PSI)、横纵融合、异步联邦学习、模型加密预测等。顶层是联邦多云管理FATE-Cloud、云原生联邦学系管理KubeFATE、联邦建模可视化FATE-Board、联邦建模调度FATE-Flow和联邦在线推理FATE-Serving。另外,他还介绍了FATE onEggroll和FATE on Spark部署架构。
场景应用实践方面,FATE开源框架已经广泛应用于金融、政务、医疗、营销等多个领域,产生了丰富的实践案例。范涛重点分享了新闻平台的联邦推荐应用、企业跨主体的大数据协作、通信企业异构平台互联互通三个场景应用的代表性案例。
分享的最后,范涛也提出了几点关于未来展望的思考,或将会在可信联邦学习、生态融合、云原生、轻量化、互联互通、异构计算等方面展开探索与技术迭代。2022年,实现联邦学习到可信联邦学习的跨越,将是其中的研究重点。
针对近两年来隐私计算和联邦学习发展和应用中面临的安全、效率等挑战,FATE开源社区技术指导委员会主席、加拿大工程院及加拿大皇家科学院两院院士杨强教授及团队对联邦学习的理论进行了持续丰富和拓展,形成了“可信联邦学习”。据杨强教授介绍,可信联邦学习是安全可信的联邦学习,是能够满足用户和监管等各方面需求的分布式机器学习范式。
在此范式中,隐私保护、模型性能、算法效率是核心的三角基石,并且与模型的决策可解释性和模型的可监管性两大支柱,共同构成了更加安全可信的联邦学习。数据安全可证明、模型性能可使用、机器学习效率可控、决策可解释、模型可监管和普惠是可信联邦学习的核心特征。

范涛,FATE开源社区开发专委会成员,微众银行人工智能资深研究员,具备 8 年以上大规模机器学习系统和大数据相关应用实践经验。在微众银行负责联邦学习FATE开源项目研发和FATE商业化解决方案研发,推动联邦学习技术在风控,营销,个性化推荐等领域应用。申请联邦学习相关技术专利 100多项, 已授权20多项,发表多篇有影响力学术论文(SecureBoost算法获得联邦学习领域论文引用量Top10)。2013年硕士毕业于中国科学与技术大学,加入微众银行前曾任职于腾讯,百度,负责智能风控,大数据挖掘,舆情分析,大数据量化投资等项目研发。
FATE开源社区是全球首个隐私计算联邦学习开源社区,面向广大开发者、贡献者、用户及生态伙伴建立的学习与交流平台,拥有全球首个工业级联邦学习开源框架,现有3000+位来自近千家企业及科研机构的开发者参与社区生态共建。