近期,微众银行首席人工智能官、香港科技大学讲席教授杨强做客雷锋网AI金融评论公开课,以“联邦学习前沿的研究与应用”为题,全面详尽地讲解了联邦学习如何直面数据孤岛和隐私保护的双重挑战。
本文编译:卡卡。以下为杨强演讲全文内容与精选问答:
我们可以想象成一个联邦平均,就是有n个模型,现在要求它们的平均值,但这个事要在服务器端做的时候,我们不希望服务器能够看到每一项它所包含的内容,所以假设手机每一天获取了新的数据以后,我们要更新在手机上面的一些机器学习模型。比方说 next word prediction和人脸识别。我们就可以选择一些手机,用这个办法对它的新数据进行联邦求和,最后就在保护用户隐私的前提下,能够不断更新手机上的数据。
就像这个图左边所示的数据集们,依次对应右边各终端上面的数据。它们的特征是纵向的,X1、X2、X3是类似的,但样本U1、U2…U10却是不同的。所以这个叫横向切割,按样本切割,简称横向联邦学习。
欧洲首先推出来的法规叫GDPR。它有各种条款,最重要的一条是要保护隐私的数据,保证隐私权是掌握在用户手中。自从它2018年推出来以后,已经有不少的大公司被罚款,比如Facebook和Google。
一名宠物消毒用品经销商告诉记者,自从疫情暴发后,宠物用消毒液的销量瞬间猛增,甚至让他们措手不及。“以前养宠人群对于宠物消毒用品不会太过重视,最起码没有宠物食品买的多,但是自从疫情暴发之后,尤其是各种传言发生之后,养宠物人群对宠物的外出格外重视起来”。
社会层面,对于隐私和安全的意识越来越强,政府的监管,相关法律法规越来越严。
在不泄露用户本身数据隐私的情况下,不告诉用户和特征值前提下,两个数据拥有方能够共同找到他们所共同拥有的样本。 在找到这些样本以后,利用这些样本作为训练数据来共同建模。再之后就是如何使用。
第三步:B得到了这个包,不知道里面有什么,但它可以通过同态加密去更新对样本的计算结果,得到结果以后和真值去比对,就会得到一个损失值,它会把 loss再加密反馈给A。
这种联邦是特征不同,但是样本重叠,按照特征竖着来切,所以叫纵向联邦。如图所示,两个机构之间的沟通也是加密的模型参数,而不是数据本身。给到任意两个数据A和B,不一定所有的是样本都重叠。但是如果我们有办法找到足够多的重叠的那一部分,就可以在这一部分上进行建模,用联邦学习来建模。
第四步:Coordinator得到了这个结果以后,再加密这个结果,再加一些噪音,再分发给A和B,让它们各自去更新自己的模型参数,这就使得每一个参与方都不知道对方的数据和特征,同时它可以更新自己的参数。这个流程多次后,A和B的模型就逐渐形成了。
纵向联邦学习:样本重叠特征异
不少人早在疫情刚刚暴发之时就买好了给宠物专用的消毒液。“每次遛弯回来都要给它擦脚擦身,保持清洁,它们不是传染源,反而是我们要保护的对象”,宠物主张女士这样说道。
在这次疫情中,线下宠物门店失去了大量的客流量,其中洗护美容损失的客流量最大。广州日报全媒体记者了解到,新冠肺炎疫情期间,绝大多数宠物商店(医院)等门店的正常营业受到限制。宠物主对线下的宠物医疗、美容、洗澡、行为训练等需求也减少了。
横向联邦学习,用数学的形式表示它是一个矩阵。一个数据集是左上角,一个数据集是右下角,它们有很大的在特征方面的重叠,但是他们的样本用户却不重叠,可能他们有各自的标签。
横向联邦学习:样本不同特征同
大家都知道人工智能的一个未来(应用方向)是无人车,但是每一辆无人车所面临的新的数据却是有限的。如果要更新我们的模型,就需要大量新的数据,它来自于不同的无人车,每个车辆的数据里面肯定是有隐私,同时也是小数据。
第二问,原子性。当有一方挂了,大家是不是可以退到原来的状态。
打个比方,两个包装好的东西合起来,包装就到外面来了,里面是两个东西的和。这个技术叫做同态加密,在座的同学如果有兴趣,网上现在有大量的资源。国内也有很多专家是在同态加密方面特别有成就。同态加密在过去做不好的一个原因是计算量太大,现在已经发现有很好的解决算法,再加上硬件各方面都有进步,所以同态加密已经不是问题了。
这时候就需要用到横向联盟学习的模型。简单来说,每个终端都和服务器有一个连接,要保证我们跟服务器的沟通,不是数据的沟通,而仅仅是模型参数的沟通。在这里参数是w1、w2直到wk,这些参数在旁边有两个直角括号([ ]),在数学上代表加密,所以在这里用到的是一个加密的数学模型。
同态加密的效果激发了很多机器学习人的想象力。比如Sigmod曲线,它是非线性,可以用一个线性来近似,近似以后就可以去计算损失函数以及加密结果。同态加密分配律(distribution law)就使得它的总的加密变成每一项的加密之和。
怎么落地?第一个做法,假设每一个数据拥有方具有不同的样本,但是纵向特征却基本一致。这就相当于我们有那么大的一个大数据的数据集,从横向进行切割,形成了一堆一堆的样本,他们的特征却是类似的。
如果有一个新用户过来,就可以通过Party A和Party B各自的参与,通过一个类似的流程来完成——这就是在纵向联邦的前提下,特征不重叠、样本重叠,互相不知道对方样本的前提下,也能够建模。
第二步:算各自的模型,记住机构A要做一部分的模型,机构B要做另外一部分的模型。首先在机构A先做第一步,把初始参数和每一个样本做一下点积,把这个点积的结果加密,然后把它通过加密算法送给B。
实际上,新冠肺炎疫情对宠物行业的影响巨大。大数据显示,直接经济损失在2万元以下的门店占比达到88.56%,其中影响最大的是洗护美容业务。在线下实体店遇冷的同时,线上的宠物产业商家却大受青睐,越来越多的门店也开始注重线上业务。
我们在训练模型过程中希望有海量的大数据,现实却是一个个数据的孤岛。想把数据孤岛连起来,形成一个大数据,却遇到了法律法规的严格限制。
迁移学习的思路是,假设两个数据集的样本和特征几乎都没有交集,我可以在他们的子空间里面找到有重叠的地方。怎么找?这就是通过同态加密和刚才所说的分布式交互机制。找到以后,就可以在子空间里面进行横向联邦或者纵向联邦了。
可能有些同学是第一次听到联邦学习这个名词,我用一个简单的例子来给大家进行解释。
我们希望在这个建模过程中,每一个数据集都不向服务器端泄露它本身的数据,只是它们的参数在进行沟通。而且参数的沟通也是加密的,这就保证了隐私。
家住广州番禺的大头妈(网名)就是这样一位从事宠物行业“线上”生意的人。她告诉记者, “以前附近的客户都会自己上门取货,但是现在都宅在家里,出门不方便,宠物等着解决肚子问题,我只能自己上门送货”。除此之外,她还经常在微信客户群里给大家接龙订购,宠物们的衣食住行无所不包。
文/广州日报全媒体记者杨欣
首先人工智能的力量来自于大数据,但在实际运用过程中碰到更多的都是小数据。比方说法律案例,有人做过统计,案例最多也就收集到上万个。又比如金融反洗钱,因为反洗钱案例是少数的现象,所以每一个案例都非常重要。对于医疗图像,非常好的标注的医疗图像也非常少。所以我们可以发现:周边更多的是小数据,但AI恰恰需要使用大数据。
联邦学习和区块链像吗?
假设用一只羊来类比机器学习模型,我们希望羊吃了草以后能够长大。 过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于用简单粗暴的办法来获取数据,形成大数据,来建立模型。 但我们希望能够保护各自的隐私,所以让草不动,让羊动。也就是说,我们带着模型到不同的草场去访问,那么久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。
在数学上,这样的结合实际上是一种模型的叠加,两个不同的数据集,它建立的两个不同分类模型,一个是线性模型,另外一个可能是KNN模型,这两个模型合起来就会形成一个高维空间的模型。
广州的柴可福宠商学院负责人表示,因疫情原因,他们近期增加了美团外卖业务,并开展网络直播课程,主要是针对家庭宠物犬的一些行为问题及护理喂养的正确方法。目前直播形式分两种,一种是与机构合作,定好课题上网络课程;另外一种是在抖音上发布一些训练犬只案例,有针对性地开直播,与观众互动解答问题。“直播课程反映非常好,粉丝反映可以清晰了解,并初步解决问题”。此外,除了给店里寄养的狗狗加以训练以外,他们还会应客人需求,上门给狗狗训练,有针对性地解决个别问题。
纵向联邦的大概思路是,这个模型是A方有一部分的模型,B方有另外一部分的模型。就像战国时代的虎符,一个印被切成两块,只有当这个印是能够完全重叠的时候,才能证明这个将军是得到了真正的国王的命令——左边有模型A,右边有模型B,这两个合起来才能形成联盟来进行共同的推理。
记者在采访中了解到,宠物清洁杀菌用品在以往属于小众领域,但新冠肺炎疫情发生后多家电商平台的宠物药品、消毒抗菌产品销量骤增,达到了前所未有的热度,成为除了宠物食品以外,行业内最“兴旺”的品类。每天通过客服咨询的用户也较以往增加了不少。
所以说左边横向联邦比较适用于toC,右边纵向联邦对toB比较适用。
另外一个例子是智慧城市。智慧城市有很多的摄像头,每一个摄像头可以获取的数据其实是有限的,希望聚合不同摄像头的一些数据。但如果它们来自不同的公司,或涉及用户隐私,就无法简单粗暴合并。
联邦学习和区块链其实不一样,最重要的区别在于:联邦学习是利用数据的价值,它的一个特点是数据不能够被复制放到别的节点上。区块链是要保证信息的透明和不能篡改性,所以要把数据复制到不同的节点上。虽然最终的目的都是在多方形成共识、形成联合,但是他们确实有所不同。
细节来说,现在有一种特别好的加密方法,在两个加密包进行聚合的时候,可以不看每一个加密包里面的数据,但我们就把它的包装和他的内核进行调换,这样a的加密加上b的加密,就等于a加b的加密。
Federated Learning,说白了想达到这样一种状态:有多个数据源,有多个数据孤岛,每一个数据源的数据都不动,都在本地。但是让这一些具有数据源的拥有方(Owner)能够达成一个协议,使得大家可以联合起来建立一个模型,就是联邦模型。可以有各种各样建立合作模型的方式和算法,但是总目的一样:就是改变以往的做法,让数据在本地不动,通过交换一些模型的信息,让模型成长起来。
这些参数加密以后,把加密的包送给服务器,服务器不懂加密包里面到底有什么,只知道这个是有关参数的加密包。现在有一种技术可以把这种加密包在服务器端进行合起来,合起来的结果会形成一个新的模型,就是上面所示的神经网络模型。这就是第一步到第六步的流程。
值得一提的是,居家隔离期间,宠物在线问诊业务也进入越来越多宠物主视线。宠物在线问诊平台的爱宠医生在此期间推出了免费问诊服务,受到很多宠物主青睐。也有宠物门店根据不同片区提供就近在线问诊服务,以方便消费者此后到店看诊。不过,由于兽医行业有其特殊性,需要严谨的问诊和判断,因此开展这类业务的兽医院仍然是少数。
几个例子:首先是在金融领域,比如信贷风控、市场营销,都需要大量的数据训练。大额贷款风控的案例又非常少。要是来做深度学习模型,只用少量这种大额贷款的样本是远远不够的。
比如拿手机看新闻,有很多推荐系统,每个手机上面所获取的用户喜好信息,也是小数据,聚合它也面临到用户隐私的问题。
又比如网购,像物流系统、供应链系统,有很多的仓储,如果要自动化,就有很多的监控的需求,这种数据往往是小数据,也是分散型的数据,把它聚合起来也不是那么容易。
因为第三方有可能泄露用户隐私,是可以(去掉)的,只不过要多加一些步骤,整体步骤变得比较冗长,但是可以做到,这里不再展开。
谷歌的相关研究团队在一直是在安卓系统团队下面,所以他们比较关心横向联邦学习。现在美国和欧洲是横向比较多,在我们国内是纵向比较多。联邦学习现在是双头发展。
今天的题目是和金融相关的,先给大家讲一下,为什么在金融行业有特别的需求来保护用户隐私。我希望大家记住一句话:数据不动,模型动。
这个算法用4个步骤在右边这里展开,下面我就先一步一步的来给大家进行讲解。
在番禺大学城附近开宠物店的纪先生情况也并不乐观。他的宠物店同样也是销售活体宠物和宠物用品,此外他还做宠物的繁殖业务。新冠肺炎疫情期间,他暂停营业了两个月。因为宠物用品都在店里放着,情急之间也没有想出线上卖产品的路子。而繁殖场的宠物也需要喂养和照看,这需要一定的成本。他表示“如今已是五月,复工已有半月,但生意仍冷冷清清”。
在美国进展稍微慢一点,但现在加州的法律也跟上来了,叫CCPA。国内也是法律严格化、全面化,各行各业的法律法规都面世了。
一位经营宠物猫洗护用品的经销商认为,经过疫情之后,消费者会更加注重所买商品的品质及安全,也更舍得为宠物花钱。以宠物食品为例,像皇家、冠能等一线品牌不管是制作工艺还是品质保证都在市场上有一定的口碑。这是消费者最关心及愿意为之买单的。因此宠物用品企业一定要坚持用好材料、做好产品,把产品包装到位、传播到位,相信一定大有市场,疫情之后的宠物市场将会迎来一波增长。
这样做需要一些数学工具和计算工具,前者最突出的就是有关隐私保护、加密建模的工具;后者最突出的就是分布式的机器学习。
刚才讲到要么样本有重叠,要么特征有重叠,但是如果两者都没有重叠,这个时候就要请出迁移学习。
由于居家隔离使得宠物主拥有更多的时间陪伴自家的宠物,他们更习惯在线上查询信息、寻找购买商品。疫情过后,这也将成为主流的商务习惯。有专业人士认为,宠物业态应该在专业化、渠道多样化上发力。
迁移学习:样本、特征无一重叠
联邦学习冲破孤岛,完成数据“拼图”
2020年的新冠肺炎疫情,不但给所有人带来影响,就连宠物们也难以逃脱。有关“宠物是病毒源头”“宠物会传染病毒”的传闻四起。尽管自世卫组织辟谣后逐渐风平浪静,但由此一来,宠物健康、卫生用品几乎是一夜之间成为养宠人群的“最爱”。多家电商平台的宠物药品、消毒抗菌产品销量骤增。
问题是:周边都是小数据,是不是可以把它聚合起来,聚少成多?当然这个是我们最直接的想法,人工智能一开始的发展也是这么来做的,但是现在面临了严峻的挑战。
这个已经在Google、在安卓系统得到了应用,现在有众多的手机商,包括我们国内的手机商都非常感兴趣。其他的厂商比如物联网、智能家居的这些公司,如果还没有听说联邦学习的话,他们就会落伍了。
特别要说的是,在18年初的时候,我们在微众银行发现,用户隐私的保护是让众多数据拥有方合作时的一个挑战,如何在不同的银行和机构之间联合建模,同时保护数据隐私?我们就发展出了toB的联邦学习。
举例来说,视频网站有很多用户的视频喜好,卖书的网店几乎也有同样的用户集,但它们的特征却不一样,这边是有关书的,那边是有关视频的。又比如两个银行,一个银行可能有很多贷款,另外一个银行可能有很多理财,他们的用户群可能也是有很大的重叠。
根据华金证券《宅居推动养宠线上消费,宠物经济持续扩张逻辑不改》报告指出,受新冠肺炎疫情影响,宠物商店(医院)等门店的营业受到限制,对宠物医疗、美容、洗澡、行为训练等实体店的到店流量产生较大影响。
过去的做法是把数据买过来,然后在一个服务器上加以聚合,现在这个事儿行不通了。我们就思考联邦学习能不能来做这个事儿。
左边和右边有各自的标签,但是我们希望利用所有的数据来建模,而不是仅仅靠一个终端上面的数据来建一个小模型,希望把他们聚集起来建立大模型,但是他们的这些数据不能动。
据宠物行业白皮书、宠爱商贸等行业机构对全国宠物店疫情期间现状进行的最新调查显示,从2月份疫情暴发到3月底,超八成的实体店家月营业额不足10万元,近六成月营业额在5万元以下,四成月营业额在5万元到10万元之间。宠物门店平均在线时长同比增加1.6小时,接待洗护数量同比下降13.2%,宠物猫狗销量单只同比降价18.43%后,销量增长14.5%。
第一问,一致性。现在有多方,那么我按照不同的次序来做事情,我得到的结果是不是一样?我们希望是一样的。对于数据库来说,查询结果一定要一样。联邦学习也是一样的。
AI发展困境:小数据与隐私保护
线下:宠物用品“躺”在店内无人问津
往往在这个情况下,如果有一个组织者(Coordinator),它会使程序简化,所以 B也可以把这个结果直接给Coordinator。
第三问,虎符性,就是安全性。这对联邦学习是尤其重要的一个特性。但是区块链和这种多方计算、安全计算,以及我们所说的模型计算和数据的这种合作却无关。
再看细节:首先是有一个墙,这个墙表示数据不能通过墙来交换。左边有机构A,右边有机构B,这两个机构在沟通的时候要非常的小心,只能沟通一些加密后的模型参数。
同时,对于宠物的小病小痛,不少宠物主也选择自行治疗解决。因此宠物版双黄连口服液、猫狗感冒清、抗菌液、口咽清新喷剂等药品浏览量及成交量都屡创新高。从口腔、毛发、脚掌,到宠物生活的居家空气,相关的除菌杀毒清洁用品销量也表现不俗。
刚才讲的是横向联邦,是按用户来分割,按样本来分割。那有没有这种情况:样本几乎都一样,在不同的数据拥有方,但特征不一样。比如不同机构、公司之间,面临的用户几乎都是一样的,但是他们的特征不一样。
疫情使得实体店遭受影响的同时,线上网店、微店,以及能够及时转变思路、开拓线上销路的实体店,生意也繁荣起来。调查显示,新冠肺炎疫情期间90%门店通过微信来做生意。近七成门店表示要做线上业务平台,69%的宠物门店商家计划开通美团,饿了么或者小程序商城等线上平台。
谷歌首先看到了优势,就提出了一个叫Federated Averaging,是一个横向联邦学习的做法。
下面就分成两个问题:
天河区一家中型宠物门店老板刘小姐告诉记者,她的宠物店已经开了三年,生意刚刚稳定下来就遭遇了疫情。由于人们都宅家不外出,宠物食品和用品都在网上购买,而唯一必须到实体店才能实现的宠物美容服务更是无人问津。
第一步:如图所示,假设左边这个机构有这么一个用户或者样本的一个集合X,右边也有一个样本的集合Y,在不暴露X和Y的前提下能够找到他们的交集。
据海珠区一家兽医院负责人表示,兽医院本身春节期间就会减少接诊,所以疫情影响不算太大。从4月开始已经慢慢恢复了正常运营。“不过客人的出行还是没有完全放开,所以都会集中在周末带宠物来看病。而且给宠物打疫苗的客人多了,因为大家对宠物的健康更加重视”。
线上:宠物可“远程”问诊
在金融行业,现在大部分的应用都是数据驱动的,却面临非常严峻的挑战。
总结:所谓横向联邦学习,按横向来切割数据,更多的使用场景在于很多个终端和一个服务器的联邦学习。纵向联邦学习,按特征来切割数据。使用时,大家基本是在同一个位置或者Level,两家公司之间的。
从数学的角度,从计算机的角度来讲,引入一个多方机制时,要问以下三个问题:
比如每一个手机都是我们个人在使用,形成了一堆样本。有不同的手机,每个手机基本上取的这些特征都一样,但样本却不同。我们希望在数据不动的情况下,能够聚合这些手机上的数据的这些能力,建立大数据模型。