论文部分内容阅读
如今,金融服务行业普遍采用机器学习技术建立各种模型来预测从金融交易欺诈到投资和针对性营销活动等情况。使用逻辑回归算法进行监督学习是该建模常用的机器学习技术,在实际学习阶段之前通常需要与其他数据提供商共享和准备大量的数据。由于隐私法律和保密法规的要求,数据必须保存在系统内部,不能直接外包出去,因此需要对隐私数据进行保密计算。常用的保密计算方法是差分隐私、联邦学习、同态加密和多方安全计算。本文的研究内容是面向隐私保护的多方联合学习方法研究。本文的最大贡献是提出了基于同态加密的机器学习方案,结合业界常用的逻辑回归算法设计了一种同态逻辑回归算法,并基于阿里云的PAI(Platform of Artificial Intelligence)平台实现了一个多方并行同态机器学习系统,系统集成了MPI(Message Passing Interface)框架来提供并行计算。分析了同态加密和多方安全计算的应用场景,详细的介绍了同态加密背景知识,并选择了全同态加密的CKKS方案来加密隐私数据。采用最小二乘拟合多项式的方法来近似激活函数,并利用融合编码技术来减少训练过程的乘法深度,减少算法复杂度。从两方数据通信协议推广到多方数据通信协议,并设计了从两方到多方同态机器学习模型。结合微软的SEAL库实现了同态机器学习系统,系统整体采用C++编码实现,运行速度快,而且系统兼容性强,可以扩展成同态加密的机器学习库。最终实现的同态机器学习系统提供了一个拖放式的界面,使用户可以方便地构建加密的训练和预测过程,而无需具备密码学方面的专业知识。他们要做的就是找到其他要与之合作的用户,将他们的数据表拖到一起,将机器学习模块拖到项目中,然后等待结果。本文在公开数据集上的实验结果表明,使用5台机器,可以在129秒内在4096?576的数据集上训练出逻辑回归模型。该系统在实验参数下,提供了128bits的安全性,并且与明文逻辑回归算法的正确性偏差1%左右,这验证了算法的可行性和准确性。