论文部分内容阅读
机器学习算法是一种被广泛应用到实践中的高效数据挖掘技术,众多机器学习算法在大量数据的基础上创造了很多有价值的模型,解决了许多现实问题,例如数值预测、医疗诊断、图像分类,生物特征识别等等。历史留存和每日新增的大量数据通常包含许多敏感数据。因此,如何在不泄露敏感数据的前提下利用机器学习算法获取有价值的模型是一项亟需解决的有价值问题。线性回归算法、逻辑回归算法、神经网络算法是最具代表性的三种机器学习算法,它们在结构上属于递进关系,同时也是众多机器学习算法的基础。本文扩展了门限秘密共享方案、构建了完善的安全多方计算体系、将安全计算和三种机器学习算法结合构造了多数据源情形下能够确保门限隐私安全的机器学习算法。新的隐私保护方案赋予了机器学习算法门限隐私安全的特点。假设存在n个参与者,门限值设为t,门限隐私安全意味着算法能够在至多t个参与者被监听或者控制的情况下确保隐私安全,在至多n-t-1个参与者离线甚至被摧毁的情况下保证算法的正常运行。据已查阅的现有文献所知,在多数据源场景下本文首次提出了具有门限隐私安全特点的隐私保护机器学习算法。同时,我们也用C++语言实现了门限隐私保护的线性回归算法、门限隐私保护的逻辑回归算法以及门限隐私保护的神经网络算法,在不同的数据集上做了实验。实验结果表明我们的门限隐私保护方案能够在保证隐私安全的前提下和原始机器学习算法达到同样的效果。与现有文献提出的解决方案相比,我们的方案效率更高。此外,门限安全的特点也令方案的适用范围更广,通用性更强。