论文部分内容阅读
为了建立可靠的预测模型并识别出有意义的模式,由不同来源——譬如不同的医疗服务提供商——维护的数据集合正日渐流行。大多数分布式数据挖掘算法可以有效地管理和挖掘来自分布式源的完整数据。但是,它们大部分会揭示关于个人数据的关键信息,这引发了人们对隐私泄露越来越多的担心,进而阻止了不同的参与者参与数据共享。此外,对不完整的数据集进行挖掘通常得到的结果差强人意。针对上述这些问题,分布式数据挖掘的隐私保护技术(PPDDM)给出了一些解决手段,使得在无需对实际数据进行访问的情况下即能对数据进行挖掘,这样可以避免披露最终结果背后的信息。最近有很多最先进的PPDDM方法被提出来,其中大多数是基于现有的数据随机化和匿名化技术。这些技术使用数据失真来掩盖原始记录值,并且用数据转换来构建一套匿名记录。这样,各种加密方法可以在竖直或水平的数据划分上用于不同参与者之间的通信,从而,可以在不公开敏感信息的情况下进行安全的数据计算。本文所研究的核心任务——分类,是数据挖掘中旨在发现知识和分类新实例的基本任务之一,而SVM算法被认为是适用于某些领域的分类问题上最重要的算法之一。在这篇论文中,本人提出了一种分布式SVM分类模型的隐私保护新协议。该协议主要基于格拉姆矩阵,可以在多个参与者的垂直分区数据上构建全局的SVM分类器。为了安全地在第三方汇总分布式数据,我们的协议使用Paillier密码系统属性来计算数据点之间的内点积,并且构建全局模型用以对新患者的数据进行分类。同时本人还提出了一种基于垂直分区数据,对缺失数据进行插补的分布式支持向量机模型的隐私保护协议。在汇总分布式数据处理之前,本协议运用了多种插补技术来对缺失数据进行处理。与此同时,本研究还提出了一种分布式数据上实现隐私保护的新的数据挖掘框架,框架通过水平分区数据上的数据插补进行数据挖掘。该框架可分为三层:(1)底层旨在通过使用多重插补技术来处理本地参与者数据上的缺失值;(2)中间层为保护参与者的隐私,应用Paillier密码系统属性来计算数据点之间的格拉姆矩阵的内点积;(3)顶层涉及由第三方构建全局SVM模型(半诚实模型)并应用该模型来分类新患者的数据。本文还针对分布式和集中式数据采用准确性指标,对框架性能的演变进行了调查。众多实验结果表明,分布式数据可达到与集中式数据近乎相同的准确性。并且运用数据插补技术,相比于忽略数据缺失的操作,能获得更好的挖掘结果。同时,相比集中式数据,我们的框架在处理分布式数据方面,具备更佳的处理时效。此外,该框架不仅通过建立非线性分类模型,在参与者间协作型隐私保护数据挖掘问题中展示出较高的效率,对于提高构建分类器的性能也具有重要意义。