分类挖掘中的隐私保护问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hhttllzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人类积累了大量的数据。如何有效的利用这些数据成为了一个棘手的问题。数据挖掘技术正是应对这一问题的有力手段。随着数据挖掘应用的不断拓展,隐私保护成为了数据挖掘中的一个重要问题。必须在进行数据挖掘的同时考虑防止隐私泄露。普通的数据挖掘算法假定数据是可以直接得到的。这一假定与隐私数据的使用原则相违背。现实中,出于隐私保护的需要,很多时候都无法直接得到数据。为解决这一问题,需要研究如何在无法直接得到精确数据的情况下完成数据挖掘。本文针对分类挖掘中的隐私保护问题进行研究。目前该领域已经提出了多种解决方法,但该领域的研究仍然不成熟。这主要表现在两方面。第一,目前该领域提出的算法仍有空白之处,很多问题都还没有解决,例如:目前针对分布式数据库,缺少实用的隐私保护的神经网络学习算法,因此将神经网络方法应用于隐私数据的挖掘仍不方便。第二,某些已有算法有进一步改进以提高性能的空间。例如,基于奇异值分解的方法有两点不足,首先,该方法对所有样本和属性都进行了同样强度的扰动,但实际上不同的样本和属性的重要性各不相同,而且可能对隐私保护强度有不同的要求,因此进行差别化扰动会比较好,其次,该方法仅使用奇异值分解来分析数据,实际上,不同的数据分析技术是从不同方面对数据进行分析的,综合使用多种数据分析技术可以对数据进行更为全面的分析。本文针对以上不足,围绕分类挖掘中的隐私保护问题进行研究,开发解决该问题的算法,主要完成了以下几项工作。(1)现有文献中没有涉及到实用的针对分布式数据库的隐私保护神经网络学习算法,因此目前在实际中在分布式数据库上隐私保护的进行神经网络学习并不方便。针对这一问题,本文基于安全多方计算,提出了应用于分布式数据库的隐私保护的反向传播算法。该算法使用基于安全多方计算的信息交流协议来在分布式数据库各节点之间交流反向传播算法所必需的信息,从而隐私保护的完成神经网络的训练。(2) DNALA是一种DNA序列隐私保护算法。它首先进行序列对齐并计算距离矩阵,随后利用距离矩阵对序列进行聚类和泛化。DNALA算法在对齐序列时使用了较为费时的多序列比对。另外,DNALA算法在聚类时使用了精度不高的贪心算法。而且,DNALA算法不具备在线性,在数据变化时不能很快的得到最终结果。本文针对以上问题,对DNALA算法进行改进,在对齐序列时,用所需时间较少的两两双序列比对代替了多序列比对,并使用一种混合聚类算法代替了贪心聚类算法。该混合聚类算法由基于最大权匹配的聚类算法以及在线聚类算法构成。在线聚类算法在数据变化时可以很快地得到结果,但所得结果精度较低,基于最大权匹配的算法具有和贪心算法相同的时间复杂度,而且结果精度较高。混合算法在数据变化时,使用在线聚类算法,以快速的得到结果,并周期性的使用基于最大权匹配的算法以提高结果精度。(3)在基于奇异值分解的隐私保护算法中,对所有样本和属性进行同样强度的扰动,而事实上样本和属性的重要性不同,对隐私保护的要求也可能不同,因此应该进行差别化对待。本文针对这一问题对基于奇异值分解的方法进行改进,提出了一种结合样本与属性选择的方法。该方法通过样本和属性选择选出重要的样本和属性,对于重要的样本和属性进行强度较低的扰动,对于其它的样本和属性进行强度较高的扰动。针对同样的问题,本文还提出了一种基于加权奇异值分解的隐私保护方法。在该方法中,每个样本都有一个标示其重要性的权值。本文对基于奇异值分解的数据扰动方法进行推广,引入了加权机制,并用其进行数据扰动。另外,在基于奇异值分解的隐私保护算法中,仅使用奇异值分解来分析数据。如果综合使用多种数据分析技术,可以更为全面地对数据进行分析。基于这一思路,本文提出了一种综合使用奇异值分解和独立成分分析的隐私保护算法。(4)分类挖掘中的隐私保护方法可以分为两类:算法相关的和算法无关的。其中,算法相关的方法是针对特定的分类方法设计的,对于其他分类方法并不适用,而算法无关的方法对各种常用的分类方法都适用。目前,算法无关的方法都是基于数据扰动的方法。基于随机化的方法是最常使用的一种数据扰动方法,但目前尚未将随机化方法应用于算法无关的隐私保护方法。本文提出了一种基于随机化的算法无关的隐私保护方法。该方法独立生成一组不同于原始数据,但与原始数据同分布的新数据,并将其作为扰动数据公开。用户通过处理扰动数据来得到原始数据的模式。综上所述,本文的主要贡献在于对分类挖掘中的隐私保护问题进行研究,提出新算法,并对已有算法进行改进以提高其性能。
其他文献
我国的民营高科技企业从80年代初起步,20多年风雨兼程,已从简单地提供科技咨询、课题攻关和成果转化,发展成为中国经济持续健康发展的强有力增长点。但资金不足,却越来越成为影响
通过引入计划行为理论(TPB),从心理学角度构建农村新型金融组织员工创新行为意愿影响因素模型;纳入企业员工的个人特质因素,探索新型农村金融组织员工的创新行为态度、主观规
预应力技术是道路桥梁施工中的重要技术,对于道路桥梁的施工质量和各方面性能有着至关重要的影响.在预应力技术应用中,还存在着一系列的问题,如管道堵塞问题、张拉工艺问题等
2012年从哈佛商学院毕业后,现社群电商"有好东西"的创始人陈郢没去大公司,选择到苏北农村地区创业,创办了一家带公益性质的企业。其实这不意外,大学期间,陈郢曾到湖南、湖北、
"维基解密"(WikiLeaks)网站是一个致力于发布机密信息的非盈利性国际组织。文章首先分析了"维基解密"成功运作的原因,然后归纳了"维基泄密"事件对我国信息网络安全的启示,最后提出了
基于机器视觉的果蔬采摘机器人可充分利用其信息感知能力对果蔬进行识别,提高采摘效率,但是目前采摘机器人还未得到大量应用,其重要原因之一为果实识别率不高,因此研究采摘机
靳锋主任医师认为汗证可分虚实,且虚多实少,虚多为气阴两虚、阴阳俱虚,实则为外感风热或肝胆痰湿,虚实之间可兼见或相互转化。临证时以交通心肾法培护根本,以调和营卫法贯穿
信访在中国是一种民意的表达方式,信访工作是一项复杂的工作,涉及到国家政治生活的方方面面。群众将信访看做是一个解决其与政府或他人矛盾纠纷捷径,而目前的信访体制机制又
期刊