论文部分内容阅读
随着计算机技术的发展和应用,数据挖掘技术应运而生,但是传统的数据挖掘技术大多在原始数据上进行挖掘,在发现知识的同时,很多隐私敏感信息亦不可避免的被侵犯到了;很多研究者调查总结的结论指出,在数据挖掘的过程中,大量的个人隐私信息在当事人不知情的情况下被公开使用,甚至滥用,对于这种个人隐私信息被随意使用甚至违法乱用的现象,人们很担心,有些国家法律也规定了相应的法律法规,来规范数据挖掘的技术途径,强化挖掘信息的保护意识,在各种社会压力的迫使下,人们在进行于数据挖掘的同时必须保障个人隐私信息不被泄漏,必须在保护隐私信息的基础上进行数据挖掘。基于隐私保护的数据挖掘技术的研究目的,是在数据库中提取事先未知的,有价值的信息和知识的同时,又不暴露隐私信息(至少是一些敏感信息)。出于对人们隐私信息的保护,对原始的数据库信息进行处理,就变得迫不及待,基于各类数据挖掘中都会触及个人隐私,本文将以DNA序列数据集为研究对象,对其数据挖掘过程中的隐私算法进行改进,主要研究内容如下:将基于最大权匹配的算法和基于隐私保护框架的弱聚类算法通过合理的改进之后,应用于DNA序列数据集的隐私保护算法中,针对已经存在的隐私保护算法DNALA算法的不足之处进行改进优化,提出新算法DNALA-IA,主要包括DNALA-DMA算法和DNALA-CA算法两部分,详见如下:(1)针对原来的DNALA算法所使用的多序列比对方法,存在比对时间较长,效率太低的问题,使用DNALA-DMA算法,该算法使用两两双序列比对的方法计算距离矩阵,不仅提高了序列比对的时间效率,同时DNALA算法最终结果精度不降低,而且在减少被挖掘信息损失度的前提下,实现了个人信息的隐私保护的目的。(2)针对原来的DNALA算法取得的结果精度不高而且不能实时更新聚类算法结果的缺点,使用DNALA-CA算法,该算法中的最大权匹配的聚类算法MWMCA,提高聚类结果的精度的同时,时间复杂度不变。该DNALA-CA算法中的数据流隐私保护框架WCPPF算法分为在线部分和离线部分,针对实时更新聚类结果的问题使用在线算法部分,快速的改变聚类结果,动态的维护数据流的变化。本文把DNALA-DMA和DNALA-CA算法配合使用,得到改进的DNALA-IA算法,实时选择合适的算法使用频率,取得最佳的聚类结果,挖掘知识金块!