基于隐私保护的数据挖掘技术与研究

被引量 : 0次 | 上传用户:yisimple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展和应用,数据挖掘技术应运而生,但是传统的数据挖掘技术大多在原始数据上进行挖掘,在发现知识的同时,很多隐私敏感信息亦不可避免的被侵犯到了;很多研究者调查总结的结论指出,在数据挖掘的过程中,大量的个人隐私信息在当事人不知情的情况下被公开使用,甚至滥用,对于这种个人隐私信息被随意使用甚至违法乱用的现象,人们很担心,有些国家法律也规定了相应的法律法规,来规范数据挖掘的技术途径,强化挖掘信息的保护意识,在各种社会压力的迫使下,人们在进行于数据挖掘的同时必须保障个人隐私信息不被泄漏,必须在保护隐私信息的基础上进行数据挖掘。基于隐私保护的数据挖掘技术的研究目的,是在数据库中提取事先未知的,有价值的信息和知识的同时,又不暴露隐私信息(至少是一些敏感信息)。出于对人们隐私信息的保护,对原始的数据库信息进行处理,就变得迫不及待,基于各类数据挖掘中都会触及个人隐私,本文将以DNA序列数据集为研究对象,对其数据挖掘过程中的隐私算法进行改进,主要研究内容如下:将基于最大权匹配的算法和基于隐私保护框架的弱聚类算法通过合理的改进之后,应用于DNA序列数据集的隐私保护算法中,针对已经存在的隐私保护算法DNALA算法的不足之处进行改进优化,提出新算法DNALA-IA,主要包括DNALA-DMA算法和DNALA-CA算法两部分,详见如下:(1)针对原来的DNALA算法所使用的多序列比对方法,存在比对时间较长,效率太低的问题,使用DNALA-DMA算法,该算法使用两两双序列比对的方法计算距离矩阵,不仅提高了序列比对的时间效率,同时DNALA算法最终结果精度不降低,而且在减少被挖掘信息损失度的前提下,实现了个人信息的隐私保护的目的。(2)针对原来的DNALA算法取得的结果精度不高而且不能实时更新聚类算法结果的缺点,使用DNALA-CA算法,该算法中的最大权匹配的聚类算法MWMCA,提高聚类结果的精度的同时,时间复杂度不变。该DNALA-CA算法中的数据流隐私保护框架WCPPF算法分为在线部分和离线部分,针对实时更新聚类结果的问题使用在线算法部分,快速的改变聚类结果,动态的维护数据流的变化。本文把DNALA-DMA和DNALA-CA算法配合使用,得到改进的DNALA-IA算法,实时选择合适的算法使用频率,取得最佳的聚类结果,挖掘知识金块!
其他文献
银行流动性问题一直以来都是热点问题,尤其是在2013年中国银行出现严重的“钱荒”情况下,银行流动性问题再一次引起学者的关注。众多学者认为“钱荒”的发生与银行流动性创造
家庭寄养模式是一种由社会儿童福利院机构,以一定的法定手续使孤残儿童,进入那些愿意对他们提供家庭照顾责任的家庭实施养育的模式。福州市儿童福利院的家庭寄养模式,根据孤
随着全球化进程的不断推进,我国与世界上各个经济体的联系日益密切,对外直接投资成为企业参与经济全球化的普遍现象。由于我省以民营企业为主,在资金、技术等方面难以与大企
针对吉林省220kV架空输电线路防雷运行工作,统计分析了2010年至2016年间吉林省220kV输电线路雷击跳闸数量及跳闸率,分析了吉林省雷害故障因素,包括雷电地闪密度、雷击杆塔导
通过层次-模糊综合评判法将指标权重系数与评价矩阵模糊合成而建立了一种综合性的判断方法,达到排水采气工艺介入时机最佳的目的。
在德国的音乐史学词典中,歌唱剧《魔笛》有着有别于其它歌唱剧的特殊位置:它不但有高超精湛的作曲技法,同时更是一部集意、法、英等国多种歌剧音乐元素于一身的多元化"超级"歌唱
随着研究生扩招以及研究生收费制度的建立,研究生学费价格成为社会热点问题之一。研究生教育的性质和学费的性质是确定学费价格的前提,教育成本和教育的公共性程度(准公共产
近来,随着市场上“绿大地”“万福生科”等一系列欺诈案件的曝光,“企业内部控制失效”问题逐渐获得广泛关注,且市场上要求强化上市公司内部控制监管的呼声也愈发高涨。根据
2011年是我国“十二五”开局之年,为促进自主创新能力大幅提升,重点领域核心关键技术取得重大突破,科技部出台《国家“十二五”科学和技术发展规划》,明确了未来五年战略性新
随着信息化技术的飞速发展,各个高校都在利用信息技术来提高学校的管理水平。数字化校园建设就是最能体现学校信息化管理水平的重要依据之一。学生宿舍管理的信息化建设是学