【摘 要】
:
随着网络化的高速发展,对数据的需求越来越大,于是大数据时代来临了。而大数据的出现也带来了数据的安全问题。因此,基于隐私保护的数据挖掘技术得到了广泛的研究,本文针对基于隐
论文部分内容阅读
随着网络化的高速发展,对数据的需求越来越大,于是大数据时代来临了。而大数据的出现也带来了数据的安全问题。因此,基于隐私保护的数据挖掘技术得到了广泛的研究,本文针对基于隐私保护关联规则的MASK算法进行剖析,并做了以下的一些工作: 首先,对本文研究所涉及的数据挖掘、隐私保护、关联规则、密码学等理论进行了简述。 其次,介绍了MASK算法和密码学的相关理论知识,并通过分析MASK算法扰乱数据集和求频繁项集获取关联规则两个步骤,提出了两种对MASK算法第一步骤的改进方法:第一种改进原理是在第一步扰乱数据集的过程中通过使用特殊值的形式进行扰乱,进而在第二步获取频繁项集时采用将扰乱数据集恢复为原数据集的方法,进而挖掘出属性之间的关联规则;第二种改进原理是在第一步扰乱数据集的过程中通过使用密码学中的矩阵加密算法对原数据集进行扰乱,在第二步获取频繁项集时通过解密算法使扰乱数据集恢复为原数据集,进而挖掘出属性之间的关联规则。实验表明改进算法有效提高了挖掘过程的运行时间,但是在数据的隐私保护度上出现了一定的劣势。 进一步,通过分析MASK算法扰乱数据集和求频繁项集获取关联规则两个步骤,提出了两种对MASK算法第二步骤的改进方法:第一种改进原理是在第二步获取频繁项集中对其中涉及的一个矩阵求逆进行矩阵分块处理,得到频繁项集的真实支持度,进而挖掘属性之间的关联规则;第二种改进原理是在第二步获取频繁项集中对其中涉及的一个矩阵求逆进行直接数学求逆公式的套用,最终得到频繁项集的支持度,进而挖掘属性之间的关联规则。实验表明改进算法最大程度的降低了算法的运行时间,同时保证了MASK算法的隐私保护问题。 最后,对本文改进算法做出了总结,期待拥有更大的展望空间。
其他文献
随着我国气象部门信息化工程的建设和发展,各研究机构都建立了各自的信息处理系统,而这些信息系统却是在建立在不同的平台上,使用不同的语言进行开发的,数据库的模式也不尽相
互联网源于美国国防部的ARPANET计划。后来ARPANET与美国国家科学基金会州SF建成的NSFNET互联,并且开始了与加拿大、欧洲和太平洋地区的网络连接,这就是如今遍布全球的互联网的
电子商务系统服务质量的提高和营运成本的降低都离不开其性能的分析与优化。而现阶段对电子商务系统性能分析的研究大多偏于理论方面,且可操作性不强,分析模型单一。为给电子商
对象请求代理(Object Request Broker,ORB)是分布对象计算的心脏,它使得许多麻烦而易错的分布式编程任务得以自动化。ORB作为一个“软总线”来连接网络上的不同对象,提供对象
计算机模拟在当代化学、生物学、制药学以及流体力学等科学领域的研究中都扮演着不可替代的作用。通过对介观层面上的颗粒以及分子的模拟,可以大大地缩短这些科学研究方法的周
随着并行计算技术的发展,越来越多的程序是基于并行模型开发的,而且它们会被托管运行在SMP虚拟机平台上,这就要求宿主机平台能够提供高效的虚拟机管理功能。其中,开源虚拟机监视
计算机网络的高速发展给计算机网络管理提出了更高的要求。在早期互联网并未充分地考虑其安全问题,但今天安全问题愈加突出,成为研究热点和业界瞩目的焦点。为了解决计算机网络
电力行业是国民经济的支柱产业,为提高电力运营的经济性和可靠性,需要在规划选址、经济运行中综合考虑诸多关联因素。电力系统中存在各种输变电设备状态监测系统用于提高运行稳定性。各种输变电设备状态监测系统在长期运行中积累了大量历史数据。合理利用这些历史数据,对于帮助电力系统决策人员做出科学的决策具有重大意义。考虑到各种电气设施分布在广阔的地域空间上,导致从这些设备采集到的运行数据多包含地理属性。为有效对这
随着计算机技术的不断发展以及其软硬件的更新换代,越来越多的人开始使用计算机对图像做各式各样的处理。图像处理技术也在迅速的发展,其应用范围也不断拓展,例如机器人视觉
随着移动电子设备在日常生活中的广泛使用,人们可以方便快捷地通过拍照获取图像,而图像中往往包含着内容丰富的文字信息,基于摄像头的应用产生了大量对拍摄场景内容理解的需求。