隐私保护的多数据源序列模式挖掘算法

来源 :广西大学 | 被引量 : 0次 | 上传用户:caolippp123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了更好地对多数据源挖掘中可能出现的敏感信息进行保护,同时达到在数据库动态变化情形下也能高效准确地从多数据源环境中挖掘出所需序列模式的目的,本文针对多数据源环境下高投票率序列模式挖掘以及挖掘中出现的敏感知识泄露和数据库增量变化问题进行研究,主要研究隐私保护的多数据源序列模式挖掘算法的设计与实现。  在多数据源环境下,研究提出一种基于隐私保护的多源高投票率序列模式挖掘算法。通过计算数据库项集相似度,按照一定分类原则,设计了数据库个数和类个数可变的多数据源序列模式分类算法;同时,在给出一种有效的多数据源高投票率序列模式挖掘方法的基础上,结合隐私保护要求,采取“分类—清洗—合成—挖掘”方法,提出一种隐藏敏感模式的多源高投票率序列模式挖掘算法。与不隐藏敏感模式的多源高投票率序列模式挖掘算法进行实验测试对比,实验结果表明给出的算法只需花费额外少量的敏感模式匹配处理时间,可确保算法能够在挖掘得到全局高投票率序列模式的同时,隐藏敏感模式、保护多源数据中的隐私信息。  针对数据库动态变化的情形,对已有的增量式序列模式挖掘算法IncSpan进行改进,结合多源环境和隐私保护特性,按照相似度对原数据库和对应增量数据库分类,随后将每类数据库和增量数据库与敏感序列模式集合进行匹配,隐藏其中敏感序列模式。采用提出的多源增量式序列模式挖掘方法,分析挖掘其余“干净”序列模式中的全局高投票率序列模式。有效利用原始数据库挖掘结果和增量数据库分析结果,减少数据库扫描次数,缩短了挖掘时间。在扩展的增量式序列模式挖掘算法基础上设计多数据源环境下序列模式增量式挖掘隐私保护算法。实验结果表明改进的多源高投票率序列模式增量式挖掘隐私保护算法,相对非增量式挖掘算法,缩短了挖掘时间,有效保护了敏感信息,挖掘结果安全且准确。
其他文献
椭圆曲线密码系统是公认的最有前途的第三代公钥密码系统。椭圆曲线点乘计算是实现椭圆曲线密码系统的关键运算。本文针对椭圆曲线点乘计算十分耗时的问题进行分析,结合并行
在生物医学领域,三维显微图像信息的获取方式主要有激光共焦显微技术和数字共焦显微技术两种。其中,数字共焦显微技术因其信噪比高、无漂白影响、价格便宜等优点而受到广泛地
传感器网络众多关键技术中,网络节能十分重要。I.EACH协议作为第一个分簇路由协议,拥有很好的节能特性,具有很高的使用及研究价值。本文对LEACH协议成簇的过程,簇头选举的机
在道路病害检测中,由于摄像机多处于野外环境,通常摄像设备较为简陋,获取的道路图片分辨率较低。同时由于硬件成本较高,且成像系统本身的技术瓶颈,使得在很多领域高分辨率图像通常
关联规则是数据挖掘研究的一个重要内容,通过采用支持度和置信度去除非频繁项获得目标关联规则。对支持度分布严重倾斜的数据集挖掘时,传统的频繁项集挖掘算法不能有效适用于
谱学习是机器学习领域中的一种新的学习模式,目前已引起了人们的广泛关注。本文主要针对等谱流形学习问题进行研究,提出了等谱流形学习算法的基本框架,包括:1)给出了谱方法和流形
在互联网规模的不断壮大与新型网络业务的飞速发展的背景下,传统网络的缺点,如:需求难以应对、服务难以保障、配置管理复杂等缺陷尽显无疑。软件定义网络(Software Defined Net
随着 Web2.0时代的到来,Web服务相关技术的快速发展,不同的服务供应商在Internet上为用户提供越来越多功能相同或相似的Web服务,使得用户不得不需要花费大量的时间和精力来寻
网络编码允许结点对数据包进行编码操作。相较于传统存储转发机制,网络编码在吞吐量、数据机密性、数据流的不可追踪性、鲁棒性等方面有显著优势。因此该思想引起了学界的广泛
对等网络(Peer-to-Peer Network,简称P2P网络)融合了分布式系统与计算机网络,它利用了对等模式进行工作。与传统网络相比,P2P网络具有高可扩展性、高容错性和分布式等优点,因而在文