基于隐私保护的分布式序列模式挖掘算法研究

来源 :江苏大学 | 被引量 : 4次 | 上传用户:zhang2jie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的针对单机运行环境设计的序列模式挖掘算法可能不再有效。另一方面,在序列模式挖掘过程中还存在着敏感信息泄露的问题,尤其在分布式环境下更加值得关注。现有的分布式数据挖掘和隐私保护问题的研究主要集中于关联规则挖掘方面,对于序列模式挖掘隐私保护的研究却较少,因此,研究基于隐私保护的分布式序列模式挖掘算法具有重要的理论和实际意义。本文在研究现有的序列模式挖掘和隐私保护算法的基础上,结合分布式环境的特点,对PrefixSpan算法进行改进,并利用关联规则隐私保护算法思想,研究了基于隐私保护的分布式序列模式挖掘的问题。主要工作包括以下几个方面:1.对典型的序列模式挖掘算法和分布式数据挖掘算法进行研究,分析PrefixSpan算法的特点,以PrefixSpan算法为基础,结合分布式计算的特点,研究并提出了一种分布式序列模式挖掘算法DSPM(Distributed Sequential Pattern Mining),详细介绍了算法思想和流程;2.针对分布式环境下信息传递耗费大、任务可并行执行等特点,对DSPM算法进行了进一步的改进,提出了几个能够提高挖掘效率的策略,并将这些策略应用到了原型系统中,进一步提高了系统的性能;3.分析研究了典型的关联规则隐私保护算法思想,比较关联规则挖掘与序列模式挖掘的异同,在此基础上研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD(Current Least Sequences Delete),该方法通过删除原始序列来降低敏感序列的支持数达到隐藏的目的;4.以DSPM算法和CLSD算法为基础,使用Java语言实现了一个基于隐私保护的分布式序列模式挖掘原型系统。该系统采用了序列化/反序列化、多线程等技术,进一步确保系统具有更高的执行效率。
其他文献
随着因特网通信业务量的不断膨胀,如何有效地在QoS约束下寻找具有最小网络费用的多播路由树成为研究的热点。论文主要研究基于蚂蚁优化算法的具有QoS约束的分布式多播路由算
计算机技术、多媒体技术以及Internet技术的长足发展导致了大量图像的出现,如何有效地、快速地从大规模图像数据库中检索出所需的图像是目前一个相当重要又富有挑战性的研究
随着信息技术和互联网的飞速发展,网络信息资源正以惊人的速度在增长,人们逐渐从信息匮乏的时代走入了信息超载(Information Overload)的时代。推荐技术就是解决这一问题的重要工
随着计算机技术和网络技术的飞速发展,数据共享成为信息时代的新需求。数据共享要求数据不但是可访问的,而且必须是可持久的。在使用面向对象的方法对数据进行展示和处理时,
随着智能交通系统的日益发展,车辆识别技术在智能交通监控、智能交通信息系统等方面应用越来越广泛。车辆识别包含了运动车辆检测、车辆型别分类、车辆跟踪以及车牌识别等内容
神经网络的学习方式可分为两种,一种是有监督的学习,这时利用给定的训练样本进行分类或模仿:另一种是非监督的学习,这时只规定学习方式或某些规则,而具体的学习内容随系统所处的环
基于SIP协议的服务可以用在市话和长途电话技术、在线消息和即时消息、I.Centrex/Hoste.PBX、语音短信、一键通话、多媒体会议等。SIP的提出和发展为IP电话技术的成熟和演进
Petri网是一种系统描述和分析的工具。在Petri网的诸多性质研究中,可达性研究大概是最基本的一个动态性质研究。可达性在一定意义上可说是研究Petri网其他动态性质的基石,许多
中国邮路问题是管梅谷教授在1960年第一次提出来的。它描述了一个极具现实意义的问题:一个邮递员负责一个地区的信件投递,每天从邮局出发,走遍该地区的所有街道再返回邮局,问
本文提出了一种基于Snort(sniffer and more)的网络入侵检测系统,Snort是一个强大的轻量级的网络入侵检测系统,它具有实时数据流量分析和日志IP网络数据包的能力,能够进行协议分