论文部分内容阅读
随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的针对单机运行环境设计的序列模式挖掘算法可能不再有效。另一方面,在序列模式挖掘过程中还存在着敏感信息泄露的问题,尤其在分布式环境下更加值得关注。现有的分布式数据挖掘和隐私保护问题的研究主要集中于关联规则挖掘方面,对于序列模式挖掘隐私保护的研究却较少,因此,研究基于隐私保护的分布式序列模式挖掘算法具有重要的理论和实际意义。本文在研究现有的序列模式挖掘和隐私保护算法的基础上,结合分布式环境的特点,对PrefixSpan算法进行改进,并利用关联规则隐私保护算法思想,研究了基于隐私保护的分布式序列模式挖掘的问题。主要工作包括以下几个方面:1.对典型的序列模式挖掘算法和分布式数据挖掘算法进行研究,分析PrefixSpan算法的特点,以PrefixSpan算法为基础,结合分布式计算的特点,研究并提出了一种分布式序列模式挖掘算法DSPM(Distributed Sequential Pattern Mining),详细介绍了算法思想和流程;2.针对分布式环境下信息传递耗费大、任务可并行执行等特点,对DSPM算法进行了进一步的改进,提出了几个能够提高挖掘效率的策略,并将这些策略应用到了原型系统中,进一步提高了系统的性能;3.分析研究了典型的关联规则隐私保护算法思想,比较关联规则挖掘与序列模式挖掘的异同,在此基础上研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD(Current Least Sequences Delete),该方法通过删除原始序列来降低敏感序列的支持数达到隐藏的目的;4.以DSPM算法和CLSD算法为基础,使用Java语言实现了一个基于隐私保护的分布式序列模式挖掘原型系统。该系统采用了序列化/反序列化、多线程等技术,进一步确保系统具有更高的执行效率。