序列模式挖掘中的增量式更新算法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:wy2633110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是指挖掘相对于时间或其他模式出现频率高的模式,是数据挖掘的一个重要分支。在交易数据分析,病症分析,Web日志分析,天气预报等领域具有广泛的应用前景。 本文选择序列模式作为研究对象,系统的分析了当前序列模式挖掘的现状;针对一般序列模式算法、交互式序列模式、增量式序列模式三个方面展开研究和实验。主要研究工作和成果有: 1、分析了序列模式国内外的研究现状。从序列模式挖掘的基本方法和序列模式挖掘现有的模型两个角度对相关文献进行归类分析。 2、提出了一种基于CTID的改进算法SPM(Sequential Patterns Mining)。该算法利用时序连接,将时序情况分为时序前缀和时序后缀两种情况进行计算,可以得到更多有效序列;并且在剪枝过程中充分利用CTID表的特点,简化了剪枝步骤,从而提高了算法效率。 3、提出了一种基于投影数据库的交互式序列模式挖掘算法FISP (Fast Interactive Sequential Patterns Mining )。在实际挖掘的过程中,用户通常会指定不同的最小支持度,以得到满意的序列模式。所以整个挖掘过程是一个迭代和交互的过程。如果支持度改变时,重新挖掘显然是低效的。FISP利用前次挖掘得到的序列,来缩减本次挖掘的投影数据库;并设置了一个全局阈值来减少整个交互过程的时间和空间消耗。 4、 提出了基于投影数据库的增量式更新算法ISMP (Incremental Sequential Patterns Mining Based on Projected Database)。数据库往往是随时间动态更新的。更新后,一部分旧的序列模式可能会不再满足最小支持度,并且会有新的序列模式出现。在处理具有大量数据的大型数据库时,对整个数据库重新执行一般的序列模式挖掘算法显然是低效的,因此需要有效的算法来更新、维护和管理已经发现的知识,以反映这种交易数据库的动态更新。ISMP用间接拼接更新已经得到序列,用增量数据库来减小投影数据库,提高了算法效率。并且考虑了数据库减小时的序列模式更新。当增量数据库较大时,算法效率更高。 通过实验对上述三种算法进行了验证,结果表明算法是有效可行的。
其他文献
作为计算机软件的一个重要分支,数据库管理系统是当前最复杂的软件系统之一。数据库管理系统(DBMS)是一个强有力的工具,用于高效地管理大量的数据,并使得数据能够安全地长期保存
接入网在最近几年发展迅速,尤其是宽带接入的发展,由于在接入网位于网络的边缘,物理环境比较多样复杂,因此基于不同的接入网环境出现了多种宽带接入技术,ADSL技术是在传统电信网络
固定网络采用两种方式利用它的静态特性:第一,它主动地将网络拓扑信息分发给结点,根据这些拓扑信息,每个结点再使用相对简单的算法计算得到路由。第二,因为大规模网络的完整拓扑信
这篇论文主要解决的课题是基于ISG平台的电信增值业务的研究和开发,智能服务网关(ISG)给网络运营商提供了一个向业务服务提供商和第三方客户应用开发商开放其网络资源的标准的
超声图像诊断是与X线CT、同位素扫描、核磁共振等一样重要的医学图像诊断手段。超声检查能够无损、直观地显示人体脏器的形态结构,能实时地观察人体脏器的功能活动而且操作简
随着计算机科学技术的发展和普及,特别是计算机在国民经济中的广泛应用,作为计算机灵魂的软件在社会生活中,尤其是在现代企业中得到广泛的应用。拥有优秀的跨平台特性的Java
本文对汉语术语的抽取进行了一定的研究,设计了一个统计方法和规则方法相结合的汉语专业领域术语抽取算法,并具体实现。在本文的实验系统DSTES中,共有四个核心模块:预处理模块,对
作为支持向量机和神经网络应用研究的重要补充和发展,针对目前用于生产生活的监视、监控系统的广泛重视,本文提出了基于视频图像的MPEG4 压缩方式和支持向量回归与径向基函数
计算机技术的迅猛发展使得人们创作、使用数字多媒体作品变得越来越容易,并由于互联网技术的发展又极大的推动了数字多媒体作品的广泛传播,一幅好的数字多媒体作品可以在一夜之
本文介绍了目前在国内电信业发展迅速的PHS无线市话网络和它的GIS体系结构和特点,介绍了PHS GIS系统的建立过程和GIS系统在PHS网络中全方位的应用,说明了GIS相比传统DBMS系统在