重复正负序列模式挖掘关键技术的研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:sangyilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘技术研究作为数据挖掘与知识发现领域的重要分支,它的目的是发现有趣的序列事件,为理论或实际应用提供数据支持。不同于传统序列模式挖掘思路,负序列模式提供了一种序列模式分析的新角度,它不仅涵盖了已经存在或发生的事件(行为),还将未发生的事件(行为)考虑在内。这些未发生的事件的性质为本应发生的,但因为某些原因而被隐藏,因此往往容易被人们忽略而导致错失了重要信息。近年来人们愈发认可负序列模式的价值,并在诸多实际领域中应用了负序列模式来提取有效信息,例如在消费行为分析,疾病诊疗和健康保险领域均提供了强有力的数据支持。然而,目前所有的负序列模式挖掘技术都没有将重复模式考虑在内,即它们只考虑了子序列在数据序列间出现的情况,而忽略掉了子序列在同一数据序列重复出现的情况。如果一条负子序列在一条数据序列中重复出现,意味着这条负子序列会拥有更高的支持度,从而引起人们的兴趣,但若是不考虑重复模式,这样一条拥有高重复性质的负序列就很有可能不被发现,导致有效信息的遗漏。因此,本文在重复序列模式挖掘方向做了系统的研究,探索了如何高效的发现重复正序列模式和重复负序列模式,并针对其中的关键问题进行了深入探讨。此外,本文研究了现有的负序列模式挖掘算法存在的问题,并提出了一种更快速的负序列模式挖掘方法和一种可以从非频繁序列中挖掘频繁负序列的方法。具体内容如下:1、重复正序列模式挖掘方法。本文基于经典的GSP正序列挖掘算法提出了一种新的重复正序列模式挖掘算法RptGSP,并且对重复正序列进行了非重叠定义。RptGSP算法不仅考虑了传统支持度的计算方式,并且考虑了正子序列在每条数据序列内部的重复次数,从而进一步获得更多有趣有效的序列信息,为数据分析提供更好的支持。2、重复负序列模式挖掘方法。目前所有负序列模式挖掘算法均未考虑序列的重复模式,因此我们首先对重复负序列模式进行了定义,并提出了一种不需要重复扫描数据库的高效重复负序列模式挖掘算法e-RNSP。该方法首先基于RptGSP算法发现的重复正序列来生成重复负候选序列,之后应用公式可以高效的计算负候选的重复支持度,从而避免了重复扫描序列数据库。实验结果表明e-RNSP可以高效的发现具有高重复性的负序列模式。3、快速负序列模式挖掘方法。针对负序列模式挖掘算法e-NSP的不足,本文提出了一种更加快速地挖掘负序列模式的方法f-NSP。F-NSP使用了位图结构体替代了e-NSP算法中原有的数组结构体,该结构体用于表示每一条候选负序列被数据库序列的包含关系,从而可以应用高效的位运算来计算负候选序列的支持度,进一步提高挖掘负序列模式的效率。由于使用位图可能在支持度极低的情况下造成数据空间比e-NSP消耗多的情况,本文又提出了一种自适应数据存储策略来解决上述问题,并将其应用在算法f-NSP+中。实验证明,在大多数情况下,f-NSP比e-NSP的效率高出几倍到十几倍,最好的情况下可以比e-NSP快上百倍,但是在有些情况下,例如数据库所有频繁模式支持度极低的情况下,e-NSP仍然具有它的优势。4、非频繁正序列中负序列模式挖掘方法。目前大部分的负序列模式挖掘方法都是从频繁正序列中挖掘负序列模式,忽略掉了非频繁正序列同样可能包含频繁的负序列模式。因此本文提出了一个不仅可以从正频繁模式,而且可以从非频繁正序列中挖掘负序列模式的方法e-NSPFI。因数据规模太过于庞大,所以并不是所有的非频繁正序列都应被考虑,因此我们首先定义了合理的非频繁正序列,之后应用公式计算负候选序列的支持度,高效的挖掘出更多具有价值的负序列模式。
其他文献
随着信息技术,特别是数据库技术的飞速发展,海量数据的收集、管理和分析变得越来越方便。包括分类挖掘在内的各种数据挖掘技术,在一些深层次的应用中发挥了非常积极的作用。但与
随着互联网技术的进步和广泛应用,特别是近年来移动网络的发展,空间数据的信息量以指数级趋势增长。空间数据库将当前大量毫无关联的数据整合起来,做为强有力的决策依据,在诸
随着移动通信技术和全球定位技术(GPS)快速发展,越来越多的空间对象需要处理位置随时间变化的应用需求。如何有效跟踪和管理空间中的移动对象,成为研究的热点。然而在现实应
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能协作地监测、感知和采集各种环境或监测对象的信息,并进行处理,最终将信息传送给感
目前,ARINC-429数字信息传输规范已成为航电设备之间数字传输工业标准,但在ARINC-429数据传输的多路总线接口设计中大多数还采用中断形式实现。由于中断引脚资源有限导致设备扩
计算机辅助检测(Computer-aided detection, CAD)是指用数字图像处理技术和计算机视觉技术等,帮助医生解读海量图像,获得有价值的诊断信息。CAD系统不仅有助于提高医生诊断的
随着信息技术的高速发展,移动通信工具的使用已经渗透到人们日常生活的各个方面,同时人们对于移动通信网络服务质量要求越来越高。随着用户群的不断增大,移动通信网络所承受
无线传感器网络是由大量分布的不同规格和功能的具有感知、计算和通信能力的微型传感器节点通过自组织的方式构成的一个以数据为中心的无线网络。大量传感器节点通过相互之间
本文以面向行程时间预测的公交车GPS数据挖掘为主题,围绕该主题,进行了相关内容的研究。论文共分七章。第一章给出了本论文的相关研究背景和意义、研究现状和论文主要研究工
计算流体力学(Computational Fluid Dynamics,CFD)采用数值计算方法针对复杂流动问题进行求解以发现各种流动的现象和规律,已经广泛应用在航空、航空、气象等领域。格子Boltzma