基于最小位置的频繁序列和闭序列挖掘方法研究

来源 :东北大学 | 被引量 : 1次 | 上传用户：rui6372472

【摘要】

：

随着互联网的极大普及和计算机技术、信息管理技术、信息系统的迅猛发展,各行业的数据量激增,在此背景下诞生的KDD(Knowledge Discovery in Databases,知识发现)和DM(Data Mi

【作者】

：

熊凯

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2012年01期

【关键词】

：

频繁序列挖掘最小位置闭序列挖掘相邻序列

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的极大普及和计算机技术、信息管理技术、信息系统的迅猛发展,各行业的数据量激增,在此背景下诞生的KDD(Knowledge Discovery in Databases,知识发现)和DM(Data Mining,数据挖掘)给人们提供了一种新的认识数据和理解数据的智能手段。数据挖掘就是从大量的、不完整的、有噪声的、随机的数据中,提取隐含在其中的、人们事先不知道的、具有潜在价值的信息和知识的过程。序列模式挖掘是数据挖掘研究领域中一个重要的研究课题,其主要研究目的是从大型时序数据库中发现事件之间存在的隐藏的、有趣的序列关系。本文针对序列模式挖掘中的频繁序列挖掘和闭序列挖掘展开研究。为实现序列模式的高效挖掘,本文以传统序列模式挖掘算法为基础,结合序列模式自身的特点,建立了ML-List (Minimal Location List,最小位置表)结构,并基于这种结构提出了一种频繁序列挖掘新算法FSM_BML(Frequent Sequence Mining based on Minimal Location,基于最小位置的频繁序列挖掘)和一种闭序列挖掘新算法FCSM_BASC(Frequent Closed Sequence Mining based on Adjacent Sequence Check,基于相邻序列检测的闭序列挖掘)。本文的研究重点在于减少扫描原始序列数据库中记录的次数,另外,还提出了一种能够加速支持度计算的方法和一种只需在相邻序列间进行的闭合检测方法,主要贡献如下。首先,本文利用相同记录号克服了传统频繁序列挖掘算法中反复扫描原始序列数据库中全部记录或投影数据库中全部投影的弊端。其次,本文提出了一种利用序列的最小位置快速确定搜索的起始位置的方法,加强了搜索序列的针对性,避免了传统频繁序列挖掘算法中全部从序列的最开始进行搜索,从而提高了频繁序列挖掘的效率。再次,本文提出了一种只需在相邻序列间进行子模式检测的闭合检测方法,大大减少了检测范围,且只保留候选闭序列一次,在很大程度上提高了闭序列挖掘的效率。最后,本文提出了一种半避免冗余剪枝方法,可以提前确定部分的非闭序列,并减少了部分支持度的计算,除此之外,本文提出了另一种避免冗余剪枝方法,可以提前确定部分的闭序列,并将那些一定不能扩展成频繁(x+1)-序列的频繁x-序列剪枝,减少了搜索空间。两种剪枝方法提高了闭序列挖掘的效率。实验结果验证了本文所提出的算法的正确性和高效性。

其他文献

多FBG传感器解调新方法的计算机信息处理系统的研究

FBG传感器是目前光纤光栅传感领域的研究热点之一，其被广泛应用于大型复合材料和混凝土的结构监测，智能材料的性能监测，电力工业，医药和化工等领域。FBG的解调技术是当前FBG传感

学位

光纤布拉格光栅(FBG)波长解调分布式

一类图像处理算法的可重构研究

传统的冯·诺依曼体系结构的通用处理器都含有固定的硬件结构，通过顺序执行指令来实现计算任务，本质上是串行的，而专用集成电路(ASIC)将适当的功能单元以固定的方式连接起来完成

学位

可重构FFT浮点FPGA

网络蠕虫病毒监测报警系统的设计与实现

当网络迅速发展的时候,网络蠕虫病毒引起的危害开始显现,网络的发展使得网络蠕虫可以在短短的时间内蔓延整个网络,造成网络瘫痪,使得网络管理面临更大的挑战,网络蠕虫病毒的

学位

网络蠕虫截获采集监测报警

XML数据库面向路径可扩展模型的研究与实现

XML自出现以来就被作为半结构化数据的典型框架。迄今为止,已经出现了一些与XML数据库相关的查询和存储模型。这些模型都从不同方面涉及到XQuery/XPath中的核心问题——路径

学位

中间件面向路径的可扩展模型路径表达式坐标映射结构连接查询路径图

嵌入式因特网安全协议的研究与设计

嵌入式Internet技术是进入90年代以来计算机应用领域的一个新的研究热点.它是为解决设备上网问题而提出来的.Internet提供的开放性环境并不能保证接入系统的安全性,这就使得

学位

嵌入式系统杂凑函数分组密码算法密钥恢复

远程虚拟实验信息平台负载均衡研究

实验教学是远程教育中的一个难题,学生很难通过网络进行真正的交互式实验。虚拟实验技术和远程教育结合起来的远程虚拟实验系统为解决这个问题提供了一个良好的解决方案。远

学位

虚拟实验负载均衡同步阻塞

面向DTV的媒体呈现中间件的研究与实现

随着数字技术和网络技术的迅猛发展，计算机通信技术与传统家用电器相结合产生的智能化信息电器(Information Appliance)开始走向市场，并将逐渐深入到人们的日常生活中。DTV(Dig

学位

数字电视多媒体家用平台中间件DVB-JJMF

基于netgraph机制的内容过滤防火墙研究及应用

该论文主要针对网络安全中内容过滤防火墙的体系结构进行了深入的理论研究,并且结合嗅探型防黄网关系统(Sniffer Gateway Design System for firewall,SGDS)的具体设计要求,

学位

防火墙体系结构内容过滤netgraph操作系统内核

企业信息资源整合与查询优化

随着企业信息化的发展,一个企业往往有很多种异构信息系统在同时使用,形成一些"信息孤岛",在很大程度上限制了信息系统在企业运作中的作用.例如,在"信息孤岛"下,企业信息数据

学位

信息资源整合系统集成数据仓库查询优化

集群服务器中的作业管理系统

随着现代社会计算能力需求的迅猛发展,单台计算机已经不能胜任一些大规模应用问题的解决.这就需要将多种计算资源通过高速网络连接起来,共同解决大型应用问题.集群技术的发展

学位

集群调度器资源监控作业管理系统

基于最小位置的频繁序列和闭序列挖掘方法研究

与本文相关的学术论文