序列模式挖掘算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:ZHANGLONGQI008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘中比较活跃的研究方向之一,它反映了大量数据中项目之间有趣的关联或联系,一个比较经典例子就是“90%的客户在购买面包和黄油的同时也购买了牛奶”,数据库中的每个项目以平等一致的方式来处理。而加权关联规则则考虑了各个项目的不同的关注度,从一定程度上提高了传统关联规则的兴趣度。序列模式是在关联模型中增加了时间属性,把数据之间的关联性与时间联系起来,寻找的事务之间在时间上的先后次序关系,预测将来可能出现的值的分布。 目前,对序列模式挖掘算法的研究很多,主要集中在如何提高算法的时间效率和减少空间上的开销。但在庞大的交易数据库里,这些算法很容易产生几百、几千个序列模式,如果每个序列都要实验一遍,代价太高了且让人无所适从,如何从事务数据库中找出商家更感兴趣的精简的“黄金”序列就成了当务之急。因此本文在序列模式的基础上提出了偏爱度,并结合加权的概念,提出了FSPAM算法,经原型验证,该算法挖掘出的序列模式更精简且更有效。 其次、序列模式的经典算法的主要思想都是最开始从数据库中找到所有长度为 1 的频繁序列,由此产生长度为 2 的频繁序列集,接着得到长度为 3 的频繁序列集,如此反复直到数据库不再发现频繁序列为止。象这样重复扫描数据库,造成系统沉重的负担而导致效率不佳。本文利用邻接矩阵来记录事务数据库中 2-项频繁序列,进而生成需要的频繁模式。可以大大减少扫描数据库的次数,使系统的性能得到改善。
其他文献
现代科技的发展,尤其是生物实验技术和下一代基因测序设施的发展,每天都会产生大量的生物实验数据。为了有效的分析和利用这些数据,需要构建基因调控网络,去挖掘隐藏在数据背后的
直推式可信最邻近分类器(TCM-NN)是基于算法随机性理论提出的一种新的分类算法,它不仅能够判断样本的类别,还能够为每一个判断提供可信度,这对于分类机器的应用是很有意义的
“计算机接口技术”是一门实践性很强的课程,实验在这门课程中占有重要的位置。但目前现有的实验设备无法完全满足当今的教学需要,为此,本文提出了一种新型的计算机接口实验
许多生物序列数据库中都含有大量的冗余序列,这些冗余序列通常不利于对数据库的统计分析和处理,而且它们要占用更多的计算机存储和处理资源。去除这些冗余信息具有很高的实用价
测试用例的选择对于作为保证软件质量重要手段的软件测试的成败起着至关重要的作用,测试用例设计的目的是确定一组最有可能发现某个错误或某类错误的测试数据,实现系统对某个
物质配送在物流活动过程中充当着十分重要的角色,是与消费者直接相关联的重要环节。然而,配送成本在物流总成本中占着很高的比重。如何采用更科学、合理的配送方法逐渐成为学
事件驱动软件是当今软件的主流。其中GUI软件和WEB软件应用最为广泛。关于它们的软件测试一直是研究的热点。由于测试集庞大以及测试成本的限制,GUI软件和WEB软件的测试一直
大规模的网络部署、自组织的组网方式、能量有限的网络节点、动态变化的无线信道以及各种类型的流量模型和数据收集方式是传感器网络的固有特性。这些特性在实现网络功能的同
语言是人类最重要的交流工具,语音信号作为语言载体在不同的层面包含了大量的信息。其中与说话人相关的信息可以辨认说话人是谁或者确认此说话人是否为某特定的人。如今自动说
按键控制播放器系统是一个典型的手持设备产品,它通过外部按键来控制音频播放,以达到用户交互功能。   本文主要以ARM9处理器为目标平台,深入分析ARM公司提供的相关资料,介绍