基于倾斜时间窗口的频繁项集挖掘算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：huweibo

【摘要】

：

当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到

【作者】

：

徐艳红

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2010年期

【关键词】

：

数据流频繁项集二进制向量 LR-Trie树内存开销

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到达,这种数据模式就是数据流。由于数据流的流动性和无限性的特点,原有频繁项集挖掘算法已很难完成基于数据流上的挖掘任务。这些挑战吸引了许多人对数据流中频繁项集挖掘进行了大量研究。现在,数据流中频繁项集挖掘已成为数据挖掘中的热点之一。FP-stream算法可以实现在线挖掘多时间粒度的频繁项集。作为一个经典的挖掘算法,FP-stream算法具有较好的时间效率。但它的不足之处在于:算法使用FP-growth算法来生成频繁项集和计算支持数,需要很大的内存开销和时间开销;整个挖掘过程中,所有的历史信息数据都存于内存中,随着时间的推移内存空间将急剧的膨胀。所以,内存开销巨大是FP-stream算法最大的缺点。针对上述问题,本文将在原算法的基础之上,采用一种新的数据结构(LR-Trie树及树结点)来存储频繁项集及其对应的倾斜时间窗口。同时引入了垂直的二进制向量表示法存储事务数据以提高时空效率。由于构造了新的树结点结构,可以方便地完成LR-Trie树的线性存储和结点查询。另外将LR-Trie树分割为若干子树并以文件的形式存储,在内存中建立项和文件的索引表,按需调入文件,极大地减少了内存消耗。实验表明,改进后的算法在不明显降低原算法时间效率的前提下,提高了内存空间利用率。该算法适用于对时间要求不高,但对内存空间要求较高的应用。

其他文献

基于时间加权与评分预测的协同过滤推荐算法研究

随着信息技术的高速发展,我们逐渐从信息匮乏的时代走向了信息过载的时代,从海量的信息中获取有用并且感兴趣的信息越来越困难。推荐系统作为克服信息过载的重要工具,受到工

学位

动态特性时间加权协同过滤相似度评分预测稀疏性

基于LDA的文本分类研究及其应用

随着科技和网络的快速发展,如今我们已经进入数据信息的时代,每天都会有大量的数据在各种社交平台或者新闻网站上产生,其中一般都是文本数据。如何才能从这些浩如烟海的文本

学位

文本分类潜在狄利克雷分布主题词序二元语法词向量

面向服务(SOA)架构的公安请求服务系统

随着信息化的发展，公安系统内部建立了大量的应用系统，这些应用系统在开发语言、部署平台、通信协议、对外交互数据的格式上都存在着极大的不同。为了打破这种信息孤岛壁垒，实现

学位

公安管理信息共享网络服务数据库技术

二维CAD工程图半脆弱水印技术及其实现研究

二维工程图数字水印技术的研究涉及密码学、图像处理、信息安全等多门学科,是数字水印领域中一个重要研究方向。本文重点研究了二维CAD工程图脆弱水印技术。首先,论文阐述了

学位

数字水印二维工程图版权保护半脆弱水印内容认证

复杂流体场景的实时模拟研究

实时模拟具有复杂边界的大规模流体场景具有极其重要的研究与应用价值。为了加速模拟具有较大规模的流体场景,并且能够实时地与复杂流体边界进行交互,本文提出了一套可在通用

学位

流体模拟非均匀采样的粒子系统复杂边界光滑粒子流体动力学流体与复杂边界的交互基于通用图形处理器的并行加速算法实时模拟

一种可配置的后向散射无线传感网络架构

人类社会是在信息交流的基础上建立的,因而通信对人类社会文明、进步与发展起着巨大的推动作用。在物联网产业快速发展的同时,无线传感网络也受到了更多的关注。低成本和低功

学位

后向散射无线传感网软件无线电中断率

基于SCSI故障注入的可用性评测工具设计与实现

信息技术正从以计算设备为核心的计算时代和以交换机为中心的网络时代进入到以存储为核心的存储时代。面对大容量存储设备和存储系统,准确评测其应用级性能、可用性是待解决

学位

海量存储故障注入SCSI协议计算可用性

基于改进的HMM/SVM构架的语音识别系统的研究

语音识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,是语音信号处理的一个重要研究方向。作为一种生物识别技术,它具有广泛的应用前景,得

学位

语音识别特征提取HMM模型SVM模型基于改进的HMM/SVM模型

基于贝叶斯网络的大数据因果关系挖掘

2010年,全球的数据量跨入了ZB时代,根据IDC预测,至2020年全球将拥有超过35ZB的数据量,海量数据将直接或者间接的影响我们的日常工作、生活,乃至国家经济以及社会的发展[1]。

学位

大数据贝叶斯网络最小描述长度因果关系数据挖掘

网页消重和聚类算法在高校搜索引擎中的研究与应用

当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都还不能应用到实际应用中去。随着中国高校的

学位

聚类网页消重向量空间模型搜索引擎

基于倾斜时间窗口的频繁项集挖掘算法研究

与本文相关的学术论文