基于倾斜时间窗口的频繁项集挖掘算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:huweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到达,这种数据模式就是数据流。由于数据流的流动性和无限性的特点,原有频繁项集挖掘算法已很难完成基于数据流上的挖掘任务。这些挑战吸引了许多人对数据流中频繁项集挖掘进行了大量研究。现在,数据流中频繁项集挖掘已成为数据挖掘中的热点之一。FP-stream算法可以实现在线挖掘多时间粒度的频繁项集。作为一个经典的挖掘算法,FP-stream算法具有较好的时间效率。但它的不足之处在于:算法使用FP-growth算法来生成频繁项集和计算支持数,需要很大的内存开销和时间开销;整个挖掘过程中,所有的历史信息数据都存于内存中,随着时间的推移内存空间将急剧的膨胀。所以,内存开销巨大是FP-stream算法最大的缺点。针对上述问题,本文将在原算法的基础之上,采用一种新的数据结构(LR-Trie树及树结点)来存储频繁项集及其对应的倾斜时间窗口。同时引入了垂直的二进制向量表示法存储事务数据以提高时空效率。由于构造了新的树结点结构,可以方便地完成LR-Trie树的线性存储和结点查询。另外将LR-Trie树分割为若干子树并以文件的形式存储,在内存中建立项和文件的索引表,按需调入文件,极大地减少了内存消耗。实验表明,改进后的算法在不明显降低原算法时间效率的前提下,提高了内存空间利用率。该算法适用于对时间要求不高,但对内存空间要求较高的应用。
其他文献
随着信息技术的高速发展,我们逐渐从信息匮乏的时代走向了信息过载的时代,从海量的信息中获取有用并且感兴趣的信息越来越困难。推荐系统作为克服信息过载的重要工具,受到工
随着科技和网络的快速发展,如今我们已经进入数据信息的时代,每天都会有大量的数据在各种社交平台或者新闻网站上产生,其中一般都是文本数据。如何才能从这些浩如烟海的文本
随着信息化的发展,公安系统内部建立了大量的应用系统,这些应用系统在开发语言、部署平台、通信协议、对外交互数据的格式上都存在着极大的不同。为了打破这种信息孤岛壁垒,实现
二维工程图数字水印技术的研究涉及密码学、图像处理、信息安全等多门学科,是数字水印领域中一个重要研究方向。本文重点研究了二维CAD工程图脆弱水印技术。首先,论文阐述了
实时模拟具有复杂边界的大规模流体场景具有极其重要的研究与应用价值。为了加速模拟具有较大规模的流体场景,并且能够实时地与复杂流体边界进行交互,本文提出了一套可在通用
人类社会是在信息交流的基础上建立的,因而通信对人类社会文明、进步与发展起着巨大的推动作用。在物联网产业快速发展的同时,无线传感网络也受到了更多的关注。低成本和低功
信息技术正从以计算设备为核心的计算时代和以交换机为中心的网络时代进入到以存储为核心的存储时代。面对大容量存储设备和存储系统,准确评测其应用级性能、可用性是待解决
语音识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,是语音信号处理的一个重要研究方向。作为一种生物识别技术,它具有广泛的应用前景,得
2010年,全球的数据量跨入了ZB时代,根据IDC预测,至2020年全球将拥有超过35ZB的数据量,海量数据将直接或者间接的影响我们的日常工作、生活,乃至国家经济以及社会的发展[1]。
当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都还不能应用到实际应用中去。随着中国高校的