高效用模式挖掘算法研究及应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lanyezy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在技术不断变革的今天,越来越多的数据被生产出来。如何从庞杂的数据中发现有趣或有价值的内容成为目前学术界和工业界最为关注的问题。其中频繁模式挖掘因其能有效地挖掘出事务内在的联系而被广泛地应用于基因分析、文本分类、肿瘤诊断、图像处理等领域,但是频繁模式算法中的项在事务中只有两种状态:存在或者不存在。为了解决频繁模式算法只考虑项是否存在事务中而忽略了项本身效用的不足,高效用模式挖掘算法被提出。然而目前的高效用模式挖掘算法仍然存在很多不足,其中最主要问题是:(1)算法不易扩展;(2)算法缺少对于事务信息的有效压缩;(3)算法时效性低。本文针对这三个主要问题分别提出了基于静态数据库的高效用模式挖掘算法和基于动态增量数据库的增量高效用模式挖掘算法,并取得了优异的效果。同时本文给出了高效用模式挖掘算法在微博好友推荐中的实际应用。本文的主要工作有:1.提出了一个静态数据库中基于投影的高效用模式挖掘算法HUPMP。HUPMP是一阶段算法,在进行高效用模式挖掘的过程中不产生任何候选模式。2.提出了一个用以解决动态增量数据库问题的增量高效用算法IHUP。IHUP是在HUPMP的基础上提出的,充分利用了 HUPMP算法的可扩展性。3.提出了两个有效的结构HUP-Array和HUP-Result分别用来存储事务信息和高效用模式。使用HUP-Array结构将事务进行合并压缩,同时还极大地提高了算法的可扩展性。HUP-Result结构可以对结果集进行快速的查找和更新,使得算法在动态增量数据库的业务场景中有更高的响应速度。4.制定了四个策略用来提高算法的时间性能和减少算法的内存消耗。其中项按支持度降序排列策略可以极大地合并事务,将事务有效压缩以节省内存。前缀项之和的策略可以将HUP-Array的比较时间复杂度从O(M×N)降到O(1)。紧凑事务权重上限策略可以快速对低效用模式进行删减,提高算法性能。只处理新增事务中的项的策略可以很好应对增量高效用模式挖掘中对算法响应度高的要求。5.通过实验分别验证了 HUPMP和IHUP算法的有效性。通过与多个优秀算法在不同数据库下的仿真实验表明本文提出的HUPMP和IHUP算法分别在静态数据库和动态增量数据库中都有不错的性能。6.给出了高效用模式挖掘算法在微博好友推荐中的实际应用。通过对静态数据库和动态增量数据库两种不同场景下的高效用模式挖掘应用,说明了高效用模式挖掘算法在实际推荐系统中的灵活性和可扩展性。
其他文献
最近,网络舆情频繁发生,特别是网络上影响国内外的重大事件,往往会在极短的时间内就会引起全国网民的关注,从而形成相应的网络舆情事件。这对国家的安全具有一定的威胁性。在其中
特征提取算法在人脸识别研究领域占有重要的地位,是最基本的研究问题之一。目前,人脸特征提取的重点是对算法可行性与有效性的研究。尽管在特征提取领域,已经出现了许多经典的算
互联网的高速发展,给社会和人们的生活带来了巨大而深远的影响。互联网作为信息传播的载体,与传统的纸媒相比具有无法比拟的优越性,为不同领域如政治、经济、文化等的信息传
本课题来源于某城市三维警用地理信息系统的开发项目。论文题目中的“重点区域”是指飞机场、大型体育场馆等由于安全原因被重点关注的地域,其地域覆盖范围较小,但是具有非常
随着4G通信网络的开放和移动终端设备的智能化,移动互联网已经进入了突破性发展阶段。智能手机、掌上电脑等各种智能终端已经成为面向家庭满足消费需求,提供社会资讯、生活娱
随着信息技术和经济的快速发展,道路网不仅在其规模方面越来越大,同时其复杂程度也越来越高。在道路网中,最优路径的求解过程,往往只简单考虑了道路数据和道路网的特性而不是
图像缩放是数字图像处理领域中一个研究热点。其算法主要有插值算法和保持内容算法。插值算法又有最近邻域、双线性、双三次和基于边缘插值算法,目前大部分移动终端都应用该方
随着计算机技术的快速发展,对数据进行深度分析的需求逐渐增多,数据挖掘技术的应用越来越广泛。结合我国实际,针对教育部规定的高校评估指标体系中的生均教学行政用房面积指标是
学位
摄像机标定是进行立体视觉研究的重要组成部分,是计算机视觉获取三维空间信息的前提和基础,在计算机视觉、摄影测量、三维重建等图像应用领域有着广泛的应用。标定结果的好坏