大数据中关于效用模式挖掘的扩展研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:q000q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库技术的飞速发展以及各行各业数据量的指数级增长引领着人们步入大数据时代。如何快速而有效的从大量的未处理的数据中获取到人们所需要的信息已经引起了人们的重视。高效用模式挖掘作为数据挖掘领域中一个重要的研究课题,首次被提出主要用于解决频繁模式挖掘的缺陷,即频繁模式挖掘仅仅考虑模式出现的频率,而忽视了其他重要的信息,比如数量和利润,效用模式挖掘正好弥补了这个缺陷。目前已有很多算法被提出用于效用模式挖掘的基础问题。然而,考虑到各种实际因素,在效用模式挖掘的基础问题上延伸出了许多新的研究课题还有待解决,包括非确定性高效用模式挖掘、闭合高效用模式挖掘、增量型高效用模式挖掘以及top-n高效用模式挖掘等等。现有的增量型高效用模式挖掘算法和top-n高效用模式挖掘算法或者基于一个两阶段的模型,产生了大量的候选集、造成了规模性问题,或者基于一个垂直数据结构、产生了大量的连接操作、导致效率低下。为了解决上述问题,本文基于现有的d2HUP算法,使用了一种新的数据结构和多个新的剪枝策略,分别提出了两个新算法来解决增量型效用挖掘和top-n效用挖掘问题。本文首先对现有的高效用模式挖掘算法做一个综述性的分析及对比,主要表现在运行时间、内存使用、候选集数量以及规模性方面,并得出d2HUP算法是目前已知的最优的算法,尤其是在运行时间方面相比于其他的算法有1到2个数量级的提升,该算法作为后续增量型效用模式挖掘和top-n效用模式挖掘研究的基础算法。HUPTID算法是在d2HUP算法基础上提出的主要用于在数据库交易项记录增加和删除的情况下直接的挖掘出所有的高效用模式。首先,一个新的数据结构被提出用于增量型效用模式挖掘。第二,三个策略被提出用于各种可能的改变情况下减少不必要的挖掘操作,同时,对挖掘过程中可能出现的三种情况分别提出了相应的策略来进行剪枝。在实验部分,三种情况分别被分析,即交易项记录既有插入也有删除,交易项记录只有插入、以及交易项记录只有删除。结果表明HUPTID算法比目前已知的增量型效用模式挖掘算法效率高出了 1到2个数量级。TONUP算法也是在d2HUP算法基础上提出的主要用于解决top-n高效用模式挖掘问题。该算法首先对d2HUP算法本身进行了优化,然后提出了5个策略来尽可能快的提高阈值,并最终得到最优的阂值以及所需要的n个模式。实验表明,TONUP比目前已知的top-n高效用模式挖掘算法效率高到了 1到3个数量级,甚至优于在最优的阈值条件下执行的效用模式挖掘算法,效率高出了 2个数量级。
其他文献
本文为一篇英译汉翻译实践报告,翻译文本节选自美国拉乌尔·阿雷奥拉(Raoul A. Arreola)博士的著作《教师综合评价体系的建构》(Developing a Comprehensive Faculty Evaluat
药品质量是临床用药安全、有效的重要保障。中药复方制剂的成分复杂,传统的单一指标质控方法,已经不能代表中药复方制剂的质量优劣。建立较为全面的中药复方制剂质量控制方法
一直以来,每当提及时尚二字,人们总认为它是西方世界特有的产物,是属于西方国家的专有特权。的确,在时装业领域,无论是高级时装,还是工业化成衣,当今时尚业的走势大多都能在
大数据时代,个人所拥有的数据量正在呈现爆炸式增长,个人所需要处理的数据种类也趋于庞杂。面对人们日益增长的需求,基于物理存储介质的个人本地存储存在着便携性差,存储容量
随着互联网的兴起,各种类型数据包括文本、音频和图像等以惊人的速度增加。而文本数据与音频和图像数据相比,它占用网络资源少,传输速率高,更易于被上传和下载。这使得网络资
树木图像的特征点提取和匹配为后续的树木三维模型构造和可视化提供最直接的数据基础。本文在分析研究了传统的Harris算法、SUSAN算法、SIFT算法等图像特征点提取技术的基础
由于我国经济持续高速发展,城市私家车保有量日益增加,这就对交通监测和指挥系统的性能提出了更高的要求。为了缓解交通压力,世界各国纷纷对智能交通系统(Intelligent Transp
随着科学技术的迅猛发展,计算机立体视觉正广泛应用于电子、医学、航空航天等领域当中。摄像机的双目视觉系统模仿人类的双眼,使计算机具有视觉认知功能从而利用图像获取信息
随着智能化的不断普及,人机交互方式也在不断发生变革。作为人机交互领域的研究热点,体感交互符合人类日常交流习惯,在虚拟现实、智能家居等诸多领域具备广阔的应用前景。目
短文本摘要任务涉及文本间语义相似性计算以及自然语言生成等方向的研究,是一类非常具有研究价值的问题。当前深度学习模型已经应用于自然语言处理领域的研究,但是对于短文本