发现Top-k高效用项集的算法

被引量 : 0次 | 上传用户:lszh2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个重要的研究领域,这个研究领域是在数据库中发现模式的计算过程。数据挖掘过程的总体目标是从数据中提取有用的信息和知识,并将其转换为一种可以理解的结构进行进一步的使用。在数据挖掘中一个基本的任务是频繁项集挖掘(FIM)。频繁项集挖掘包括发现在事务数据库中频繁的一起出现的项集。有许多被开发出来的算法能有效地发现频繁项集。但是为解决这个问题的这些算法存在着一些主要的缺陷。他们认为所有项有相同的重要性(如单位利润或重量)而且不考虑项的数量,通常这些假设在真实的应用中并不成立。  为了解决这个问题,发现高效用项集(HUIs)的任务具有的效用不低于用户指定的最小效用阈值已成为一个主要的研究问题。高效用项集是一个重要的数据挖掘任务。然而对于用户来说指定最小效用阈值并不是一项容易的任务。用户通常不知道什么样的阈值是最合适他们的需求而且他们也不能预测这个项集数量。选择一个合适的阈值直接影响发现高效用项集的数量,因此它也直接影响算法的效率和有效性。为了解决这个问题,top-k高效用项集挖掘任务被提出。  在top-k高效用项集挖掘中,用户必须指定一个用于指示项集数量的参数k而不是指定一个最小效用阈值。top-k高效用项集挖掘是在事务数据库中具有最高效用的发现k项集的过程。近年来,针对这一任务已经提出了一些算法。在这些算法中,结果项集的数量由用户控制,返回的结果没有被用户用于数据分析。然而,即使这样它仍然占用了昂贵的运行时间和内存消耗。这个是因为目前的算法往往产生大量的候选项集但却无法有效地修剪搜索空间。在本文中,为了解决这个问题,提出了一个叫做KHMC的新颖算法,它能更有效的发现top-k高效用项集。与其他几个top-k高效用项集挖掘算法不同的是KHMC利用一个单一的阶段去搜寻发现高效用项集。此外,该算法海采用了RIU,CUD,和COV三种策略来更有效的提高其内部最小效用阈值,从而减小了搜索空间。这个COV策略引入了一个新颖的覆盖的概念。在本文中提出的这个覆盖的概念可以在高效用项集挖掘中用来修剪搜索空间,或者在top-k高效用项集挖掘中提高阈值。此外,为计算项集效用KHMC依靠一个叫做EUCPT的新颖同现修剪技术可以避免执行耗资源的链接操作。另外还提出一个叫做TEP的新颖修剪策略用来减少搜索空间。  为了评估本文提出的算法的性能,在六个具有不同特点的数据集上进行了大量的实验。结果表明在做top-k高效用项集挖掘中该算法消耗的内存和运行时间比最先进的TKO和REPT算法更优。
其他文献
在高中化学教学中,化学教师需要采用兴趣化、生活化、信息化和探究化相结合的“四化”教学方式,激发学生的学习兴趣,让学生充分参与到课堂教学活动中,通过师生之间的互动交流
随着新课程在全国范围内的推广,高中化学教学也进入了新的发展阶段.新课程中的高中化学科目与初中阶段化学教学紧密连接,具备有螺旋式课程特征.所谓螺旋式课程是指根据学科知
河南日报12月6日头版刊载记者李长虹写的《县长降职引起的众说纷纭》一文看后,很受感动。一是体现了党的十三大“开放”“民主”精神,过去组织上那种考核干部神秘,降免干部
氧化还原反应是高中化学中非常重要的一部分内容.本文首先分析了氧化还原反应在高中化学学习中的重要地位,接着分析了氧化还原反应教学中存在的问题,最后在此基础上给出了提
高中化学实验教学强调在教师的正确引导下,学生自主参与化学实验操作,对已有的结论进行验证,对实验产生的可能结果加以分析,进而深化已学知识.探究式教学要求学生在进行实验
传统MMOG多数采用C/S或者B/S架构,由服务器负责处理全部的资源传输和逻辑运算。服务器是MMOG的主要成本。随着MMOG日益增长的用户量,这种集中式方法带来了游戏运营商硬件成本的
由于光学成像系统的景深范围有限,使得在对某一场景成像时很难获得所有目标都清晰的成像,在景深范围内的目标成像清晰,在景深范围外的目标成像模糊。若想得到场景中所有目标
一、高中化学导学案的编写1.导学案要以学生为主体导学案“对象是学生,学生是使用的主体,设计的思路紧紧围绕着”学生怎样学的,让学生在做中学.“导学案”不同于教学案,它要
工业过程检测技术中,传统的单测量点技术测量结果只能反映物场某特定点的信息,不能反映物场的二维信息变化。电容电阻(ECT/ERT)双模态层析技术是基于电磁场理论的新型测量技
为解决涉农客户的贷款难问题,银行和政府及其他有关部门开辟了很多渠道,如,扩大以林权、土地承包经营权等权益类的担保种类,扩大担保公司担保规模和范围等,但仍有相当一部分