平均高效用项集挖掘算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:weiyuanbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则作为数据挖掘研究中最活跃的研究问题之一,通过从数据中找到事务间的内在联系,提供给用户符合用户需求和兴趣的挖掘结果。关联规则挖掘可以处理来自各行各业的数据,在商业活动、科学研究、生物医疗等领域都有广泛的应用。在进行传统的关联规则挖掘时,首先需要根据项集出现频次得到频繁项集,然后根据规则置信度产生强关联规则;频繁项集挖掘只考虑项集的出现频次,忽略了各项本身的性质,所以出现频次不高但是具有价值的挖掘结果可能被丢失。为了克服这个缺点,基于效用的关联规则挖掘被提出。效用值用来衡量项的重要性,能够体现出项之间的差异。基于效用值的关联规则挖掘通过综合考虑项的频次和效用值,挖掘出更贴合用户需要的结果。传统的效用值会受到项集长度的影响,即项集长度越长,项集的效用值越大;为了消除这种影响,平均效用值和平均高效用项集挖掘算法被提出。目前存在的平均高效用项集挖掘算法往往需要多次扫描数据库或者产生大量的候选项集,会消耗大量的时间和空间。本文围绕着提高平均高效用项集挖掘的效率和数据流上的平均高效用项集挖掘展开研究,主要内容包括:针对现有的平均高效用项集挖掘算法需要产生候选项集这一问题,提出了新的平均高效用项集挖掘算法HAUI-Mine。该算法只需要扫描两次数据库,并且挖掘过程中不需要产生候选项集。还设计了一种新的数据结构HAUI-Tree,其中压缩存储事务数据库中的信息,通过递归构造条件模式树来挖掘平均高效用项集。实验结果表明,在数据集比较稠密或阈值比较小的情况下,HAUI-Mine算法的运行效率明显优于HAUP-Mine算法。提出了能够适用于数据流上的平均高效用项集挖掘的ITR-Mine算法。区别于传统事务数据库,数据流是无限的、按照一定顺序到达的流动的数据。因为数据流的特性,事务数据库中的挖掘算法不能直接对数据流进行实时、快速的挖掘。将ITR-Mine算法和滑动窗口技术相结合,可以用于挖掘数据流中的平均高效用项集。ITR-Tree算法只需要扫描窗口内数据一次,同时在挖掘过程中能够避免产生候选项集。在ITR-Mine算法中,用ITR-Tree这一新的数据结构存储项集信息;通过递归构造条件模式树的方法,从ITR-Tree上挖掘出当前窗口内数据中的平均高效用项集。窗口滑动时,窗口内数据进行更新,此时只需要部分修改ITR-Tree,比完全重构ITR-Tree更节约时间。
其他文献
  随着互联网Web2.0技术的不断发展及应用软件的不断成熟,软件即服务(Software as a Service,简称SaaS)模式,作为一种创新型的软件网络应用模式应运而生。在这种模式下,应
翼型设计是飞行器设计中比较重要的步骤,影响着飞行器的主要飞行品质。在进行翼型设计时,传统的风洞实验和CFD技术周期长、成本高。为了降低成本、提高翼型的设计效率,作为对现
随着IP网络的快速发展,人们已经越来越习惯使用IP网络来完成所有的事情,目前IP网络已经完全主宰了互联网络,照这个形式发展下去,今后的电视传输网络、电话交换网络也将不可避免被
最近几年,深度学习越来越受到人们的普遍关注。尤其是深度学习算法之一卷积神经网络(Convolutional Neural Network,CNN)变得越来越重要。因此,图像识别和图像分类逐渐成为计算机
自第三次科技革命以来,计算机技术的迅猛发展大大促进了人类文明的现代化。伴随着计算机技术的发展,人机交互的方式也不断革新,从传统的鼠标键盘到现在流行的触摸屏,再到更先进一
  基于多幅图像序列的三维重建,是通过提取物体的二维图像信息来恢复物体在真实空间中的三维信息,其主要步骤包括:图像序列的采集、图像特征点的检测与匹配、摄像机的标定、稀
随着信息技术的普及和全球信息化趋势的加强,今天软件产业已经成为发展速度最快的产业之一,软件过程标准化的重要性被提升到前所未有的高度,CMM(软件能力成熟度模型)应运而生,如今
本文通过对教育行政办公系统的工作内容进行全面的分析,并结合软件开发的特点,主要进行了以下几方面的研究:1、对“教育行政办公系统”的建设背景进行了详细的分析,研究了该系
随着信息时代的来临,物联网早已成为信息化发展中不可或缺的一部分。为了使物联网更加智能化,将语义引入物联网中,形成语义物联网。将语义物联网与面向服务的方法相结合,可以高效
随着网络技术的飞速发展和计算机应用的普及,人们的生活方式和工作模式都在渐渐的发生着改变。网络环境为人们的交流、资源的共享和生活提供了便利的条件。但随着网络带给我