高效用关联规则的挖掘

被引量 : 2次 | 上传用户:PEIDAO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则的挖掘就是要发现大量数据中项集之间的关联或相关联系,它是数据挖掘研究的重要内容之一,在科学研究、电信网络、市场与风险管理、客户关系管理(CRM)、存货控制、军事等方面得到了广泛应用。但是,传统的关联规则以支持度衡量项集的重要性,会丢失一些支持度不高但效用很高、用户很可能感兴趣的规则。本文研究的高效用关联规则弥补了传统关联规则无法表达项集效用的不足,能反映用户偏好,更好地满足决策需求。本文主要研究高维大数据集中高效用关联规则的挖掘算法,弥补了现有的基于效用关联规则挖掘算法不能有效处理高维大数据集的不足。文中还结合效用与支持度的特点,提出了基于效用与支持度的关联规则挖掘问题及算法,可发现更多的用户感兴趣的规则。本文的主要研究有:(1)提出了一种新的在高维大数据集中挖掘高效用长项集的算法Inter-transaction。该算法基于行枚举,通过长事务的交集运算,直接得到长项集,不必从短项集逐步扩展得到长项集。在高维数据集中,长事务间共同项目很少,事务进行交集运算后变短的速度很快,因此这种行枚举方法具有很好的收敛性。Inter-transaction算法还把划分的方法引入到效用挖掘中,仅扫描数据库两次,能很好地适应高维大数据集环境。同时,由于采用了新的剪枝策略,避免了大量的候选集的生成、检验。(2)提出了一种双向搜索高效用项集的混杂算法。现有的基于效用的关联规则挖掘算法采用类似Apriori的搜索策略,需要多次扫描数据库。当模式很长且数据集很大时,I/O负担太重。本文提出了一种从上下两个方向搜索高效用项集的混杂算法。该算法把发现所有高效用项集的任务分解为发现高效用长项集和高效用短项集两个相对容易解决的子问题,然后再选择不同的算法完成挖掘任务,避免了从短项集逐步扩展到长项集的冗长过程。(3)提出了一种优化长事务交集运算的方法。我们提出的挖掘高效用长项集的算法同时以水平项目向量(Horizontal item-vector,简称HIV)和水平项目列表(Horizontal item-list,简称HIL)两种格式存储事务,并利用HIL格式数据提供的信息减少比特级逻辑“与”运算的次数,使逻辑“与”运算的次数等于HIL格式数据的长度,与比特向量(HIV格式)的长度无关。这种以空间换时间的方法解决了事务交集运算的性能随比特向量长度的增长而降低的问题,保证了在高维环境下的高性能。这种优化方法也可有效提高垂直挖掘算法挖掘频繁长模式的效率。(4)提出了基于效用与支持度的关联规则挖掘问题。支持度与效用分别反映了项集的统计特性与语义特性,但人们对事物的兴趣度(或事物对人们的重要性)不但取决于事物本身的客观因素(如项集的支持度),与人们的主观因素(如人们对效用的不同理解)也密不可分。为克服单个度量(支持度或效用)的不足,本文提出了一种衡量项集重要性的新的度量:激励。项集的激励定义为支持度与效用的乘积,反映了用户获得某种效用的可能性或以某种可能性可获得多大的效用。在基于效用与支持度的关联规则挖掘中,高激励项集的挖掘避免了那些支持度不高但效用较高、或效用不高但支持度较高的项集的丢失,能发现更多的用户感兴趣的规则。(5)论证了激励具有两个重要的数学性质:上界特性和事务权重激励向下封闭特性。根据这两个特性,设计了两种挖掘高效用频繁集的算法HM-Miner和HM-Two-Phase-Miner。两种算法都采用了类似Apriori的自下而上的搜索方式,适合于短模式数据集的挖掘。HM-Miner利用激励的上界特性剪枝,HM-Two-Phase-Miner则利用事务权重激励向下封闭特性剪枝。(6)给出了一个高效用关联规则挖掘的应用系统,并用于购物篮分析中。该系统能同时输出关联规则(项集)的支持度、效用与激励,以比较基于支持度的关联规则与高效用关联规则挖掘的区别与联系。实际挖掘结果表明,高效用关联规则的挖掘能发现一些基于支持度关联规则无法发现的有趣模式,帮助商家找出高效用商品组合,促进高利润商品的销售。经过数据的转换处理,该系统还可应用于其他领域。例如,在网页分析中,把网页被访问的次数与浏览时间作为评价网页受欢迎程度的尺度,将网页挖掘问题变成高效用项集的挖掘问题。
其他文献
<正>汽动给水泵的安装、调试过程较为复杂,有些问题在过程中若不注意,将会给今后的运行留下事故隐患,下面以某电厂为例谈谈安装,调试过程中的几点体会。某电厂二期2*300MW机
使用Gleeble3500热模拟实验机对新型高强韧压力容器用钢的热变形过程进行模拟。在不同的应变速率和变形温度下建立了应力与应变关系,研究了钢在热加工过程中的晶粒大小,以及
随着我国经济的快速发展,收入分配格局日趋不合理,收入不平等加大,两极分化严重。中等收入者比重是反映收入分配格局的重要指标,本文首先对中等收入者的界定与测算方法进行综
数字化X线摄影成像(Digital Radiography,DR)利用平板探测器接收X射线,直接获得数字图像信号,具有图像分辨率高、动态范围宽,成像速度快,对人体辐射小等显著优点,成为当今X线
蒸糁是汾酒的传统工艺之一。本文对蒸糁的操作条件,工艺原理进行了介绍与探索,以达到提高产品质量的目的。
百年大计,教育为本;教育大计,教师为本。发展农村义务教育,关键在于建设一支数量充足、结构合理、素质较高、相对稳定的教师队伍。这不仅对促进农业、农村、农民的现代化以及
公益广告是为公众利益服务的非商业性广告。旨在向公众传播对其有益的社会观念,以促使其态度和行为上的改变。公益广告及其语言作为现代文化中的重要组成部分,在社会和人们生
传统的翻译研究往往集中于从语言学角度或从多个译本异同比较角度对译作进行各种分析,而仅关注译者的一本译著进行研究重视不够。随着二十世纪七十年代翻译研究的“文化转向
贾平凹是新时期文学史上一个贯穿性的作家,他的文学创作是一个独特而复杂的存在,他的作品蓄积了丰富的精神文化信息,以此为线索,可以认识中国当代文学和文化的另一侧面。在《