局部和峰值高效用项集挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:guomenling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的一个基础研究方向就是频繁项集挖掘。频繁项集挖掘指从交易数据库中挖掘出频繁出现的项集,从而为下一步关联规则挖掘或序列挖掘提供支持。传统的频繁项集的挖掘的一个局限是它假定所有的项都是同样重要,并且最多出现一次。为解决这一局限,一些学者提出了高效用项集挖掘,它允许不同的项有不同的效用(重要程度),同时在一次交易中各项也可以出现超过一次。高效用项集挖掘极大地拓展了频繁项集挖掘的应用范围,并能为各种决策提供更有效的支持。高效用项集挖掘的一个局限在于它忽略了每个交易产生的时间,由此可能会失去一些有用信息。项集的效用分布可能会随时间变化,传统高效用项集挖掘会找出在整个数据库中产生高效用的项集,而这会偏向那些在所有时间段都出现的项集,会忽略在局部时间段产生非常高效用的项集。例如,在超市的数据库中,可能{面包、牛奶}这一项集会是高效用项集,因为它在一年中的每个时间段都有销售,而{月饼}这一项集可能不会是高效用项集,可是它在中秋节前后这一时间段却可能产生很高的效用。基于此,本研究提出一个新的问题局部高效用项集。这将是一个新的项集衡量标准,在市场营销、网络点击分析等方面将会有广泛的应用场景。既然项集的效用会随时间变化,那么找到项集能产生显著高于平常的效用的时间段则对决策有益。例如商场经营者不仅想知道什么项集能产生高利润,他们也会想知道这些项集在哪些时间段能产生较高的利润从而更合理的安排采购与销售。为解决这一问题,本研究提出了另一个新模式峰值高效用项集。高效用项集挖掘扩展了传统的频繁项集挖掘。效用挖掘就是在频繁项集挖掘的基础上允许每次交易中单个项出现多次,同时每个项能产生不同的效用。频繁项集挖掘可以看成特殊的高效用项集挖掘。更准确的定义如下:在正文所示的交易数据库中,每个TID标识了一次交易,items记录了该交易所包含的项以及其对应的数量。第二个表是利润表,记录了每个项所产生的利润。在确定了阈值minutil后,问题的要求是找到所有产生效用高于minutil的项集。高效用挖掘被广泛承认比频繁项集挖掘更有挑战性。关键的一点在于,在频繁项集挖掘中被用来减少搜索空间的反单调性(非频繁项集的超集一定不是频繁项集)不再成立。也就是说一个项集的超集可能产生高于或低于其本身的效用。所以,大多数频繁项集挖掘算法不能直接应用在高效用项集挖掘上。目前针对这一问题,已经出现了很多高效的算法像Two-Phase,UP-Growth,FHM,EFIM等。本研究考虑到项集的效用会随时间变化而变化,并由此提出两个新问题使I={i1,i2,...,in}表示所有项的集合.一个交易T是被用户购买的项的集合(T?I)。交易数据库是一个交易的集合D={T1,T2,...,Tm},其中每个交易Ttid(1≤tid≤m)都有一个标识符tid。此外,用t(T)表示交易T发生的时间。每个交易中的项i∈I都有一个与之对应的效用值u(i),表示了其产生的效用或重要程度。考虑数据库正文数据库示例表所示(后面将用它举例说明相关概念),数据库中共有8条交易(T1,T2,...,T8)5个项(a,b,c,d,e),每个项旁边的括号表示了其的效用(注意这里定义是正文中的简化版本)。例如,交易T1中项b,c,e的效用(利润)分别为4,2,3。另外,交易T1,T2...T8后跟了一个时间戳d1,d3,...d10,代表了发生的时间(di=第i天),这里时间单位是天,但是其他单位像秒、分钟等在一定场景下也是允许的。而且,虽然这里举例用的超市的数据,但高效用挖掘在其他领域也有着广泛的应用。如果一个项集X的效用u(X)不低于用户设定的阈值minutil≥0,即u(X)≥minutil,则该项集X被称为儎?亯?。例如在上述数据库中,如果设定minutil=60,则共有7个高效用项集{a,c,e},{b,c,d},{b,c,d,e},{b,d},{b,e},{b,d,e},和{b,c,e},它们分别产生效用62、73、85、66、62、78和74。高效用项集挖掘是经典的频繁项集挖掘的一个泛华,也比之更有挑战性,主要原因在于项集的效用不是反单调性的,由此,频繁项集挖掘的剪枝策略便不能直接应用在高效用项集挖掘上。很多算法通过找满足反单调性的效用的上界来剪枝,最经典的是TWU,一个项集的TWU为其所在交易的效用总和,显然其是反单调性的,可以用来缩小搜索空间。尽管高效用项集挖掘有着广泛的应用,它忽略了时间维度,由此不能捕捉效用随时间的变化。为了解决这一局限,本研究提出局部高效用项集和分值高效用项集,随后进一步提出去冗余峰值高效用项集。在上述数据库中,当minutil=60,项集{a,c,e}是一个高效用项集,因为u({a,c,e})=62>60,{d,e}不是一个高效用项集,因为u({d,e})=463到d5这一时间段内,{d,e}产生的效用是{a,c,e}的两倍(两者分别为46和18)。所以在这一时间段内{d,e}比{a,c,e}更重要,但却被传统高效用项集挖掘所忽略。而局部高效用项集就是为了解决这一局限,定义为:如果一个项集存在某个长度为minLength的时间窗,在其中产生效用高于设定好的阈值l Minutil,则称之为局部高效用项集,这里minLength和l Minutil为用户设定的两个参数。例如,如果minLength=5,l Minutil=30,则{a,b,c}为一个局部高效用项集,因为其在窗口d2,d6中的效用为32,大于阈值。可以证明,在参数设定合适的情况下,所有高效用项集都是局部高效用项集,也就是说新的模式不会损失任何信息。既然项集的效用会随着时间变化而变化,那么找出项集产生较高效用的时间段就可以随之做有用的决策。第二个新的模式基于上述的局部高效用项集,旨在发现项集产生显著高于平常效用的时间段,新的模式称为峰值高效用项集。峰值高效用项集的定义利用了股票交易系统中的一个技术——移动平均交叉。移动平均是指用一小段时间内的平均值来代替某一点的值,这可以用来平缓波动,而一段时间的长短则代表了平缓程度的大小。移动平均交叉则指两个不同平缓程度的交叉点,这代表着上升或下降的趋势(在股票市场中表示买入或卖出点)。峰值高效用项集指短移动平均线在长移动平均线上面的时间段,这代表了该项集的峰值效用。在定义了峰值后,另一问题就是要找出哪些项集的峰值,显然找出所有项集的峰值是不可能同时也是不必要的。在这里我们的方案是找出所有局部高效用项集的峰值。实验结果发现通常挖掘出的峰值高效用项集都较多,不利于向用户展示。为了解决这一局限,本研究进一步提出其子模式去冗余峰值高效用项集。它基于的原理是如果一个项集的子项集不是峰值高效用项集,那么该项集不是峰值高效用项集。例如月饼在中秋节前后会有峰值,而面包在中秋节前后可能没有大的波动,但是面包,月饼合起来再中秋前后可能有峰值,但这一峰值产生的原因是因为月饼的峰值,所以没有什么意义。而去冗余峰值高效用项集可以排除这一冗余信息。在算法设计方面,本研究改进了HUI-Miner算法中的utility-list数据结构,在其中增加了高效用时期信息。每一个项集都有与之对应的utility-list,utility-list由一个三元组列表组成,每一个三元组形如(Tid,u(X,Tid),ru(X,Tid),分别表示了该项集出现交易的标识符,在该交易中的效用,在该交易中剩下的效用(注意这里对项进行排序,剩下的效用仅考虑出现在该项集后面的那些项)。这样,在探索高效用项集时就不用重复地扫描数据库,而仅探索utility-list。而添加的时期信息为该项集产生高效用的的时期,这样在后续探索utility-list时就不用考虑所有三元组,而仅考虑在这些时期中的元素。局部高效用项集和峰值高效用项集的搜索方法与HUI-Miner类似,也就是用深度优先搜索,并剪枝不可能的子树。至于局部信息和峰值时期信息,则可以用滑动窗口技术解决。对于去冗余峰值高效用项集,可以用后处理方法,去掉子项集不是峰值高效用项集的项集。为进一步提升算法的表现,本研究提出了三个优化策略。实验结果表明所提出的算法是高效的并且可以发现以前被传统高效用项集忽略的模式。
其他文献
地心运动能够反映全球范围内的质量重新分布以及固体地球和水圈、大气圈之间的相互作用。地表流体质量重新分配引起的周年地心运动最为突出,如果忽略这一影响,可能会导致海平
铁酞菁(FePc)分子因含Fe-N/C基团,成为过渡金属大环化合物中对氧还原反应(ORR)催化活性最好的一种非贵金属催化剂。但是,它易聚集、导电性差、在催化过程中结构不稳定的性质
从历史上来看山水画的发展是一个缓慢而渐进的过程,然而在风云际会战争连绵的二十世纪上半页受西方艺术的影响,山水画的创作手法、内容和观念发生了一次明显的转型。本文以上海画家为例,主要论述“中西融合”的“新派”画家和“四王山水”入手的“旧派”画家分别在转型过程中带来什么样的影响,以及对本人毕业创作的启发。
自然语言处理中的许多任务都可以转化为计算两个文本之间的距离,比如信息检索和问答系统等。从认知语言学的角度来看,语言的学习是分阶段的,而不同阶段的学习内容之间存在难
云南被誉为“有色金属王国”。然而,开采和冶炼过程导致的土壤重金属污染也是一个亟需解决的环境问题。利用“适地”性强的矿区植物在矿区废弃地进行复垦,形成的地被物在有效阻控重金属污染物扩散的同时,还可以利用植物和根际微生物的联合作用对大面积矿区废弃地土壤进行植物修复,是一种经济而又有效的治理措施。基于此,我们以云南个旧黄茅山大型尾矿库内两种优势的木本植物形成的三个群落:即滇杨单优群落、马桑单优群落以及二
延安,中国革命的圣地,见证了共产党人为初心使命奋斗而创造的伟大奇迹,积淀了共产党人在生死关头奋起而构筑的精神底蕴.在建党百年之际、全党开展党史学习教育之时,重温延安
我国的医疗体制改革正在逐年深化,现阶段大力推进健康中国战略,实现公立医院的现代化管理就是其中一大重点任务。各大公立医院正在逐渐优化资源配置,探索创新性医疗服务模式,
经验模态分解(Empirical Mode Decomposition,简称EMD)算法是一种处理非线性非平稳信号的时频分析方法。该方法可以自适应地将输入信号分解成若干层本征模函数(Intrinsic Mode Function,简称IMF)和一个余项函数,通过对IMF的特定操作可以实现信号的滤波和去噪等功能。经典的EMD算法主要针对标量形式的函数信号,处理几何模型时需要首先定义几何模型上的信号函
穿越电影打破了传统电影中对于“时空”的限制,对电影时空进行重新解构,从而形成独特的时空类型。此类电影中的“时间”变的更加自由,故事情节也不再按照线性顺序的时间逻辑发展。所以,作为电影叙事的关键设置点,“时空”在穿越电影中起到了举足轻重的作用,并对电影叙事产生了极大的影响。本文将根据穿越电影中“时空”呈现方式的不同,将其分为线性时空、平行时空和循环时空三种类型。同时,由于每种时空类型对电影叙事会产生
自然中的能源在不停减少,而工业发展对能源的需求则不停增进的,这无疑要求人们去探索可循环重复利用且对在使用过程对环境不会产生危害的绿色能源。氢能具有可循环使用的优点,通过水电解的方法制备氢气是一种安全可行的方法,但这个方法制备氢气过程中存在一个致命的缺点,这个缺点是:电解水过程中的阴极上的析氢过电位太高,导致电解水所需消耗的电量巨大。为了克服这一缺点,很多工作都致力于开发性价比高的阴极电极材料,Ni