基于统计相关性的有趣关联规则的挖掘

被引量 : 0次 | 上传用户:avim03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术和信息技术的发展以及数据库的广泛应用,数据挖掘已经成为机器学习、人工智能、数据库等领域的研究热点。其中,关联规则在商业中的广泛应用使得它成为数据挖掘中最活越的研究方向之一。 在关联规则挖掘中,挖掘过程可以分为两个子问题:一是产生大项目集;二是产生强关联规则。对于第一个问题,算法的复杂性是瓶颈,因为频繁集的数目和项目的数目成指数增长。所幸,对此目前已经提出了许多有效的挖掘算法,且这些算法都能在最小阀值的基础上利用规则的品质度量(quality measure)修剪巨大的搜索空间。对于第二个问题,目前的研究不太多,主要原因是忽略了一个问题,就是在产生强关联规则的同时,这些规则也必须是有趣的。通过关联规则挖掘,从大型数据库中发现了大量规则,如何选取有趣规则,是知识发现的重要内容。目前大多数的算法通常利用支持度和置信度来限定规则的强度。但在实际应用中仅考虑支持度和置信度是不够的,因为这些耗费了很大的计算代价挖掘出的强规则并不一定都是对用户有用的或者说有趣的规则,它们中有的甚至是误导的。而我们的目的就是找出有益于决策的用户感兴趣的规则,所以对于关联规则挖掘中许多规则是无趣甚至是误导的情况,文中首先对其作了分析,针对项目集中可能出现的项目间的独立和负相关情况,文中引入了概率论的统计相关概念,并在它的基础上定义了有趣度量RI,把有趣度结合到支持—信任框架的关联规则挖掘中。通过RI来约束用户不感兴趣的规则的产生。从而可以使挖掘出的规则更加有趣、有用。在对有趣度量做了理论和直观分析的同时,文中还给出了算法设计和实例验证了它的有效性。 有趣度是一个相对概念,它是依赖于领域的,所以文中有趣度量的定义并不是任何情况下都适用的。虽然本文讨论的是客观有趣度量,但在某种程度上仍然依赖于领域,例如,有的领域背景下希望发现项目正相关的关联规则,而有的领域则希望发现项目负相关的规则;对于前者,RI大于1的规则是有趣的,要保留,而对于后者,RI小于1的规则是有趣的。也就是说,有趣度是依赖于领域的。因文中是在市场货篮数据的背景下讨论的规则的有趣性,所以,项目正相关的规则是需要的。
其他文献
《京都议定书》规定了所有附录I中的缔约国须以1990年二氧化碳排放量为基础,在第一承诺期2008—2012年期间完成5.2%的减排指标,这些缔约国也在一定程度上积极履行了自身的减
白念珠菌是一种重要的条件致病菌,多在体表及黏膜宿主共栖生存,可引起皮肤黏膜及内脏的广泛感染。白念珠菌是单细胞假菌丝酵母菌,形态上具有双相性,即菌丝相和孢子相。其中菌
本文阐述了数据挖掘与知识发现(DMKD)的定义及所涉及到的基础理论知识,对当前比较成功的数据挖掘模型进行了分析对比,探讨了适合我国企业现状的数据挖掘模型。讨论了数据挖掘所涉
目的探讨中医(补肾健脾)预培其损序贯疗法对胚胎反复移植失败(repeated implantation fail-ure,RIF)患者新鲜周期相关指标的影响。方法将既往行体外受精-胚胎移植(in virto f
本文从灌芯砌体的力学性能到配筋砌体剪力墙的承载力分析、试验研究及可靠度等方面对混凝土砌体及其配筋砌体剪力墙进行了系统的研究。 首先介绍了混凝土小砌块配筋砌体墙
3A问题学习法是指从学生的学习行为、学习态度和学习能力三方面入手,对学生的问题进行理解并提出问题解决的综合方案。从所调查的河南省PY市城乡结合部中小学校的学生情况看,
目的观察青藤碱(sinomenine,SIN)联合甲氨蝶呤(methotrexate,MTX)对体外培养类风湿关节炎(rheumatoid arthritis,RA)患者成纤维样滑膜细胞(fibroblast-like synoviocytes,FLS
神经血管单元(neurovascular unit,NVU)概念的提出,为治疗急性缺血性脑卒中(acute ischemic stroke,AIS)提供了新靶点,即应针对包括神经元、微循环及神经胶质在内的整体进行
<正>记者手记:离开的时候,他对我伸出了手,我们互道再见。他的手很软、很热,那种热度一直到离开好久,感觉都没有消失。我想,他就是这么一个人。我们坐在南京的一家咖啡馆里,
目的探讨冠心病(coronary heart disease,CHD)血瘀证遗传相关的差异基因功能及目标通路。方法以家系CHD血瘀证者(A组)及家系CHD非血瘀证者(B组)、家系非CHD血瘀证者(C组)、家