基于关联规则的不平衡数据分类方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zfbandfsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于关联规则的分类方法即关联分类算法,是数据挖掘中非常重要的一个领域,因解释说明性强,分类精度高等特点已经成为智能决策领域的研究热点。然而,不平衡数据的出现给关联分类算法带来了挑战。在现实生活中存在很多不平衡数据集的应用,比如入侵检测、森林火灾、信用欺诈等等。在这些应用中,人们关心的更多是对少数类的分类精度,因为它的错误分类产生的代价是非常大的。因此,在实际应用中非常有必要提高不平衡数据的分类精度,尤其是少数类的分类精度。对于关联分类算法不能很好地处理不平衡数据,主要有两方面的原因:一是关联分类使用的兴趣度量往往是基于“置信度-支持度”架构的,对于不平衡数据集,无论将其设置得或高或低,都会产生极少与少数类有关的规则或大量无用的规则。兴趣度量起着至关重要的作用,它参与了规则的生成、剪枝和排序的过程,所以选择合适的兴趣度量对提高关联分类算法处理不平衡数据的性能非常有必要。二是因为类分布不均的不平衡数据会导致分类算法往往倾向于多数类,容易忽略少数类起到的作用,使得生成的规则质量较差。针对以上原因本文主要从以下两个方面展开研究:(1)从兴趣度量角度着手,旨在找到合适的兴趣度量,从而提高关联分类方法处理不平衡数据的性能。一方面本文提出了稳定强关联度量挖掘(Stable Strongly Correlated Measures Mining)方法找到在不平衡数据下普遍存在强关联关系的度量集,进而分析其行为。另一方面,为了选出所有优秀的度量,本文基于分类精度实现了对所有兴趣度量在不同类分布下的排序,经过筛选和行为分析得到了具有不同特点的两组相对优秀的度量集。(2)从数据和规则层次着手,旨在保证规则的质量,从而提高关联分类对不平衡数据集的分类精度。首先在数据层次,本文提出关键值抽样(Key Value Sampling)法对原始训练集进行抽样,通过增加与少数类相关性强的数据,减少与多数类相关性弱的数据来达到数据类分布平衡。其次在规则层次,本文充分利用了关联分类产生的分类器能够实现修改个别规则而不影响其它规则的特点,对初步生成的分类器进行了规则验证(Rule Validation),并对分类效果不好的规则进行修改,从而提高整个分类器的性能。综上分析,本文分别从优秀度量的选择和算法的改进两方面对提高关联分类处理不平衡数据精度展开研究,两方面的工作均能在一定程度上提高关联分类处理不平衡数据的性能,并通过数值实验说明了实验结果的有效性和结论的可靠性。
其他文献
中图分类号:G806 文献标识:A 文章编号:1009-9328(2014)02-000-02  摘 要 通过对学生体质健康标准测试结果平均分情况、测试等级情况、身高标准体重情况、肺活量体重指数、立定跳远指数等进行分析,找出其中存在的问题,并给出相应的措施。这对指导学生参加体育锻炼,提高学生体质健康水平具有一定的实际意义。  关键词 唐山学院 学生 体质健康标准 分析  《国家学生体质健康标准》是
中图分类号:G806 文献标识:A 文章编号:1009-9328(2014)02-000-02  摘 要 健康的范畴不仅包含体质,还包括环境的适应、心理卫生、疾病防御、卫生保健和健康的生活方式。因此,世界卫生组织(WHO)对“健康”的评价包括生理、心理和社会适应三个方面。在《全国普通高等学校体育课程教学指导纲要》目标领域中有运动参与、运动技能、身体健康、心理健康和社会适应,也很明确地指出大学生的健
中图分类号:G831 文献标识:A 文章编号:1009-9328(2014)02-000-02  摘 要 健美操特有的运动形式能充分满足学生运动的欲望,促进学生身心发展,而健美操老师则在促进有氧健身活动中起关键的作用。然而教学模式也就要有一定的改变,找到适合大学健美操的教学模式,很多的人们也就是用“程序—合作学习”的教学模式。本文从健美操课的教学模式上,老师的教学语言艺术、整套动作的设计编排、自身
中图分类号:G807 文献标识:A 文章编号:1009-9328(2014)02-000-02  摘 要 体育舞蹈种类繁多,每一种舞蹈都是一种身体的表达。随着高校艺术教育的发展,几乎所有综合性大学的艺术专业都下设舞蹈专业,但目前针对综合性大学舞蹈教育教材的研究并不多见。本文试图从多个角度来探讨普通高校体育舞教材的建设,希望能为普通高校中国民间舞教材的建设激起一些思想的浪花。  关键词 体育舞蹈 立
虚拟企业合作的伙伴选择与优化,是虚拟企业构建过程中的一个重要阶段,通过对伙伴选择的研究,可帮助企业更加全面的对合作伙伴进行评价和选择,并有效提升虚拟企业的市场竞争力,降低风险系数。本文从合作伙伴的选择过程出发,将虚拟企业合作伙伴的选择过程分为核心能力识别、利益分配和和谐性分析三个阶段,针对三个阶段的不同特点分别选用了模糊综合评价方法、博弈论模型和和谐理论进行分析研究,通过分阶段研究,文章层层深入,
长大以后,去过太多太多的地方,但是每每想到自己的家乡,总会有太多的感慨。作为一个土生土长的湖南人,从小到大都深受湖湘文化的影响,虽然湘江是我们的母亲河,可是对我而言,流经家乡的那条资江,一直以来在我心里都有着十分重要的地位。  资江,又被称为资水,为湖南的四大水系之一,也是湖南境内仅次于湘江的第二大河流,当它流经湖南数十县的时候,就如同一条景秀天城的画卷铺展至洞庭湖畔,或宽或窄,获曲或张,蜿蜒奔泻
[目的]研究p-Si衬底掺杂浓度对InGaN/Si异质单结太阳电池性能的影响,为制备高效太阳电池提供理论基础.[方法]将器件的n-InGaN掺杂浓度固定为1016 cm-3,在改变p-Si衬底掺杂浓
世界上没有两片相同的树叶,世上也没有两个完全一样的人。如果全世界70亿人都拥有一个完全一模一样的哪怕是天使般的面孔,哪也将是一个可怕的世界。日月星辰、浩渺宇宙,也正是因为展现出自己与众不同的那一面,才构成了这个灿烂的辉煌的银河。世上的每个人也都是拥有属于自己的、独立的区别于别人的闪光点,也正是因为这千千万万个不同的耀眼的光点,才让这个世界变得绚丽多姿、芬芳多彩。  达尔文的生物进化论也说明了世界上
中图分类号:G807 文献标识:A 文章编号:1009-9328(2014)02-000-01  摘 要 体育舞蹈被引入中国以来发展迅速,但是作为新兴的运动项目在竞赛中还存在许多不足的地方,尤其是在竞赛记录管理上还需要改革和完善。本文对体育舞蹈竞赛记录的现状和存在的问题进行分析,力求得出解决的方法。  关键词 体育舞蹈 竞赛记录 现状 方法  一、体育舞蹈竞赛的组织与记录工作  (一)体育舞蹈竞赛
由一名普通的读者,来谈“我们为什么而写作?”可能是不具有说服力的。所以,作此文也只是想谈谈作为一名读者最真实的感受罢了,如果能有所共鸣,那便自是满心欢喜的。  柳永作《蝶恋花·伫倚危楼风细细》,于是便有了千古名句:“衣带渐宽终不悔,为伊消得人憔悴。”王国维先生在《人间词话》中将其阐发为读书之境界。时至今日,总觉着王国维先生对这唯美词句的阐发似乎尤指那些读书而为从事写作者。在绝大多数真正写作者“衣带
期刊