面向不平衡数据集的对比模式挖掘算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:hxy135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指数据库中的知识发现,在信息技术发展的过程中扮演着越来越重要的角色。对比模式(Contrast Patterns)挖掘作为数据挖掘领域里的一个核心内容,其为分类、聚类、关联规则等任务奠定了基础。对比模式是指在两个数据集中,支持度发生很大变化的项集,它表现出一种强大的数据区分能力,利用这种区分特性构建的模式分类器往往比一些朴素的分类器有更好的分类效果。然而,目前大多数基于对比模式的挖掘算法都是建立在这样两个假设上:第一,认为训练数据集在每个类别上的数目分布大致相同。通过这种类平衡分布假设构建的分类器在遇到不平衡数据集时,常常会因为稀有类数据的信息被大类数据的信息覆盖,导致分类效果不理想。第二,认为所有的样本来自同一个领域。当训练数据集和测试数据集来自不同领域时,重新收集训练数据集以及重新构建分类模型的代价都是很昂贵的。本文分析了以上的假设,主要做了下面几项研究工作:(1)研究对比模式的性质,对不平衡数据集下多数类与少数类之间的关系对对比模式定义的影响,提出了平衡显露模式BEPs(Balance Emerging Patterns)的概念。研究平衡显露模式性质,从而建立不平衡数据集的对比模式挖掘基础。在此基础上提出了基于滑动窗口的不平衡数据集对比模式挖掘算法。该算法首先对不平衡数据集建立一个滑动窗口来缩小数据的不平衡度,提高模式挖掘的泛化能力。在挖掘过程中,让正类数据固定在窗口中,负类数据在窗口流动,使之与正类数据构成一个不平衡度相对平缓的数据集。在窗口内,采用基于排序FP树的结构来挖掘平衡显露模式,直到窗口数据结束。最后通过对子分类器的组合集成来构建的一个最终分类器。(2)共享平衡显露模式(Shared Balance Emerging Patterns)实现了多领域不平衡数据集之间的知识迁移。针对共享平衡显露模式SBEPs的性质,本文提出了基于SBEPs的衡量多领域不平衡数据集的相似性的算法。该算法给出SBEPs相似质量的计算方法,包括求整体相似质量和平均相似质量;然后,将SBEPs数量进行标准化处理。通过单位数据集中所具有的SBEPs的质量来衡量两个不平衡数据集的相似贡献,相似贡献的值越大,表明两个不平衡数据集的相似程度越大,同时还对不平衡数据集相似度给出了量化的方法。
其他文献
在自发气调条件下,对包装及容量对树莓保鲜效果的影响进行了研究.结果表明,在0℃条件下,0.03 mm PVC保鲜膜是树莓贮藏的最佳包装,最适容量为2 kg,树莓果实贮藏21 d后仍可保持
1952年《民兵组织暂行条例》正式颁布实施,赋予了民兵的法律地位。全国各地开始了民兵组织的建设,南昌市在建国之初就有民兵组织,《条例》颁布实施后,这一建设力度明显加快,短短几年间,从农村到城市,各公社、企业、学校、机关、厂矿都建立了民兵组织,一个领导明晰,组织有力的民兵系统建立了起来。本文以南昌市民兵组织作为研究对象,时间跨度为1949-1966年,对16年间南昌市民兵组织的建立背景、发展历程、管
近年来,网络金融理财投资逐渐进入人们的视角,其表现形式主要为第三方结算平台,或者P2P网络借贷平台,这种新型的模式为企业资金的统筹与安排,预决算都提供了更加便利快捷的服
辐射制冷是通过大气红外窗口将热辐射发射到寒冷的外太空中的一种技术,它不消耗其他能源,是一种节能环保型的制冷方法。理想的辐射制冷材料需要有两大特点:一是在8~13μm大气
自拟二白二参汤治疗慢性活动性肝炎37例,结果治愈7例,显效17例,有效10倒,无效3例。更多还原
改革开放以来,我国城镇化发展迅速,传统村落人口流失严重。人口流失问题加速了传统村落的消亡。同时,农村人口的大量流失,诱发了传统村落的空心化。空心化带来村庄建设用地分
运用Bertalanffy非线性模型,分别对右玉鸡5个品系的公、母鸡进行曲线拟合和比较分析。结果表明,Bertalanffy非线性模型能较好地模拟右玉鸡生长曲线,拟合度(R2)达0.999,说明运用该模
《中华人民共和国海商法》(简称《海商法》)及《中华人民共和国物权法》对船舶物权的变动采用登记对抗主义模式,而法律物权与事实物权的区分诠释了挂靠船舶的挂靠人与被挂靠
高粱单宁结构比较复杂,定量分析相对困难。目前国际标准中高粱单宁的测定采用柠檬酸铁铵法,国内标准同样采用该方法,但该方法特异性较差,方法中的标准品为单宁酸(TA),其与高