不均衡数据分类方法的研究

来源 :东北大学 | 被引量 : 53次 | 上传用户:huashaosile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,特别是信息技术的快速发展,各行各业产生了大量各种形式的数据。然而可以从数据中获取的信息却是贫乏的。为了解决在海量数据中获取有用信息的问题,数据挖掘技术应运而生。当前,数据挖掘的理论和方法被广泛应用于商业、工业及科学研究等多个领域,但随着对实际应用发展的深入研究,人们发现了一类很具有挑战性的问题——不均衡数据分类,并获得人们更多的关注。这种训练样本数量在类间分布不均衡的模式分类问题,对于基于总体分类精度为学习目标的传统分类器而言,这种不均衡势必会导致分类器过多关注多数类样本,从而使少数类样本分类性能下降。本文聚焦于不均衡数据挖掘中的分类技术研究,在深入探查不均衡数据分类的各种策略基础上,围绕在数据层面上合理准确的采样算法设计、在算法层面上适应不均衡数据的分类算法改进,对已有算法的关键参数优化指导三个方面,对静态、动态不均衡数据分类;二类及多类类别数据分类,以及医学CAD中肺结节识别等问题展开研究。本文主要工作包括:(1)针对类间不均衡数据分布中类内不均衡性、类重叠及噪音问题对传统分类算法及采样算法造成的影响,本文提出一种基于概率分布估计的混合采样的数据处理算法。该算法依据数据概率分别对每个子类进行采样来保证类内的均衡性,从而同时从全局和局部两个角度改善数据的平衡性,让采样的数据更好地近似了真实的类空问分布情况,并对不均衡分布中类重叠和噪音问题加以针对性的处理。实验证明该采样算法有效改善不均衡数据的分布质量,使分类算法具有更高的分类精度。(2)针对生成模型在数据失衡的情况下输出的概率与类隶属程度并不一致,导致分类效果很不理想的问题,本文提出一种基于决策准则优化的集成分类算法。该算法基于后验概率信息,在不均衡数据评价度量指导下对分类决策准则进行优化;同时为了提高分类的泛化性,提出一种自适应随机子空间组合分类算法,以增强基分类器之间的差异性,避免分类器学习和决策准则优化的过拟合,并可自动获得基分类器的最佳数量。通过大量UCI数据集的实验验证表明,与其它同类算法相比,该算法在精度和效率上都具有更好的处理不均衡数据的优势。(3)针对现有的重采样和代价敏感算法中参数缺乏有效的指导和优化,本文提出一种性能导向优化的不均衡数据元学习方法。通过粒子群算法,以不均衡数据分类评价指标作为目标函数,来优化二类或多类数据的不均衡学习参数,并同时对特征进行选择,从而达到最佳的数据分布或代价敏感分类模型。利用UCI数据集对算法进行验证,并与领域内其他算法进行性能对比和分析,全面系统地证明算法的有效性。(4)针对具有概念漂移的不均衡数据流分类问题,本文提出一种结合选择性采样的加权集成学习算法。通过选择相似度高的历史数据和合成边界区域的新数据来有效增加少数类样本信息,扩大少数类的决策域;同时为了适应动态数据中存的概念漂移,利用集成分类思想,设计了一种基于概率分布相关度的权重分配策略。实验结果表明该算法有效地提高了少数类的识别率以及整体的分类性能,具有更好的处理不均衡数据流的优势。(5)针对肺结节CAD检测中获得的疑似肺结节数据具有真假阳性类别不均衡,真阳性数据稀少且特征维数较高等具体问题,本文使用之前提出的三种算法,基于SVM基分类器进行改进和扩展,并在医学领域中肺结节识别对数据预处理、代价敏感集成学习和元学习三种方法进行比较分析。实验表明,在保证分类高敏感性的前提下,三种算法可以有效去除过多的假阳性,进而对三维肺结节进行准确的识别;而且元学习方法由于未改变数据分布且同时对特征进行了选择,在疑似肺结节分类问题上相对于其他两种方法获得了更好的泛化能力。综上,本文提出的算法有效改善了不均衡数据分类中存在的问题,提高了少数类的识别准确性和鲁棒性。
其他文献
目的:构建pcDNA3.1/Myc-His(-)A-HPV16E6重组质粒,转染人外周血来源的树突状细胞(dendritic cell,DC),制备DC基因疫苗,检测其生物学特性,体外诱导并测定细胞毒性T淋巴细胞(cytotoxic
《资本论》是研究马克思主义整体性的重要著作,而《资本论》的序言和跋中在多个角度体现了马克思主义理论整体性。即在马克思主义三大组成部分的关系、马克思主义的研究方法以
本文在对LN体育用品公司现行绩效管理方法进行分析的基础上,运用平衡计分卡对LN体育用品公司的绩效管理进行了重新设计。这一设计过程是通过平衡计分卡将公司的战略目标分解
<正>年龄相关性黄斑变性(age-related macular degenration,AMD)是一种发病率随年龄增加而上升,并导致中心视力下降的疾病,又称为老年黄斑变性,其发病年龄一般在50岁左右,流
随着互联网的不断发展,电子商务已渐渐成为生活中必不可少的一部分,伴随电子商务成长的便是种种问题的出现。然而信任问题变成电子商务中极为重要的一部分。电子商务的信任问
目前工程完成后的一次性结算方式是电力工程结算中最常用的结算形式之一。在竣工后,上报所有施工过程中的变更和签证所支出的费用,此方式结算的缺点是数量大,时间少,还需要遵
目的对比常规护理与预见性护理模式在脑出血患者急性期护理中的应用效果。方法选取68例脑出血患者分为对照组和观察组,每组34例。对照组采用常规性护理方式,观察组采用预见性
黄皮[Clausena lansium(Lour.)Skeels]为芸香科黄皮属植物。多产于中国南方,在我国的种植历史有一千五百多年。现有研究表明从黄皮果核中提取分离出来的黄皮新酰胺具有杀菌活性,但对于其杀菌作用的研究并不深入。本文通过室内生物测定较为系统的测定了黄皮新酰胺的抑菌活性,并进行了盆栽和离体叶片试验。选取水稻纹枯病菌为供试对象,初步探究了黄皮新酰胺的抑菌机理,结果如下:1、采用菌丝生长
<正>一百年中国古代史研究的崇洋之路近代以来,在西方国家船坚炮利的冲击下,中国固有的传统文化,也在强势的西方文化面前,显得中气不足,低人一大截。在西风东渐的整体氛围之
目的 为了了解2 0 0 4年首发SARS病例周围环境鼠害及鼠类是否存在SARS CoV特异基因,研究探索鼠类作为SARS的媒介或来源的可能性。方法 应用环境鼠迹目测法与鼠笼诱法调查鼠