基于Bagging-CART的多分类不平衡数据模型

来源 :中国民航大学 | 被引量 : 3次 | 上传用户:lgwfzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术发展,大量高新传感器的应用,民航也进入到了数据时代,飞机运营和维修会产生大量维修相关数据,对数据资源的充分利用产生巨大的需求。在数量众多的数据挖掘算法中,Bagging-CART由其简单、易用,同时还易于进行并行运行的特性,得到了大量应用。与此同时,现实中数据往往都是不平衡的,如在故障数据中,一些故障量较其它少,但其后果通常也更重大。而Bagging-CART算法是在数据平衡条件下提出的,在面对不平衡数据时,偏向将少数类故障识别为多数类故障,从而导致其实用性不佳。本文针对民航维修数据多分类不平衡数据特点研究其数据挖掘方法,从而有效提供维护决策关键信息。通过提出一套综合处理方案,从数据预处理层面和Bagging-CART分类器的决策方式入手,来完成即定目标。在数据预处理方面,提出一种基于Bagging的数据平衡方法,并就Bagging不足之处对算法的抽样过程进行控制,最终在不改变原有数据的情况下将数据转化成平衡数据组。新方法避免了传统数据平衡方法会改变数据结构的缺点,从而为无偏分类器的生成打下良好基础。在算法方面,针对Bagging-CART分类器的决策过程,提出一种优化方法,通过引入基于加权的最小距离模型,并对其进行改进,将训练数据与测试数据之间的关系引入到分类过程中。新方法改变了旧决策过程中,只考虑分类器结果而忽略了新数据与训练数据之间差异性,从而提高决策的可靠性。通过两种方法的综合应用,使本文模型具有较好的处理多分类不平衡问题的能力,为模型的实用性打下一定的基础。最后以本文算法为基础设计了数据挖掘系统,可针对民航维修数据进行数据挖掘,为数据分析模型的应用研究奠定基础。
其他文献
<正>传统观念推崇妥协与自我牺牲,导致大量双职工夫妇误入歧途。我们要客观地质疑"妥协是健康夫妻关系的关键"这一论调对于双职工家庭的幸福感与存续能力,当前社会中普遍流行
研究背景:在过去60年间,人类精液质量不断下降,男性不育症患病率不断上升,其中,人类对环境污染物的长期接触和不断摄入是一个很重要的诱因。双酚A(Bisphenol A,BPA)是一种用
本文基于CFPS 2010年基线调查的微观数据,利用Logistic模型探讨住房类型分化的产生原因,测算各个阶层在获取住房的途径和机会上的差异。结果表明,户口状况、城乡类别对产权类
<正> 妊娠高血压综合征(简称妊高征)并皮质盲较为罕见,且晚期妊高征是产科四大死因之一,亦是孕妇围产儿死亡的主因之一。笔者观察2例,以自拟芪菊四物汤治疗,现报告于下。例1:
枯萎病是番茄最常见、危害最大的病害之一,番茄种植的经济效益好,导致许多地方番茄实行连作种植模式,进而土壤微生物种类和群落结构不平衡。而且农户对番茄土传枯萎病防控不
卟啉及其金属卟啉衍生物在生物体和自然界中广泛存在,如叶绿素、血红素和细胞色素等都是金属卟啉衍生物。由于其独特的结构和性能,近年来被广泛应用于分析化学、合成化学、材
目的探讨百令胶囊辅助治疗肾病综合征的效果及对肾功能的影响,为临床肾病综合征的治疗提供可靠依据。方法选取中国人民解放军第九五医院2014年2月至2016年12月收治的100例肾
财经专业实习实训受到专业限制,无法大批量多人次同时上岗,“名师工作室化”校企合作模式是基于财经专业“工作过程”项目化人才培养,达到顺利解决财经类专业实习实训弊端的
本研究工作主要包括两部分内容,成功敲除了少孢节丛孢Arthrobotrys oligospora中细胞色素P450编码基因AOLs110g222,并对野生型及敲除突变株△AOLs00110g222的部分表型特征及
目的通过学习中医对功能性腹泻的认识、研究和治疗进展,研究运用具有通阳化气利水作用的加味五苓散,治疗脾虚湿盛型功能性腹泻,观察其临床疗效及安全性,并进一步在临床中推广