面向不平衡数据的分类方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:fightwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据的分类问题普遍存在于实际应用中,例如,医疗诊断,网络入侵检测和生物数据分析。少数类样本往往隐藏着更重要的信息,错误分类少数类样本可能造成严重的代价。然而,传统的机器学习分类算法趋向于在少数类样本上产生相对较低的准确率,不适合处理不平衡数据。因此,研究不平衡数据的分类方法具有重要应用价值和理论意义。本文从数据和算法层面提出两个方法改善不平衡数据的分类效果,主要研究工作如下:(1)从数据层面,提出一种面向不平衡数据分类的信息粒化预处理算法(IGDP)。目前,大多数重采样方法忽略了数据集的原始分布。本文根据不平衡数据的本质特点,聚合相似样本作为整体进行分析,从粒计算角度建立分类模型。在IGDP中,遵循多数类与少数类信息粒数目相近的原则,使用K-means++构建信息粒,简化了粒度水平的确定;提出“点标记子属性”方法描述信息粒,解决“子属性”方法在特殊情况下出现的“区间标记困难”问题;为了拟合训练信息粒集合的分布,提出基于类别初步预判的测试样本粒化方法,使样本粒化后具有明显多数类和少数类信息粒的特征。通过在8个KEEL数据集上进行3组实验对比,以F-measure、G-mean和AUC指标评价算法性能,结果表明IGDP可以缓解类别区域重叠带来的分类困难,提高了不平衡数据的分类效果。(2)从算法层面,提出结合聚类中心欠采样(CC)的集成算法(CCBoost和CCBagging)。数据重采样与集成算法相结合是处理不平衡数据分类的有效方法。在CCBoost中,借助CC的采样随机性保证Ada Boost.M2迭代中训练子集的多样性,并且按照“聚类中心的近邻”策略进行采样,使权重更新的样本有更大机率被选择到新一轮的基分类器训练中。在CCBagging中,根据Bagging基分类器并行学习不需要考虑样本权重的特点,按照数据集稀疏与否自动确定CC的欠采样策略。利用CART和SVM作为基分类器,在10个KEEL数据集上进行3组实验对比,以F-measure、G-mean和AUC指标评价算法性能,结果显示CCBoost和CCBagging一定程度上优于其它对比算法。
其他文献
在计算机视觉领域中有两项主要的美学类研究任务:图像美学质量增强和图像美学质量评价。图像美学质量增强是利用增强模型有目的的强调或改变图像的某些特性,改善图像的视觉效
吉林省地理位置得天独厚,其中前郭尔罗斯大米至今已有70余年的历史,并被认定为地理标志大米,多年前便已成为享誉国内的米中上品。因地理标志大米有着更优的品质和口碑,致使市场上地理标志大米掺假现象泛滥、鱼龙混杂。目前大米产地确证体系建立不合理、不完善,存在着很多漏洞,因此一种科学准确的大米产地确证技术的研究和建立具有重要意义。本文主要探讨特征级数据融合技术在本省不同区域产地确证上应用的可行性。为提高模型
目的:本研究旨在探索SIRT1对氧化应激诱导的大鼠髓核细胞衰老发生的影响,探明Akt-FoxO1轴在氧化应激诱导衰老的过程中调控SIRT1的机制,为进一步椎间盘退变靶向治疗药物的筛选和临床治疗提供理论依据。方法:(1)应用HE染色、甲苯胺蓝染色和Ⅱ型胶原蛋白免疫荧光染色鉴定原代大鼠髓核细胞;(2)应用ROS检测、CCK-8试验、Hoechst染色和流式细胞检测凋亡确定亚致死性的H2O2浓度,建立大
健康管理产业作为医疗服务行业中的重要分支,承担了解决医疗矛盾的重担。在我国,健康管理产业属于朝阳产业,有很大的发展空间。但因为行业发展时间较短,民营企业的健康管理服务模式仍存在很多隐形问题,服务效率低下,服务产品附加价值较小,投入的医疗资源不够,而且这种创新的机制的缺乏也制约着健康管理服务业的发展。提升健康管理服务业的服务水平和创新机制以及整体竞争力,是成都健康管理服务业当前面临最具挑战性的问题。
随着我国老龄人口的增涨,养老的需求大幅增加,因此室内服务机器人得到越来越多的关注。在过去的几十年里,无论是计算机视觉领域,还是机器人社区,视觉同步定位与地图构建(visu
软件定义网络(Software Defined Networks,SDN)是一种新型的网络结构,具有控制转发分离,集中控制等特点。控制器是SDN的核心,由它指导交换机对数据做出相应的处理。集中控制给SDN带来了许多优点,但是也会成为网络攻击的目标,给网络带来了一定的脆弱性。关于SDN安全的研究是目前的热门课题,分布式拒绝服务攻击(Distributed Denial-of-Service,DDoS
分布参数多智能体系统是指具有分布参数性质的多个智能体子系统的集合体,实际的物理系统都带有一定的分布参数的性质,其状态随着质量和时间在不断地变化,用分布参数多智能体
随着互联网的不断发展,电子支付的日益普及,网络欺诈问题逐渐成为人们关注的焦点。网络钓鱼(Web Phishing)是指这样一类欺诈行为:攻击者通过短信,邮件,虚假广告,即时聊天工具等社交手段,利用社会工程技巧,引导用户访问一些看似真实的假冒网站,以骗取用户的隐私信息,例如私人账号密码,支付口令,信用卡信息等等。无论是对企业用户还是个人用户而言,钓鱼网站的检测都是一项重要任务。随着网络钓鱼检测的研究
目的 研究三叶青黄酮对荷Lewis肺癌模型小鼠脾脏调节性T细胞和相关细胞因子体外表达的影响;初步通过体内外实验来探讨三叶青黄酮调节荷肺癌鼠的免疫功能,逆转肿瘤免疫逃逸的
移动服务机器人在复杂室内环境中完成各种智能化任务依赖于对周围环境的深层次理解与建模,这个过程可以通过机器人即时定位与地图构建方法对周围环境进行三维稠密建图,并采用