不平衡数据的欠采样分类方法研究

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:begoodboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘中常见的一个任务。经典的分类算法通常是应用在数据集中各类别大小趋于平衡的情况下。随着数据时代的发展,各个应用的数据量在快速增加。在一些应用中数据的增加不是同步的。某些类别数据增加十分迅速,而某些类别的数据增加并不明显。这样会造成数据类别不平衡的情况。传统的分类算法在分类时会偏向多数类数据。因此,有必要对不平衡数据进行更进一步的研究。在分类任务中,并不是所有的数据对分类都起到贡献作用,而这些数据在不平衡数据分布中影响更深。本文从数据层面对不平衡数据欠采样问题进行研究。此外,我们还对不平衡数据问题中的分类算法进行了研究。主要工作包括:1)基于对分类器贡献低的样本进行理论分析,提出了OBUS算法,算法首先通过k NN过滤对分类产生负面影响的少数类样本数据。通过在垂直分离超平面压缩多数类样本空间,然后在平行超平面方向挑选多数类样本,获取对分类贡献度高的样本数据。从而获得平衡的数据进行学习。2)在提出的OBUS算法基础上,我们提出了C-OBUS算法。通过加入k-means聚类分析。然后在聚类结果中进行压缩采样,从而保证采样前后数据分布的不变性。3)对于分类问题,我们对朴素贝叶斯方法进行了研究,由于朴素贝叶斯的独立性假设,影响着其分类效果。基于拉普拉斯矩阵可以很好的表征特征属性之间的关系。我们提出了LPNB算法。我们对数据使用拉普拉斯矩阵表征数据属性之间的关系权重,然后使用PSO搜寻拉普拉斯矩阵的最好表征。最后进行特征加权。提高朴素贝叶斯的分类效果。4)我们将OBUS,C-OBUS与LPNB结合进行不平衡问题的数据层面以及下游分类算法的整体研究。我们使用来自UCI以及keel的数据集进行实验,对比了LPNB与其他分类算法的效果,取得了较好的分类效果。同时实验表明OBUS与C-OBUS在不平衡数据分类任务上有着很好的效果。最后结合OBUS、C-OBUS与LPNB算法进行实验,在不平衡数据集上都获得较好的分类效果。
其他文献
方员学说是《灵枢》与《素问》中提出的对于中医补虚泻实原则的阐释。以《官能》和《八正神明论篇》两篇为基点,从主旨立意、针刺补泻方法、施行主体及针刺操作具体手法等角度,解释说明《官能》“泻必用员,补必用方”与《八正神明论篇》“泻必用方,补必用员”之间的差异,认为《灵枢》为“编”、《素问》为“撰”是导致《官能》与《八正神明论篇》之中方员含义区别的原因。通过学习研究,可总结为:“方”“员”在《官能》中的含
期刊
轻资产运营模式是凭借较少的有形资产获得较高企业价值的商业模式,在房地产行业同质化竞争日益加剧的时期,受到全球行业的青睐。本文以中国房地产行业上市公司为例,运用案例分析法分析轻资产运营模式对财务绩效的影响。研究表明:现有的房地产企业实施轻资产运营模式的初衷主要是解决融资压力和现金流压力,总体上解决了企业资金需求的燃眉之急,但当前房地产企业在轻资产运营模式中出现了输入方与输出方之间存在品质、品牌、收益
期刊
三级公自转行星系统是仿照天体行星运动所研发出的一种夹具运动机构。运用在薄膜物理气相沉积系统中,可以有效的提高平面、球面、非球面、以及弯月透镜等各种复杂样片表面膜厚均匀性和膜层的质量。本文理论分析了点、面蒸发源的余弦发射特性,推导了旋转球面系统、二级公自转行星系统、三级公自转行星系统中的膜厚均匀性计算公式,其中对三级公自转行星系统中弯月透镜表面膜厚均匀性进行了主要研究。构建三级公自转行星盘运动轨迹方
学位
随着运营商产品的日益丰富和客户对服务质量期望的日益提高,如何充分调动企业内部各业务部门全力协同提升服务质量,一直困扰着电信运营商。针对这一问题,利用智能化客服系统,将运营商服务质量总目标分解成若干子目标,形成多个管控点;并对应到企业内各部门,制定举措及计划;同时通过检查组做好闭环检查对标;重构了运营商OPC(Object-Plan-Check)客服管理体系。在此基础上,通过广州电信的实际案例进行了
期刊
文本情感分类涉及自然语言处理、深度学习等多个研究领域,在国民经济各行业,特别是服务行业(如酒店业,航空业)中发挥着越来越重要的作用。对客户社交评论短文本进行情感分类,有利于企业获取客户情感倾向,及时调整服务策略,为用户提供更好的服务。本文以酒店领域和航空领域的情感分类问题为研究对象,在基于词向量的短文本情感分类模型、领域情感词典构建、文本情感值计算方面进行了研究,主要内容如下:(1)针对BERT的
学位
半导体激光器在生产与科研中占据重要地位,其具有诸多优点包括元件尺寸小、生产成本低、转换效率高和工作寿命长等等,现在已经被大量应用于工业、医疗和军事等多个领域。在某些对激光器的光束质量与出光功率有着严苛性能要求的应用情境下,传统的半导体激光器要通过阵列耦合输出以及复杂工艺进行光束整形才能同时实现高功率、高光束质量的目标,增加了激光器的生产成本。面发射DFB半导体激光器的问世,为解决这一问题提供了新的
学位
随着意见挖掘和情感分析在学术界和工业界受到广泛关注,以及诸如Jingdong和Taobao等电子商务的日益普及,产生了大量的用户评论文本,为科学研究带来了宝贵的资源。这些海量的评论文本中,包含了用户对商品、服务等表达的观点,这些评论信息能够成为生产者提高产品、服务质量的宝贵资源,具有非常大的商业价值。然而评论数据的指数级增长,导致人工无法从海量的数据中获取到有用的信息。已有的研究表明,基于深度学习
学位
随着各大手机应用商店的移动应用快速增长,用户难以选择合适自己的移动应用。因此很有必要提供高质量的移动应用推荐机制,从而提升用户的良好体验。现有的移动应用推荐方法存在移动应用文本表征不够精确、忽略了移动应用的原始特征权重以及未考虑到用户与移动应用的深层次交互关系。为此,本文在内容层面提出两种大众化移动应用推荐方法,在用户交互关系层面提出一种个性化推荐方法用以解决上述问题。更具体来说,本文的研究内容如
学位
传统导引头整流罩是一个同心的球面罩,这种整流罩的像差易校正,但给导引头带来很大的气动阻力,难以满足现代导引头的发展需求。共形整流罩是一种新型整流罩,它与飞行器气动外形更加匹配,能够提升导引头空气动力学性能,所受到的阻力相对于球形整流罩也大幅度的减少。但是,共形整流罩通常会产生大量的动态像差,随扫描角度的变化而变化,严重影响了光学系统成像质量。因此,共形整流罩光学系统遇到主要设计困难在于如何校正动态
学位
为实现企业健康可持续发展,许多企业开始探索轻资产运营投资,在规避资金运营风险的同时,最大程度拓宽自身效益空间。本文通过分析轻资产及轻资产运营投资战略的内涵价值,指出企业轻资产运营投资战略风险及形成原因,最后从三方面入手提出具体的实施要略,包括完善投资管理机制、加强可行性分析及监督、全面权衡项目合作风险。
期刊