基于邻域三支决策的不平衡数据二分类方法及其应用研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:frozenCisco
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据是指具有类间分布不平衡特点的数据,用基于数据类间分布均衡的经典分类算法处理这类数据,会导致算法对少数类数据的学习率不足,分类表现较差。重采样可以改变数据类间分布,降低数据的不平衡度,解决不平衡数据问题。然而多数重采样方法缺乏对数据空间的评估,以致与原有的数据空间分布差异过大,影响算法的分类性能,使泛化能力变弱。利用可适当衡量样本空间的邻域模型与可解决复杂问题框架的三支决策理论进行重采样,可以有指导性地降低数据的不平衡度,解决不平衡数据的二分类问题。因此,结合邻域模型及三支决策理论,本文对不平衡数据的二分类问题进行研究,其主要工作如下:(1)针对不平衡数据的二分类问题,结合邻域模型和三支决策理论,提出了基于邻域三支决策的不平衡数据的二分类方法(NT-IDBC)。首先,根据邻域模型以及三支决策理论,定义用于数据空间划分的相关公式及参数;其次,根据决策函数划分数据的区域空间,对多数类数据与少数类数据类间分布相对均衡的空间采用有选择的过采样方法处理,并对多数类数据分布较密集的空间采用过采样与欠采样结合的混合采样方法处理;最后,采用若干UCI数据库中的不平衡数据集,在F-value和AUC上对比NT-IDBC算法与多个重采样算法及其结合集成学习的方法。通过对比实验,NT-IDBC在大多数据集中有更好的分类表现。(2)为了提高在数据量较大情况下NT-IDBC算法的计算速度,结合并行计算框架Spark进一步优化算法,提出了PNT-IDBC算法。首先利用并行计算框架Spark将数据储存至分布式集群的多个节点中,并对分布式存储的数据并行地进行空间划分;其次并行地对不同区域空间的数据进行混合采样处理。最后,通过对比试验,从分类精度、运行时间和加速比这三个层面验证了算法的有效性和高效性。
其他文献
运动损伤一直以来是困扰运动员提高成绩的重要影响因素之一,在专业体育领域运动损伤一直被关注着,也有大量对运动损伤的致因、预防、和康复的研究。体育高考生是我国未来体育事业发展的主力军,但是关于体育高考生运动损伤的相关研究较少,然而在考试前期,因运动损伤而导致体育高考生的运动成绩不佳成为了一个棘手的问题。我们应该在伤病出现之前通过一些有效的方法将潜在伤病风险因素筛查出来,找到问题根源并有目的性的最大程度
唯美主义不仅仅适用于艺术领域,也同样适用于科学领域。“为科学而科学”的科学观虽然具有古老的思想源流,但是,它也可以同“为艺术而艺术”的艺术观一道,在王尔德和康德的理
太赫兹波具备穿透性强、光子能量低、光谱信息丰富等显著特点,在基础物理研究、材料表征、生物传感、太赫兹通信以及环境科学等诸多领域具有广泛的应用前景。自然界中缺乏能
在本学位论文中,我们建立了Jackson差分算子(?)的值分布理论并利用这些定理来研究q-差分方程(?)的整函数解的问题.第一章是引言,首先介绍Nevanlinna理论的研究背景及其由来,其次介绍Jackson差分算子当前的研究现状.第二章是预备知识,对经典的Nevanlinna理论、差分算子(?)和(?)的Nevanlinna理论、Askey-Wilson差分算子和Wilson差分算子的Neva
双/多基地声纳系统的探测性能通常优于单基地声纳系统,但同时双/多基地声纳系统需要面对多声源信号场冲突的问题,例如多基地声纳的接收平台可能会同时接收到来自不同发射平台信号的目标回波,此时这些目标回波彼此成为互扰,影响多基地声纳系统探测性能。为了减少回波互扰对探测带来的影响,本文主要从码域信道复用和空域信道复用两方面开展研究。基于码域信道复用原理,在信号之间具有的弱互相关性的基础上,分别基于常规高辨识
近年来,随着生态环境的不断恶化,全球变暖加剧,海平面升高,在世界范围内台风发生的强度和频率也不断增强。中国处于西北太平洋地区是台风发生最频繁的地区,同时中国是世界上遭受台风影响最严重的的国家之一,每年平均有数十个台风在中国境内登录。广东省处于东南沿海,台风频繁发生。输电线路容易遭受台风正面袭击,不仅给电网的安全稳定运行造成极大的威胁,还严重影响国民经济发展。在台风袭击下,输电线路发生最多的故障是风
聚集诱导发光(Aggregation-Induced Emission,AIE)现象是一种十分特别的光物理现象,由于螺旋桨状分子在聚集后的荧光发射强度会明显增大。传统的有机发光化合物大多是具有平面
随着新课改的逐步推进,师生对话的畅通在素质教育的前进道路上尤为重要,然而教师的理答行为与学生的应答之间存在着很多偏差。教师的理答行为既是一种教学机智,又是一种评价手段,是课堂问答中的一部分,也是贯穿所有教学环节的连接线,具有巨大的教育价值。本研究以笔者的实习学校为主要研究环境,在整理过去专家学者有关理答的研究中获得理论积淀,对宏观的理答行为进行定义,在此基础上通过对课堂进行观察,结合教师与学生的对
16世纪以来,科学系统持续进化的过程令世界心生敬畏。科学为什么会持续不断的进化?文章对现代西方科学系统持续进化的原因进行客观性探索,发现其进化的原因在于作为系统序参量的数学化表征在持续不断的进化。从科学系统的共时结构来讲,科学的共时结构分成为数学化表征、哲学本体论承诺和发现型实验3个不可通约的子系统,其中数学化表征作为系统的序参量。从突破亚里士多德的物理学体系开始,伽利略将数学作为描述自然界单纯的
《卓越汉语·商务致胜》是由外语教学与研究出版社出版的国际汉语培训系列教材之一,是综合性商务汉语培训教材。本系列教材面向海内外学习者,供进行培训的外国学生及企业界人士学习商务汉语使用。其中本文研究对象为系列教材的第4、第5两册,适用于学时两年(即1360学时)及以上的中、高级汉语学习者。本文主要研究内容是教材中的词汇、课文、语法和练习四个部分,通过对四个部分内容进行细化统计,采用定量和定性相结合的分