【摘 要】
:
非平衡数据分类作为一个被广泛讨论的话题,其改进方向大致分成算法和数据两个层面。本文则是在已有关于非平衡数据分类研究的基础上,从数据层面上对该问题继续探索,这个层面的改进更多的是以优化传统采样策略为目标,然后把运用新采样手段处理后的数据统一放入传统分类器中进行学习,其目的是使处理后的数据集类间样本个数相对均衡,以此来提升算法对少数类数据点的识别能力。对于本文所改进的两种解决方法,主要工作可概括如下:
论文部分内容阅读
非平衡数据分类作为一个被广泛讨论的话题,其改进方向大致分成算法和数据两个层面。本文则是在已有关于非平衡数据分类研究的基础上,从数据层面上对该问题继续探索,这个层面的改进更多的是以优化传统采样策略为目标,然后把运用新采样手段处理后的数据统一放入传统分类器中进行学习,其目的是使处理后的数据集类间样本个数相对均衡,以此来提升算法对少数类数据点的识别能力。对于本文所改进的两种解决方法,主要工作可概括如下:(1)针对传统重采样策略在过采样时易于合成冗余样本,以及欠采样会误删包含重要信息的样本点的问题,本文使用边界因子概念来区分各类中的边界样本和非边界样本,使得多数类在进行欠采样时可以只处理距分类界线较远的非边界点,从而避免包含重要信息的多数类样本点被误删,以及当过采样策略作用于少数类时,利用改进的SMOTE方法为分散在分类界线附近的少数类样本添加新的数据点,其某种程度上能够减少冗余样本的生成。为证明所改进策略具有较好的优越性,对UCI库中的8组有偏数据集来完成分类,并将其与SMOTE算法、Borderline-SMOTE算法、基于欧式距离的欠采样算法、以及基于边界因子概念定义样本边界与非边界,但对边界部分中的少数类数据点仅使用传统插值策略,而非边界部分中的多数类数据点仅用随机欠采样策略的算法进行对比,仿真结果显示,本文所改进的策略对数据的分类能力具有一定的提升作用。(2)深入分析传统过采样策略的特点,针对其在添加新数据样点时易忽略数据点的分布特征致使种子样本选择不准确以及新样本质量不佳的问题,本文充分利用数据集中各类数据点的分布信息,旨在挖掘出真正可以作为种子样本的数据点,并对该数据点分配符合其样本特性的采样权重。具体地,对多数类数据集运用K-means方法划分成多个簇并确定簇心,再根据每个少数类数据点到多数类各簇心的平均距离以及相关密度信息选出疑似种子样本,然后基于每个疑似种子样本的分布特征为其添加一个噪声筛选过程,以此找到真正有效的种子样本,紧接着通过分析每个种子样本的领域分布特点来计算出该样本的危险程度,并进一步确定出它的采样权重。区别于传统过采样策略对每个种子样本都找相同数目的近邻实例去插值,本文则是在它的基础上又对每个近邻样本进行了分析,其目的是想通过种子样本与近邻实例间的距离和近邻实例所在类的密度信息为其找到有效的近邻实例。仿真结果显示,本文改进采样策略在多个评价标准上均优于其它过采样策略。
其他文献
氟硅橡胶作为与国防军工密切相关的材料,具有重要的战略意义,而聚合物材料也已在光学领域得到越广泛的的应用,氟硅橡胶具有极佳的光学性能及其他性能,是透紫外材料的理想选择之一。氟元素的存在对其性能有着重要的影响,因此关于氟含量的变化对氟硅橡胶性影响的研究将有重要的意义,也有利于进一步推进氟硅橡胶的发展。本文采用了三种含氢氟硅油与四甲基四乙烯基环四硅氧烷在铂金催化剂的作用下发生硅氢加成反应得到一种新型结构
通常不同作曲者创作的不同风格的音乐在符号域(非音频)的音乐信息(如音高,节奏等)特点上会有明显差异。目前,在不同风格的符号域人类作曲或人工智能(Artificial Intelligence,AI)作曲相似度客观量化评价的研究领域中,对和弦搭配旋律方式的相似度量化研究在区分不同风格音乐的任务中的效果还有提升空间。同时,目前缺乏量化评价不同创作者(包括AI)创作的不同风格音乐的旋律音高与节奏之间的依
聚丙烯(PP)泡沫具有良好的力学性能,优异的耐热性、抗老化以及抗腐蚀等性能,在日用餐饮、交通运输、建筑、军事等领域及行业中有着广泛的应用。但是PP发泡面临着熔体强度低,结晶度高,泡孔形态差及发泡温度区间窄等问题。高熔体强度聚丙烯(HMSPP)是通过辐照或反应共混等方式,在PP链段上插入长支链,提高其熔体强度。但HMSPP发泡还是存在结晶度高,及发泡温度区间窄等问题。本文以超临界二氧化碳(CO_2)
随着中国城市的高速发展,城市商业街区在城市中所体现的作用越加突出。纵观商业街区的发展历史,“资本”与“在地”始终是城市商业街区发展的两个主要因素,二者的利益取向虽然相互冲突,却共同依存于商业街区利益共同体内,且互相博弈,对商业街区的空间产生一定影响。西南地区独特的自然条件和历史文化使其具有鲜明的地域特点和历史文化色彩,在此背景下,西南城市商业街区空间受“资本”及“在地”的影响会呈现不同的状态。本文
在物联网千亿传感器市场的推动下,无线传感网络正渗透进入类生活的各行各业,但随着网络规模的扩大,传统架构的数据平面和控制平面垂直耦合使得网络管理愈发困难,传感器节点电池资源有限所带来的能效问题也愈发严重。本文重点研究基于软件定义机制的无线传感网SDWSN架构,利用全局视图,从休眠技术和节能路由技术两方面设计高效的节能算法,旨在加强网络管理并实现节能的目的,主要贡献如下:设计了一种基于休眠-唤醒调度的
区块链是一种具有不可篡改性,不可信节点之间可以达成共识并进行数据共享的分布式账本技术,但同时基于这些特性区块链技术也暴露了许多数据隐私泄露的问题,这使得在许多业务和领域上都限制了区块链的发展与应用。随着区块链技术不断被重视,如何对区块链上的数据进行隐私保护是现在研究的热点问题。在解决区块链在不可信群体之间的协同工作问题方面,环签名具有保护参与签名主体账户信息功能的天然优势。在实际区块链应用中,环签
随着移动通信技术的迅猛发展与手持移动终端设备的普及,传播与获取信息的媒介由文字向视频转移,人们对高清、超高清视频的需求日益提升。AVS2是我国自主知识产权的编解码标准,其主要的应用目标是超高清晰度视频,支持4K、高动态范围视频的高效压缩。目前市面上的移动终端中,能够支持AVS2标准的视频应用较少,在支持AVS2的视频应用中普遍存在两方面问题:第一,由于硬件性能普遍弱于PC端,手持移动终端在对高清、
中国作为全球最早实现联合国千年发展目标中减贫目标的发展中国家,为全球的减贫事业做出了重要贡献,一直致力于走出一条符合中国特色社会主义道路的减贫之路。党的十八大以来,我国把扶贫开发摆在更加突出的位置,精准扶贫战略成为建设中国特色社会主义和全面建成小康社会的重要组成部分。而作为“五个一批”精准扶贫措施中最核心的措施—产业扶贫,能够激发贫困农户的参与能力和内生动力,提高贫困农户的个人能力和责任意识,是精
对于建筑装饰行业来说,一直普遍存在着资金链脆弱、应收账款余额较大的问题。另外近几年房地产政策调控升级,而建筑装饰行业的客户也主要为房地产行业,这势必会对建筑装饰行业的回款造成影响,在房地产行业自身资金紧张的情况下,垫资装修往往成为企业中标的前提,这造成建筑装饰企业的应收账款规模越来越大,资金状况逐渐恶化,所以应收账款占用资金严重的问题必须要妥善解决。资产证券化为解决应收账款占用资金严重问题提供了一
近几年各大音乐平台内优秀原创歌曲不断涌现,歌曲之间的相似性与抄袭的争议也引起了越来越多的关注。对于歌曲相似性的研究可以为抄袭的判定提供参考依据,也可以避免创作者的作品与现有歌曲产生相似的情况,具有重要的研究意义。目前在歌曲相似度方面的研究中,人们运用多种方式对歌曲进行特征提取,得到不同种类的特征,并运用多种算法对特征进行对比。结合机器学习技术对数据强大的特征提取能力,在歌曲的相似度对比如听歌识曲、