面向不平衡数据集分类的层次引力模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:guaiguainiu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘和机器学习领域的一个热点问题,传统的分类问题主要关注数据分布平衡的情况,但是在实际应用当中数据不平衡的情况时有发生。数据的不平衡给分类直接或间接地带来了很多困难,传统的方法在对不平衡数据集进行分类时往往变得不再适用。由于不平衡数据集分类问题的挑战性和在现实中的广泛应用,吸引了越来越多的人对其进行研究。目前对不平衡数据集分类的解决方法主要分三种:问题定义层的解决方法、数据层的解决方法和算法层的解决方法。在对不平衡数据集分类中的主要问题进行分析后,该文介绍了两种传统的分类方法,即层次分类模型和数据引力模型,并分析了将它们用于不平衡数据集分类的可行性:将两者结合可以同时降低类间不平衡和小析取项对分类影响。然后在此基础上对两者进行了修改,提出了一种用于不平衡数据集分类的层次引力模型,即HDGC。本文的主要工作如下:1.将层次分类模型和数据引力模型相结合,在吸纳两者优点的同时使两者弥补了彼此的不足,即层次分类模型精确分类能力的不足和数据引力模型分类代价较高的问题。2.改变了传统层次分类模型中采用新生成样本代替原始样本的做法,将划分后位于同一区域的样本看作一个数据单元,根据数据单元距离边界的远近对其进行不同标记,并使用标记结果辅助分类。3.采用了局部引力和全局引力相结合进行分类的方法。局部引力只采用相邻的训练样本对测试样本进行分类,在有足够信息的情况下提高了分类的效率,而使用全局引力则可以利用尽可能多的信息对难分样本进行分类。为了验证HDGC算法的有效性,分别在实际数据集和人工数据集上进行了实验,实验结果表明该方法能够很好的处理不平衡数据集的分类问题,同时具有较高的分类效率。
其他文献
本文研究的主要内容是多目立体视觉的图像特征点匹配问题。图像特征点匹配指的是找出物体从不同角度拍摄后在不同图像上投影点的对应。为了提高图像匹配算法的精度和可靠性,
身份认证需求充斥着社会生活的各个方面,人们对身份认证的安全性和人性化要求也越来越高。传统的身份认证通过密码匹配、刷卡等方式实现,具有架构简单、成本低等优点;但存在
随着Internet技术和通信技术的快速发展,政务办公系统和电子商务系统在政府和企业中广泛应用,基于现代信息技术和通信技术的“电子政府”应运而生。政府机构使用新的政府办公
近年来,随着计算机和互联网技术的飞速发展,多媒体数据呈现爆炸式的增长,多媒体信息的存储、传输和处理变得越来越重要,尤其是图像处理相关的研究和应用。显著性检测是图像分
随着计算机网络技术以及数值仿真技术的发展,仿真技术越来越多地应用到航天航空领域。探空火箭仿真系统正是基于这一背景而提出。其中,探空火箭运载系统仿真作为一个重要联邦
现行软件的结构越来越复杂,而处理器本身由于功耗的原因,性能提升的空间正在逐步缩小,另外硬件性能提升必然引入成本的增加,此时软件优化技术就扮演了更重要的角色。BLAS库作为现
Web服务发现是面向服务的架构模型中一个至关重要的部分,随着面向服务理念被越来越多的人所接受,Internet上Web服务的数目和种类也迅速增加,如何在海量的Web服务中选择最符合
随着Internet的迅速发展和广泛应用、电子商务和信息技术的迅速发展,数据库在不同的行业和领域得到了广泛的应用。海量的信息和大量的用户请求对数据库管理系统提出了严峻的
传统的织物染色配色技术是基于Kubelka-Munk理论的三刺激值配色和全光谱配色,但以该理论为基础的配色方法引进了较多的假设,使得配色的误差较大,难以满足工业生产的需求。鉴
无线传感器网络(WSN)是由大量低成本、低功耗、处理能力低和能源受限的微型传感器节点组成的无线多跳自组织网络,各节点相互协作地感知、采集、处理和传输网络覆盖区域内被感