不平衡数据粒化学习机建模研究

来源 :华北理工大学 | 被引量 : 1次 | 上传用户:lmwtzw0n9c9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据处理是数据挖掘领域的重要研究内容。由于不平衡数据集的样本类间数量严重不平衡,传统的分类模型关注数据的整体准确率,少数类样本识别精度低。当数据不平衡比较大时,传统模型难以提高少数类样本的分类精度,且普遍存在运算时间长、计算成本高等问题。因此,针对不平衡数据的结构特点,研究既能提高少数类样本的识别精度,又能降低数据规模的算法具有重要的现实意义。数据粒化是降低数据维度的有效方法,以不同的粒化方法与分类器结合作为分类工具,降低数据维度、提高少数类样本识别精度为主要目标,提出了新的粒化学习机建模方法。主要贡献如下:1.针对数据粒化后,传统算法仍需在所有粒层上进行建模学习,计算时间较长的问题,探索一种基于粒计算学习机模型构建方法,获取最优粒层,提升算法学习效率。2.针对采用Tomek-Link方法的欠采样算法,剔除边界样本较少,不能有效平衡数据结构的问题,在Tomek-Link方法的基础上,提出一种基于Tomek-Link的改进粒化算法并构建模型,克服Tomek-Link算法剔除样本少的问题。3.针对在集成学习框架下,模型集成策略主观性较强的问题,提出Bagging粒化加权集成分类模型,使集成策略更具有客观性,提升模型的分类性能。4.针对单独使用非平稳割点算法粒化数据集,容易剔除少量利于分类学习的样本,导致模型分类精度下降的问题。提出了基于膜集成的粒化加权集成分类模型,与其他集成分类模型相比,该模型的少数类样本具有更高的识别精度。由于不平衡数据的分类精度低,少数类样本识别困难,分别从粒化方法、集成策略方面进行研究,结合粒计算理论,提出四种不同的粒化学习机建模算法。在公开不平衡数据集上的试验结果都证实了分类模型的可行性与有效性,为不平衡数据的分类建模研究提供了新的研究思路。图25幅;表14个;参66篇。
其他文献
欠驱动TORA(Translation oscillators with rotating actuator)系统是具有强耦合的非线性系统,控制力仅为电机的驱动力,而被控自由度有两个,即框架位移与电机摆角;TORA系统要
量子阱红外探测器(QWIP)是20世纪末发展起来一个新技术,与其它材料的红外探测技术相比,它具有可重复性高、加工工艺成熟、均匀性好、响应速度快,探测波长范围广,探测的波长可以通过调节量子阱的参数加以控制等优点。通过半导体工艺可以制备出高品质、大面积均匀的量子阱材料,容易做成焦平面阵列,常用在成像系统中,在国防,工业,医学等领域有广泛的应用。自从贝尔实验室研制出第一个QWIP以来,其技术得到快速的发
主动容错控制(Fault-tolerant Control,FTC),是一种系统元件在运行时发生故障的情况下,通过对所发生的故障进行补偿的方式,来确保系统能够安全、可靠、正常稳定的运行的控制
以风沙运动为标志的土地荒漠化及其引起的沙尘暴等灾害,是21世纪重要的环境问题。而对这一典型气固两相流体的动力学求解,面临着诸如Navier-Stokes方程的非线性、湍流运动的
目标检测任务是通过计算机从采样得到的图像或视频中快速,有效寻找感兴趣目标并对其定位,给出所属类别。目标检测作为计算机视觉的一个基本问题,也是当下的热点问题、难点问
基于机器学习的文本分类是自然语言处理领域的重要研究方向之一,能够帮助人们快速、准确地进行信息的获取。目前大部分机器学习算法采用向量形式进行数据的表示。相比之下,采用张量形式进行数据的表示能够更多地保留多模态数据的内在结构信息,并且在面对高维小样本数据时,有着更强的泛化能力,因此近年来基于张量数据的机器学习算法愈发受到研究人员的重视。本文围绕支持张量机与文本分类两个主题进行展开,着重研究了支持张量机
随着科技进步与发展,家用清洁机器人开始步入人们的视野,为解决清洁机器人在实际运行中出现噪声大、续航时间短等问题,本课题以玻璃清洁机器人为背景,研究了无刷直流电机的速
作为下一代移动通信系统的潜在技术,大规模MIMO技术和全双工双向中继系统均具有提高系统频谱效率和能量效率的潜力。本文主要在全双工双向中继系统中,结合大规模MIMO的运用,
随着社会经济的快速发展和城市化进程的不断推进,人均机动车保有量也在逐年持续增加。机动车在给人们生活带来便捷的同时,其数量的快速增长也加重了城市道路交通的拥堵。交通
作为物联网的核心技术,无线传感器网络(WSN)因为其应用灵活性和信息感知有效性受到了越来越多的关注。也正是因为要保证传感器节点的灵活性,其硬件资源和能源供给部分受到限