基于不平衡数据集的主动学习分类算法

来源 :控制工程 | 被引量 : 0次 | 上传用户:cppgreate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法.该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零.利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不 平衡数据集的分类精度.“,”Aiming at the problems of noise data and low classification accuracy in the classification process of imbalanced datasets, an active learning SVM classification algorithm based on improved SMOTE is proposed. This algorithm uses the attribution values of the minority class samples for training the sample set to choose and control the number of synthetic minority class samples by the majority vote method. According to the distance formula, the hyperplane is determined. The same number of majority class samples which are closest to the classification hyperplane are selected to form a balanced sample dataset. Support vector machine (SVM) is used to classify and obtain an optimal classifier. Then active learning is used to the imbalanced dataset which removes the training samples to circulate classification until samples of the imbalanced dataset is null by using the optimal classifier. Using UCI data, the experimental results show that the proposed algorithm can effectively reduce noise influence for data classification and improve the classification accuracy of the imbalanced dataset.
其他文献
提出一种新颖的时分复用与最大调度的混合调度算法,解决了单信道无线网状网中,当同一时刻待传输链路突增时,信道竞争冲突加剧,网络容量显著下降的问题.算法根据链路与系统子
1.网络安全现状及安全分析rn随着网络技术的快速发展,网络应用的增加,网络安全问题也越来越突出,在过去认为安全的网络现在也慢慢变得不安全.网络安全隐患也愈来愈严重,尤其
在车道线被侦测出的前提下,前方车辆的侦测(Range of Interest,ROI)范围将会依赖这些车道线特征进行限定,随后根据车底阴影、车辆竖直方向上的特征以及车尾灯特征锁定前方车辆的位置,并且这些车辆的特征信息最终会转换成车距的信息。由于文中算法对白天以及夜晚两种不同情况做了相应差异化处理,且采用单双摄像头切换测距的方式,使得系统在中短距离的车距侦测具有优良的性能。实验表明,文章所设计的系统
建筑领域使用节能墙材,能有效减小能耗,保护环境.PRC轻质复合隔墙板是其中的一种节能材料,文章总结施工经验,对有关施工工序和质量、安全等保障措施进行分析,以供参考.
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
介绍了虚拟样机技术,对飞控系统虚拟样机技术的发展趋势进行了概述.为了深入分析Boeing、Airbus系列和BUAA民机型方案的余度飞控计算机系统,为我国大型民机研究提供参考,对民
当今网络环境中,新型、未知应用大量涌现、并且网络技术日新月异,这对网络流量的识别带来严重挑战.传统的基于IANA端口的应用识别方法逐渐失效,利用流行为统计特征的流量分类
语文教学与信息技术的有效结合能够有效提高教学质量,教师应充分认识信息技术,掌握和运用信息技术进行语文教学,加学生学习语文的兴趣,提高语文教学水平.
钢结构工程预算是反映钢结构工程投资经济效果的一种技术经济文件,是现阶段确定钢结构工程造价的一种主要形式.从表面上看,钢结构预算与成本控制是两个完全独立的单体,看似没
在过去的一年里,计算机病毒呈现怎样的特点,窃取账号和网络欺诈等网络犯罪活动有哪些新的发展趋势?我国公共互联网上有无发生造成严重后果的大规模网络安全事件?逐步被曝光的