基于Co_training的数据集重叠问题研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:zoeshuwen88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题一直是机器学习和数据挖掘领域的重要问题之一。数据集的不平衡问题一度被视为影响分类效果的主要因素,学术界分别于2000年和2003年举行会议进行了讨论,学术成果相当丰富。但随着研究的深入,陆续有学者提出数据集的不平衡问题并不是影响分类效果的关键因素,而不同类别的样本在样本空间上的重叠问题才是导致分类精度不高的主要原因。目前数据集重叠问题已逐渐成为新的研究热点,受到越来越多研究者的关注。现有的处理数据集的重叠问题的方法主要是选择性删除数据和特征提取。选择性删除数据的目的是找出数据集重叠的区域,并将该区域的样本删除,常用方法有Data Clean和Edit。而利用特征提取算法处理数据集的重叠问题的研究目前还只停留在理论阶段。 本文提出了两个处理数据集重叠问题的方法:基于离群点检测的处理方法,融合了Tomek Links和KNN两种传统方法,从样本集中找出最近邻类标与之相反的样本,然后利用KNN方法判断其是否是离群点,若是,则将其删除。基于半监督学习法的处理方法,采用的是Co_training方法。本文将这两种方法应用于UCI数据库中的数据集,并且与传统处理方法进行比较,相对于传统方法,本文提出的两种处理方法适用性较广且大多数情况下分类效果有较好的改进。
其他文献
本刊讯2015年1月20日上午10点,由共青团苏州市委员会和苏州市文学艺术界联合会主办、苏州市青年书法家协会承办、新梅华餐饮连锁协办的的爱的阳光——苏州市青年书法家义捐作
张爱玲作为一个描写都市人文的小说家,有着深厚的文字功底、独特的人生观以及犀利的洞察和丰富的想象成就于文坛.在张爱玲的文学表达中,用比喻去描写事物进行情节的推进和人
本文所研究的内容分为两部分.一、加权Bergman空间与Zygmund空问之间广义Cesaro算子和复合算子的乘积算子的有界性和紧性特征:二、Schatten-p类Hankel算子在调和Bergman空间上
本文主要建立了一个多指标交通网络平衡模型和一个多指标供应链网络模型,研究了广义(弱)向量平衡流与(弱)向量变分不等式解、(弱)h-平衡流与广义(弱)向量平衡流之间的关系,标量
如果一个图G能够嵌入到平面内,使得边仅在端点处相交,则称G是可平面图.两个圈的距离是指两个圈上的点的距离的最小值.在本文中,3圈又叫做三角形. 对于一个可平而图G=(V, E),若
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
人口动力系统描述了一种物种(如人,细菌)等,其数目总量与时间、年龄和空间分布的关系,通过对该关系的长期研究,发现物种数目的变化与该物种的出生率,死亡率,物种总数,空间,环境资源(
本文对2-赋范空间的若干凸性进行了研究。文章总结了2-赋范空间的相关几何性质,得到在严格凸意义下b-最佳逼近点的唯一性,将平的Banach空间推广到2-赋范空间给出了代数平和2-范
美国科学家研制出一种“可食用”迷你机器人,能进入人体内寻找、吸附和快速排出金属异物,让人免受手术之苦。这种机器人的主要构成是两层猪肠衣,中间夹有一层生物性可降解的
在微生物连续培养系统中,微生物的生长速度对整个微生物培养过程有着至关重要的作用.本文研宄了带有生长限制的微生物生长速度函数^对微生物连续发酵模型的动力学行为的影响.