半监督学习中不平衡数据集分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:p_pppoe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科学技术的发展,如何从海量数据中挖掘出隐藏的信息、规律吸引了大量研究学者的关注。分类方法作为数据挖掘的一个重要手段被广泛应用于实际生活中,然而分类是受到很多因素制约的,除了分类器本身的原因,还包括样本复杂度、样本分布等原因,其中,样本分布对分类方法有着重要的影响。由于大多数的传统分类器建立在数据集中各个类别样本数分布相同的假设基础上,一旦数据集存在不平衡的样本分布,分类器就会明显偏向于强势类,使得弱势类难以被正确分类。不平衡数据集的分类问题不仅困扰着监督学习的方法,而且对半监督学习方法有着一样的问题,然而传统的不平衡数据集分类方法基本是在监督学习领域中,半监督学习领域中,关于不平数据集分类的研究非常少。由于半监督学习领域中,数据集的特点是少量的有标签数据和大量的无标签数据,且重采样方法需要判断分类边界而显得不太适合,因此,本文主要关注于半监督学习中不平衡数据集的分类研究。考虑到半监督学习领域中大量无标签数据的存在,本文提出一种基于样本信息量的迭代最近邻过采样(SI-INNO)方法,在分类开始前,通过样本的相似性,将一部分无标签数据转化为有标签数据,SI-INNO结合了样本的信息量来选择样本,更加合理地改进数据集的样本分布。这种方法不仅适用于二分类数据集,同样适用于多分类数据集。实验中,本文分析了SI-INNO算法在处理不平衡数据集时,有标签数据集和整体数据集不平衡度的关系。在大量的数据集上实验表明,结合本文所提算法对预处理数据集后,再使用半监督分类算法进行分类,可以改进原有算法在针对不平衡数据集分类时所出现的偏差问题。因此,结合了SI-INNO的半监督分类算法对不平衡数据集的分类有更好的鲁棒性。
其他文献
②推力减小时制动结束后,自动调节臂上推力逐渐消除,首先调节臂向顺时针方向转动,消除弹性变形产生的转角“E”。在这一过程中由于推力随弹性变形转角的消除而逐渐减小。因此,蜗
本文通过构建动态精算模型,以在社会医疗保险中占据重要地位的城镇职工基本医疗保险为例,模拟分析实施“全面二孩”政策对医保基金的影响。研究发现:第一,如果继续实施原生育
目的分析细节管理在病房护理管理中的应用效果。方法收集2012年12月~2013年12月期间诊治的住院患者600例作为研究对象,以随机数字表分组的方式分为试验组与对照组,每组患者各
目的:探讨性研究用于多普勒超声心动图诊断右室心内膜心肌纤维化(RVEMF)。
目的探讨腹泻型肠易激综合征重叠功能性消化不良患者与其精神心理、胃肠激素之间的相关性。方法攀枝花市第三人民医院2012年1月至2013年12月间收治的腹泻型肠易激综合征重叠
随着知识经济的到来,人们愈来愈重视知识,渴求成才,很多在职职工都感觉到自身知识的匮乏和不足,而通过各种渠道(如自学考试、函授、电大等)进行再一次充电、学习,这是一件好
针对电力工程车牵引变流器在工作过程中产生的直流侧振荡现象,提出一种直流侧电压稳定控制的方法,提取多重可能影响直流侧电压的振荡因素,通过前馈补偿到转矩来抑制振荡。文
<正>急性呼吸窘迫综合征(ARDS)是各种非心源性的肺内外因素致急性呼吸功能衰竭综合征,临床特点为低氧血症、弥漫性肺实质病变[1]。ARDS病因主要有严重肺炎、脓毒血症、急性重型