基于半监督学习的不平衡数据分类算法与应用

来源 :大连理工大学 | 被引量 : 14次 | 上传用户:qiuyuwusheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习方法能够利用有限的有标签数据,并结合大量的无标签数据挖掘出有用的信息,在诸多领域得到了广泛的应用。然而传统的半监督分类方法大多建立在数据集中各个类别样本数相等的假设基础上,一旦数据集中各个类别样本数不等,分类边界将偏向于拥有样本数少的类别,(此类别称之为弱势类,而拥有样本数多的类别称之为强势类),导致强势类分类空间增大,弱势类样本难以被识别出来,分类性能受到严重影响。实际应用中,人们往往更关注弱势类样本的识别率,如森林火灾监测发生火灾的温度序列相比正常情况要少得多,然而识别火灾温度序列是人们更为关心的;社交网络隐私保护应用中,恶意用户的识别要比可信任用户更重要,然而恶意用户的数量远远小于可信任用户的数量。因此,解决此类问题具有很强的理论意义和实用价值。本文将各个类别样本数不相等的数据集分类称为不平衡的数据集分类。研究表明,不平衡数据集分类方法大多在监督学习的环境下,而在半监督学习领域内关于不平衡数据集分类的研究甚少。不平衡数据集分类方法可以通过算法层面或数据层面去解决。算法层面主要通过改变现有算法的策略以适应对不平衡数据集的分类;数据层面主要通过数据集重采样的方法来改变数据集的样本分布,以构造平衡的数据集,来适应现有算法。因此,本文的研究重点为:根据现有的半监督分类算法,在算法层面提出了LMN算法,在数据层面提出了INNO算法,来解决在半监督学习环境下的不平衡数据集的分类问题,明显提高了对不平衡数据集的分类精度。并利用提出的算法与经典的半监督分类算法相结合,有效的解决了森林火灾监测和社交网络隐私保护两个实际问题。论文主要研究工作如下:(1)首先从算法层面出发,由于传统的基于图的半监督分类方法在对不平衡数据集分类时,各个类别在标签传递过程中的信息总量不等,导致分类边界倾斜。针对此问题,本文提出LMN算法,即用标签“平衡因子”来构造规范化的标签矩阵,将每个类的标签总信息量归一,以保证各个类拥有的初始标签信息总量相等,进而消弱了强势类的标签信息带来的分类倾向。(2)然后从数据层面考虑,由于传统的重采样方法在分类边界构造人工样本,而半监督学习环境中,只拥有稀少的有标签数据难以判断分类边界。针对此问题,考虑到半监督学习环境中包含大量的无标签数据,本文提出迭代最近邻过采样标签平衡方法(INNO算法),在分类开始前,迭代地从无标签数据集中选出与所有弱势类的标签数据距离最近的样本,同时避开可能处于分类边界的样本,然后将其添加到有标签数据的集合中,以防止引入错误分类给后续分类算法带来错误累积,以保证分类算法输入的数据集是平衡的或者近似平衡的。(3)另外,在基于边界采样的主动学习的过程中,每次挑选距离分类边界最近的样本,然后交给专家系统进行标注,然而选择的样本可能与已知的样本区域距离较近,这样的样本可能会给分类器带来重复的分类信息。针对此问题,本文通过相似性检测算法来避免选择局部集中的样本,更好地扩展了样本的选择区域,一定程度上解决了不平衡数据集的分类问题。(4)传统森林火灾监测的识别算法受限于能源消耗、处理效率和内存大小限制。此外,由于火灾出现的概率要远远小于正常情况,因此,数据集存在着明显的不平衡性。本文首先将温度变化序列概括为四种不同的变化曲线(即为分类目标),然后将传感器检测的温度序列,按照时间间隔划分成相同长度的子序列,然后利用本文提出的INNO方法,对未知的温度子序列分类,提高了数据集不平衡情况下对森林火灾的识别率。(5)在线社交网络中好友的可信任程度是用户首要关注的问题,针对如何避免个人信息被恶意用户窃取和泄露,考虑到可信任用户和恶意用户数量的不平衡性,以及朋友关系的可传递性,利用本文提出的LMN方法,解决了可信用户和恶意用户的数量不平衡带来的影响,消除了现有的用户可信性推断算法对网络通路的限制,并且在用户可信性的推断正确率方面取得了一定的优势。
其他文献
本文将比较优势理论、竞争优势理论、博弈论、集体行动的逻辑理论引入区域旅游研究体系,论述并构建区域旅游合作研究的理论基础。
古希腊两大城邦斯巴达和雅典都重视体育,斯巴达更重视体育的秩序性,而雅典更重视体育的自然性,强调对于自然身体的接纳。造成二者差别的原因在于雅典经历了大地崇拜与天空崇
中国是一个有着13亿多人口的大国,人多地少的矛盾一直贯穿农业现代化进程的始终。在城乡一体化发展的背景下,土地流转如何实现社会公平正义,以及使效率与公平相互兼顾,一直是
基础美术训练建立在技能的训练与技艺熟练上,而摄影技能文化与技术文化界定上,来自商业化的市场选择,商业摄影和市场技术成为一种大众的选择。
基于Struts、Spring和Hibernate对企业信息系统进行分层。在强调它们技术原理的基础上并结合应用实例,提出三种开源框架的整合方式,应用它们作为一种企业信息化解决方案。实现
用光学测微法进行一等跨河水准测量时,通过合理的场地布设,在有利于减小各种误差的条件下观测,取得优良的观测成果。
随着经济的发展、环境的变迁,全面收益应运而生并成为业绩报告的改革趋势,因此研究全面收益的确定问题有其重要的现实意义。本文主要从系统观的角度出发,讨论了全面收益确定系统
通过调查婺源县风景林景观资源的现状,针对不同的景观类型提出改造婺源风景林景观存在的树种单一、林相单调、风景林景观较差等问题的相应措施,以促进婺源县生态旅游的可持续
电影海报是随着电影的产生而产生的。一幅优秀的电影海报不仅能招徕观众,还能使其对电影作品产生美好的印象。电影海报的魅力源于创意表现,借助图形、线条、符号、色彩、文字以
企业文化管理是根本的管理,靠文化,企业得持续长久绵绵不断的动力,并鲜明而深远的影响企业的行为。企业文化管理是透过企业文化价值观、企业文化功能而实现企业管理目标。