论文部分内容阅读
半监督学习方法能够利用有限的有标签数据,并结合大量的无标签数据挖掘出有用的信息,在诸多领域得到了广泛的应用。然而传统的半监督分类方法大多建立在数据集中各个类别样本数相等的假设基础上,一旦数据集中各个类别样本数不等,分类边界将偏向于拥有样本数少的类别,(此类别称之为弱势类,而拥有样本数多的类别称之为强势类),导致强势类分类空间增大,弱势类样本难以被识别出来,分类性能受到严重影响。实际应用中,人们往往更关注弱势类样本的识别率,如森林火灾监测发生火灾的温度序列相比正常情况要少得多,然而识别火灾温度序列是人们更为关心的;社交网络隐私保护应用中,恶意用户的识别要比可信任用户更重要,然而恶意用户的数量远远小于可信任用户的数量。因此,解决此类问题具有很强的理论意义和实用价值。本文将各个类别样本数不相等的数据集分类称为不平衡的数据集分类。研究表明,不平衡数据集分类方法大多在监督学习的环境下,而在半监督学习领域内关于不平衡数据集分类的研究甚少。不平衡数据集分类方法可以通过算法层面或数据层面去解决。算法层面主要通过改变现有算法的策略以适应对不平衡数据集的分类;数据层面主要通过数据集重采样的方法来改变数据集的样本分布,以构造平衡的数据集,来适应现有算法。因此,本文的研究重点为:根据现有的半监督分类算法,在算法层面提出了LMN算法,在数据层面提出了INNO算法,来解决在半监督学习环境下的不平衡数据集的分类问题,明显提高了对不平衡数据集的分类精度。并利用提出的算法与经典的半监督分类算法相结合,有效的解决了森林火灾监测和社交网络隐私保护两个实际问题。论文主要研究工作如下:(1)首先从算法层面出发,由于传统的基于图的半监督分类方法在对不平衡数据集分类时,各个类别在标签传递过程中的信息总量不等,导致分类边界倾斜。针对此问题,本文提出LMN算法,即用标签“平衡因子”来构造规范化的标签矩阵,将每个类的标签总信息量归一,以保证各个类拥有的初始标签信息总量相等,进而消弱了强势类的标签信息带来的分类倾向。(2)然后从数据层面考虑,由于传统的重采样方法在分类边界构造人工样本,而半监督学习环境中,只拥有稀少的有标签数据难以判断分类边界。针对此问题,考虑到半监督学习环境中包含大量的无标签数据,本文提出迭代最近邻过采样标签平衡方法(INNO算法),在分类开始前,迭代地从无标签数据集中选出与所有弱势类的标签数据距离最近的样本,同时避开可能处于分类边界的样本,然后将其添加到有标签数据的集合中,以防止引入错误分类给后续分类算法带来错误累积,以保证分类算法输入的数据集是平衡的或者近似平衡的。(3)另外,在基于边界采样的主动学习的过程中,每次挑选距离分类边界最近的样本,然后交给专家系统进行标注,然而选择的样本可能与已知的样本区域距离较近,这样的样本可能会给分类器带来重复的分类信息。针对此问题,本文通过相似性检测算法来避免选择局部集中的样本,更好地扩展了样本的选择区域,一定程度上解决了不平衡数据集的分类问题。(4)传统森林火灾监测的识别算法受限于能源消耗、处理效率和内存大小限制。此外,由于火灾出现的概率要远远小于正常情况,因此,数据集存在着明显的不平衡性。本文首先将温度变化序列概括为四种不同的变化曲线(即为分类目标),然后将传感器检测的温度序列,按照时间间隔划分成相同长度的子序列,然后利用本文提出的INNO方法,对未知的温度子序列分类,提高了数据集不平衡情况下对森林火灾的识别率。(5)在线社交网络中好友的可信任程度是用户首要关注的问题,针对如何避免个人信息被恶意用户窃取和泄露,考虑到可信任用户和恶意用户数量的不平衡性,以及朋友关系的可传递性,利用本文提出的LMN方法,解决了可信用户和恶意用户的数量不平衡带来的影响,消除了现有的用户可信性推断算法对网络通路的限制,并且在用户可信性的推断正确率方面取得了一定的优势。