基于免疫系统的不平衡数据分类方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:dingwei1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和移动技术的发展,互联网进入大数据时代,人们面对急剧膨胀的多媒体信息,需要有效的内容管理和快速的信息查找。分类算法通过学习已标注数据建立模型,对数据进行分类和标签,已经广泛应用于计算机视觉、文字识别、声音识别、文档归类等领域。基于标注数据的分类算法已经走向成熟,如朴素贝叶斯、逻辑回归、支持向量机、决策树等。然而,这些算法都依赖于数据集规模,按照学习理论,只有样本规模超过规定下界时,正确率才能高于临界点;同时不平衡数据集大量存在于人们的现实生活中,人们更关心少数类的样本,错分少数类所产生的代价更大。为了解决这个矛盾,本文致力于基于免疫系统的不平衡数据分类方法研究。借鉴人体免疫系统的原理和特性,研究和解决二类不平衡数据分类问题、多类不平衡数据分类问题,密度缺失下的不平衡数据分类问题,以及类内簇不平衡下的不平衡数据分类问题,主要工作和贡献如下:(1)在二类不平衡环境下,研究了基于免疫中心点的过采样提高分类算法性能的理论和方法。在二类学习中,多数类(或负类)的样本数量比少数类(或正类)的样本数量更多,标准分类学习算法趋于偏向多数类,造成少数类的错分率明显高于多数类的错分率。本文提出的基于免疫中心点的过采样方法(ICOTE)借鉴免疫网络原理,经过繁殖、变异、抑制等过程,产生免疫型中心点来扩充少数类样本,以达到样本分布的类平衡。免疫型中心点反映少数类的分布特征,扩张后的样本集不会改变原有样本的形状,防止新簇的产生,因而ICOTE在避免过学习的同时,也克服了随机合成采样方法不考虑样本空间分布的问题。(2)在多类不平衡环境下,研究了基于多免疫子网络的过采样提高分类算法性能的理论和方法。与二类学习相比,多类学习面临着搜索空间变大、算法复杂度升高、空间重合等新问题,往往无法简单地把二类方法照搬到多类问题。同时,不平衡问题变得更加突出,少数类不止一个,类空间重叠现象更加普遍,造成传统分类算法忽视少数类现象,更倾向降低多数类的错分率。本文提出的基于免疫中心点的全局过采样方法(Global-IC)借鉴免疫网络原理,在每个少数类空间生成免疫子网络,网络节点用来扩充少数类样本,最终达到整个样本分布的类平衡,促使分类算法在生成模型时,给予每个类同样的权重,正确预测未知样本。(3)在少数类数据密度稀疏条件下,研究基于阴性选择的过采样提高分类算法性能的理论和方法。与多数类样本空间相比,少数类空间不仅样本数量少,数据也比较稀疏,形成许多的孤立点或小簇,分类算法易于向多数类偏置。本文借鉴人体免疫系统的阴性选择机制,提出非我抗原型检测器和离散点检测相结合,学习整个数据空间的分布特性,生成符合少数类密度分布的合成样本,扩大少数类空间的决策区域。因为尽可能多的利用样本数据,在少数类空间生成更大或更稠密的决策区后,决策树分类算法有足够的分类信息,生成的决策树能够对未标注样本进行正确分类。(4)在类内簇不平衡条件下,研究基于形状的过采样提高分类算法性能的理论和方法。不平衡问题不简单是类间的不平衡,而是类内部有更多的“小簇”,簇间的不平衡造成预测精度变低。本文借鉴免疫网络原理和离散点检测,提出了基于形状的过采样方法(SBO)。SBO利用聚类算法识别类内的“簇”,然后在簇内构建免疫子网络,网络节点用来扩充少数类样本。我们也研究解决了CURE算法对输入参数的依赖性,利用免疫网络生成代表点替换以前的向量均值;同时,SBO检查簇算法引入的“假簇”,只对真实簇扩充样本规模,避免重复样本带来的过学习问题。因为过采样后的数据集变得类间和类内平衡,并且扩展后数据集和原数据集有着相似的空间分布,因此生成的决策树能够对未标注样本进行正确分类。
其他文献
期刊
随着GPS技术的快速发展和移动智能设备的日益普及,出现了越来越多的基于地理位置的服务(LBS)。这些服务产生了大量的空间文本数据,既包括空间地理位置,又包括文本描述。这给
本文对直线惯性振动筛,按有限元子结构原理,建立起侧板强度分析模型,采用SAP5软件,应用振型叠加法,求侧板的动力响应。
现代中医药在治疗湿疹方面取得了很好的疗效,但是仍然存在辩证分型症候不统一的现象,存在治疗湿疹慢性期的外用药缺乏以及方剂有待改进等问题,现在总结探讨我国近几年中医药
论文探讨了中国高等院校双语教学发展情况,指出双语教学中存在认识问题、教材问题、师资问题和学生能力问题。为推进双语教学发展,应正确认识、领导重视、教材建设、建立激励
中国民办高校进过30年的发展,数量已经不少,但是如何将民办高校做强做大,民办教育界的一个问题。增强师资队伍的建设、建立完善的法人治理制度、明确董事会与校长的关系等措
本论文主要针对计算机技术在医院档案管理工作中的实际应用,尤其是表现在病例的档案管理、设备档案管理和科技的档案管理上,在这些管理上计算机的应用都具有非常重要的作用,只有