模式分类中训练样本集的构造方法研究

被引量 : 0次 | 上传用户:wyakl1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类就是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是人类以及动物的最基本的智能表现。随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据进行模式分类的要求越来越广泛,越来越迫切。近些年随着研究人员的深入研究,出现了许多优秀的分类算法。如人工神经网络(Artificial NeuralNetwork,ANN),支持向量机(Support Vector Machines,SVMs)和决策树(DecisionTree,DT)等。这些算法的出现极大的促进了模式分类技术在生活中各领域中的应用。然而模式分类研究远没满意的程度。传统分类算法往往需要训练样本充足而且与测试样本满足独立同分有达到令人布。然而现实世界中的分类问题的训练样本集往往存在种种不尽如人意的问题,如样本数目过少、数据分布不平衡、协方差偏移以及样本数目过多,这造成了分类器在分类精度和效率上的不足。因此,提高分类器在各种低质量的训练数据集上分类性能就具有极高的理论研究价值。由于分类器对训练样本集质量的要求比较高,因此合理的进行高质量的训练样本集构造就成为了一个可供选择的方案。本文针对低质量训练样本集上的分类问题,开展了以下几个方面的工作。首先,面向小样本数据分类问题进行训练样本集构造方法研究,提出了一种基于高斯分布的虚拟样本生成方法。该虚拟样本生成方法利用了模式分类中的光滑性假设,在每一个原始训练样本周围利用高斯分布生成一定数目的虚拟样本,实现了原始训练样本集的有效扩充。由于光滑性假设是模式分类中最为普遍的先验知识,因此基于高斯分布的虚拟样本生成方法可以适应更为广泛的问题并且更能保证生成样本的真实性。此外本文证明了即便对于光滑性假设不满足的小样本分类问题,利用虚拟样本进行分类学习效果等价于模式分类中的正则化方法。在iris与sonar标准数据集上的仿真实验说明本文算法可以有效的提高分类器在小样本分类问题上的分类性能。其次,针对不平衡数据分类问题进行训练样本集构造方法研究,利用基于高斯分布的虚拟样本生成方法对稀少类的原始训练样本生成一定数目的虚拟样本,降低类间的不平衡度。并证明了即便对于光滑性假设不满足的不平衡数据分类问题,利用基于高斯分布的虚拟样本生成方法进行平衡化处理之后,分类器的学习效果等价于代价敏感学习。在kdd cup99入侵检测数据集与sonar标准数据集上的仿真实验说明本文算法可以有效的提高分类器在不平衡数据分类问题上的分类性能。再次,面向协方差偏移下的分类问题进行训练样本集构造方法研究,提出了一种从原始训练样本中抽取与测试样本集合满足独立同分布的子集的方法。该方法通过对特征空间进行细化,在子空间进行样本数目匹配,能够使抽取到的训练样本子集与测试样本集近似满足同一分布。因此在该子集上的学习可以有效的提高分类器的精度。在改造过的UCI标准数据集上的仿真实验说明本文算法可以有效的提高分类器在协方差偏移下的分类性能。最后,面向大规模数据分类问题进行训练样本集构造研究,对支持向量机分类器提出了一种改进投影的支持向量预选取方法。首先,对于线性可分问题,利用Fisher线性判别分析计算投影直线;对于非线性可分问题,分别采用如下两种该方法进行投影直线确定。其一,利用核函数将原始分类问题映射到高维特征空间,然后计算特征空间的中心向量作为投影直线;其二,利用核Fisher判别分析计算投影直线。其次,从投影直线上选取一定数目的相邻区域的投影对应的样本作为边界向量。复杂度分析显示了该方法具有较低的时空复杂度。在两个人工数据集与一个实际问题数据集上的仿真实验说明本文算法几乎可以和标准支持向量机算法或者SMO算法一样精确,然而却更为高效。
其他文献
作为新兴的一种金融业务发展模式,互联网金融对当今世界的发展产生了巨大影响。随着我国互联网金融发展的高潮迭起,对互联网金融的研究也广受关注。本文通过借鉴已有研究,对
目的针对食管癌术后的患者采取早期肠道内、全肠外营养方法,探讨并分析两种营养辅助治疗方法的实际疗效与应用。方法选取2013年1月~2016年1月我院接受手术治疗的食管癌患者96
目的评估射频热凝联合臭氧注射(RFTC-OI),对腰椎间盘突出(LDH)患者的疗效及其电生理检测的意义。方法收集2011年9月~2013年1月就诊的LDH患者,符合纳入标准者50例,随机分为2组
随着3G网络的不断普及和4G网络的兴起,基于智能手机和平板电脑的移动应用异军突起。在电子政务领域,移动OA办公系统同样也引起了一轮新的办公革命,它极大地提升了政府的办公
油画教学作为美育的一部分,是顺应当今教育发展趋势的结果。油画教学中学生创作意识的培养十分重要。本文通过对油画名作的鉴赏与分析培养创作意识;对习作的改忧与延展培养创
食品安全是食品生产企业中食品管理方面的巨大问题,伴随着近几年来食品安全事故的发生,我们得到了沉痛的教训。随着计算机的应用普及,采用计算机技术及网络化的方式对食品企业中
本文介绍速率法测定血清甘氨酰脑氨酸二肽氨基肽酶(Glycylprolinc dipcptidylaminopeptidase,GPDA)的方法.并应用于自动生化分析仪,测定的最适pH 为8.6,酶活力在1300 U/L 以
近年来,装修建材市场在我国的国民经济建设中发展迅速,并起着越来越重要的作用。据调查,我国装修建材市场的现状是:品种繁多、价格差异大、质量差距大、售后问题也多。装修建材市
脆性X综合征(fragile X syndrome,FXS)是常见的遗传性智力低下性疾病之一,其发病率男性约为1/4000,女性约为1/8000。其根本病因是脆性X智障基因(fragile X mental retardation1,FMR1
现代商业银行对信息科技的高度依赖,使信息科技风险越来越成为银行风险管理的重要内容。本文利用操作风险管理的框架和工具,对信息科技风险的识别、计量、监测和控制等进行研