模式识别分类中特征约简的方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:gyzlw21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术,信息技术的进步,大数据时代已经来临,在很多领域都存在维数灾难的问题,如何解决维数灾难问题是当今科学界都在思考的问题,因此性能越突出的特征约简算法成为研究的热点问题,常应用于医学数据处理领域和生物数据处理领域,常用的特征约简算法有特征选择算法和特征提取算法,此两种方法都可以很好的将特征属性进行“降维”处理。但是两种方法都存在各自的优点和缺点,如何利用它们两者优点摒弃缺点也为人们在特征约简的过程中提供了非常好的研究思路与研究方向?本论文分别从特征选择和特征提取的角度对特征属性进行约简研究,分别通过三个特征约简的算法对数据的特征属性进行约简。现阶段特征特征选择算法与分类算法是分别单独设计的,两种算法兼容性比较差。如何解决兼容性差的问题呢。设计出一种基于互信息与支持向量机器的特征约简方法,合理的将互信息的相关知识与支持向量机的相关参数协调设计,该算法在将特征属性进行选择、提取,将特征集合中的不相关项冗余项进行剔除,将最有价值的特征属性保留下来同时将后续分类器的相关设计也同时进行。应用主成分分析进行特征约简虽然可以很大程度上进行特征约简,但是算法并没有考虑到类别属性对特征提取的影响。结合主成分分析和互信息的优点提出新的特征提取算法,此算法可以将高维特征属性进行大比例的约简,并能从中分析特征属性的主要因素和最优的分离平面。最后的一个算法对样本的线性判别准则与FISHER算法进行不同角度的改进,并提出一种新的特征约简算法,此算法将依据样本数据集中同类样本数据的类内散度及不相同类的样本数据之间的类间散度这两个度量进行特征属性的约简,在考虑特征属性和类别属性因素的同时将数据样本进行“降维”,此算法为后续的学习工作做好铺垫。经标准测试数据库的验证,以上算法均从不同的角度对数据属性进行大幅度的约简,并且具有较好的分类的准确率。
其他文献
现代科学技术的飞速发展带来了全球信息化时代,促进了电子工业的蓬勃发展,对集成电路能够承载的功能提出更高的要求。超摩尔定律的提出指明了电子封装微型化及高密度化的发展
随着人类文明的发展和社会进步,环境污染和能源短缺等问题成为阻碍社会发展的重要因素。伴随着许多有机化合物以中间体的形式被运用于提高工业、农业和制药行业产量之中,这些
目前,我国如此大规模的人口流动已经成为一个独特并且非常复杂的经济现象。人口流动在某种程度上缓解了流入地在经济发展中劳动力不足的情况,对流入地经济的可持续的、快速的
在推进我国北方地区冬季清洁取暖、减少燃煤污染、改善空气质量中,空气源热泵是非常有效的替代方案,其结霜和除霜方式、理论是研究热点之一。家用小型空气源热泵一般采用逆循
本研究采用RNA-seq技术对日本七鳃鳗(Lampetra japonica)肝脏进行高通量转录组测序。经从头(de novo)组装,最终获得了47 293个Unigene,N50为1 447bp。通过与多个数据库的同源
随着互联网技术和网站开发技术的飞速发展,内容管理系统作为一个方便用户建设、管理、维护网站和信息内容的平台,已经在各行各业得到了广泛应用。网站数量的增多、散乱的分布方式和数字化信息的大量增长,让人们不得不重视网站管理维护不便、资源浪费等问题。站群内容管理系统就提供了一个既能统一管理网站与内容,实现资源的整合与信息共享,又能对网站进行分级管理与维护的技术架构。本文的主要研究对象为站群内容管理系统。本文
自我认知是自我发展的基础,包括身体、视觉和言语自我认知等组成部分,言语自我认知的发生代表婴儿从认识自己的初级阶段发展到真正正确认识自己的阶段,表现为婴儿可以用言语
自尊与攻击性之间的关系一直是自尊研究的焦点,至今研究者们仍未对两者关系得出统一的论断。最初人们通过观察发现低自尊的人在日常生活中表现出更多的暴力侵犯行为,但之后研
全球气候变化对森林可持续经营提出了新的挑战,迫切需要预测未来气候变化对森林生长收获的影响,为适应性森林经营决策提供依据。落叶松是我国主要造林树种,但未来气候变化对
近年来随着新颖移动应用场景的发展,越来越多的计算密集型和数据密集型任务对时延敏感,移动边缘计算已经成为5G网络应对该挑战的核心技术之一。该技术通过将计算能力从中心网