高维数据的特征选择与特征提取研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhaoyouwei119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,模式识别或模式分类在越来越多的社会生活中得到了应用。模式识别领域中,存在大量针对高维数据的识别问题,如生物信息数据识别、人脸识别、数字手写体识别等。高维数据的出现为模式识别提出了新的挑战,其不仅难以被人们直观理解,而且为模式识别中的特征选择与特征提取环节带来了新的“维数灾难”。如何从高维数据中选择或提取对识别或分类有效的特征已成为当前的研究热点和难点。本文对模式识别中高维数据的特征选择与特征提取算法进行了研究,主要工作包括以下几个方面:1.提出了一种多重遗传算法,用于疾病相关的单核苷酸多态性的选择。运用统计机器学习方法研究大规模单核苷酸多态性与复杂疾病的关联关系,首要的工作是把大规模单核苷酸多态性缩减为较小集合,从中提取出包含冗余信息较少的特征单核苷酸多态性。为此,提出了用互信息衡量单核苷酸多态性与疾病间关联的紧密程度并将其作为遗传算法的适应值,通过多次运用遗传算法并合并相应的寻优结果得到候选的特征单核苷酸多态性集合。在单核苷酸多态性仿真数据上的实验及与最大熵方法性能比较表明,该方法最大可能丢弃了与疾病无关的单核苷酸多态性,保留了与疾病相关的单核苷酸多态性,为进一步研究提供了合适规模的单核苷酸多态性,本方法可用于中等或较大规模的单核苷酸多态性数据。2.提出了二次投影识别蛋白质谱数据的新方法。作为一种蛋白质组学工具,质谱法的使用对疾病的早期诊断和治疗带来了革命性的变化。然而,由于蛋白质谱数据高达上万维,现有的机器学习方法不能直接用于识别蛋白质谱数据,同时也面临着识别性能较低的问题。借鉴具有良好降维性能的主成分分析与局部线性判别嵌入两种方法,提出了用于蛋白质谱数据识别的二次投影法。该方法对高维数据先进行去噪与T检验降维,再用主成分分析获取第一次投影的低维特征向量,随后用局部线性判别嵌入获取可分性最好的第二次投影特征向量。此外,还对局部线性判别嵌入方法进行修改,得到一种改进的二次投影法。二种方法在卵巢癌蛋白质谱数据上的实验表明识别性能较好。3.为了发现高维样本的非线性流形结构,对人脸识别与数字手写体识别问题,提出了基于流形学习的新的特征提取算法。(1)结合现有数据局部几何结构保持方法,并使类内散度最小和类间散度最大,达到提取最优分类特征信息的目的,提出了两种集成最大边界准则的人脸图像特征提取算法,分别是保局判别分析算法与线性局部切空间判别分析算法。实验表明,提出的算法可以发现数据集中的非线性流形结构并在降维的同时尽可能地保持这些结构信息,还能使数据的分类边界最大化,提取到了最优的分类特征信息。(2)最大差异伸展是一种最近提出的流形学习算法,将其用于模式识别领域还存在不能处理新样本等限制。利用线性变换的思想,在最大差异伸展的基础上,提出了一种新的线性特征提取算法——线性最大差异伸展。该算法利用提取的特征信息把新的测试样本直接线性变换到低维子空间,并能较好地保留局部近邻的信息。(3)为了解决局部线性嵌入方法不能处理新样本等局限,把一幅人脸图像或数字手写体图像直接作为一个二维数据矩阵处理,不再转换为列向量,提出了基于二维图像的特征提取算法——二维局部线性嵌入算法。二维处理的思想通过直接在图像矩阵上运算有效地降低了局部线性嵌入算法的复杂度,同时,在降维中又保持了原方法把高维流形嵌入到低维空间的优点,而且具有处理新测试样本的能力。从实验结果来看,局部线性嵌入对近邻个数敏感的特性也有效的得到了改善。本文提出的特征选择或特征提取算法,主要用于模式分类任务,在各自的应用领域做了相应的仿真实验,与现有相应算法相比,取得了较好的性能。
其他文献
目的:探讨李时珍《本草纲目》中骨伤科的学术思想,挖掘李时珍骨伤临床用药的精髓,进一步弘扬祖国骨伤医学。方法:通过研读、分析、提炼、总结,《本草纲目》的骨伤科学术思想
新疆伊犁察布查尔县传统弓箭文化历史悠久、特色鲜明,蕴藏着巨大的开发潜力。文章采用层次分析法和德菲尔法,在专家知识、主观经验和游客感知的基础上,使定性分析与定量分析
必修课面向全体学生,强调的是基础,选修课面向的是部分学生,强调的是发展。两种课程侧重点不同,在教学策略、教学方法上就要有所不同。面对纷繁芜杂的唐诗宋词选修内容,如何
研究目的:本研究以下坡跑运动致骨骼肌损伤后,观察大鼠损伤修复不同阶段骨骼肌、血清游离氨基酸含量的变化情况,从中发现骨骼肌损伤和修复过程中氨基酸变化的规律,为如何合理
人口老龄化现象成为当今社会必须共同面对的严峻问题。城市公园在城市养老中起到越来起重要的作用,如何适应老年人的需求是城市绿地规划与设计中亟待解决的问题。本文通过实
采用辨证分型的方法治疗中风后遗症 37例 ,结果基本痊愈 18例 (48.7% ) ,显效 11例 (2 9.7% ) ,有效 4例(10 .8% ) ,无效 4例 (10 .8% ) ,总有效率为 89.2 %。治疗前后血脂和
在中国企业走出去进行海外投资的区位选择中,斯里兰卡凭借优越的地理位置和开放的经济环境越来越成为投资者青睐的对象。但投资必然伴随着风险。只有充分了解东道国外商直接
济南山水甲齐鲁,泉甲天下。"泉水"是济南城市风貌的主要特色,也是城市的核心魅力。随着济南城市发展框架的拉开,"泉城"特色风貌日渐黯淡,记得住的乡愁愈加难寻。在"城市修补
预应力混凝土空心板老化损伤或使用荷载增加均可能导致其受弯承载力不能满足要求,影响结构的正常安全使用。本文共进行了10块粘贴不同FRP布加固预制空心板的对比试验研究,其
总结尤昭玲教授治疗卵巢功能低下不孕的经验。尤教授认为,卵巢功能低下的中医病因病机乃肾虚为本,肝心脾功能失调,瘀是关键,且虚实夹杂;临证采用中西医合参诊断,独创冰山理论