基于流形学习的基因微阵列数据分类研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:wzgncsyj1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物学中的基因微阵列数据呈现爆炸式增长,直接对这些海量数据进行认知变得越来越困难,这就出现了对能够从这些海量数据中探究其内在结构的机器学习方法的需求。如何对这些基因微阵列数据进行有效处理,提取出隐含在其中的有用信息成为数据挖掘、机器学习和模式识别等领域的核心问题之一。而流形学习作为一种非线性维数约简方法,能发现海量高维数据的内在规律,因而越来越广泛地被应用在模式识别等领域。本文主要研究如何将流形学习应用到基因微阵列数据分类中,研究内容包括以下几个方面:  1)分析比较了典型的基因微阵列数据分类算法的效果。这些分类算法包括K近邻(K-NN)、朴素贝叶斯(NB)算法和支持向量机(SVM)算法。基因微阵列数据呈现出高维小样本的特性,往往存在着大量的与分类类别无关的特征基因,这些基因往往会影响分类结果。实验表明利用这三种分类算法对基因微阵列数据进行分类并不能取得令人满意的结果。  2)介绍了一种将支持向量机递归消除(SVM-RFE)算法与典型的分类算法相结合来对基因微阵列数据进行分类的方法。该算法根据一种排列标准循环排除掉特征基因中类别依赖性最小的基因,最终得出一个特征基因子集,将该子集利用上述三种分类算法进行分类。与直接用上述三种分类算法相比,基于SVM-RFE算法的基因微阵列数据分类的精度有所提高。  3)提出了基于流形学习的基因微阵列数据分类模型,该方法将流形学习与分类算法结合起来,先利用流形学习算法对基因微阵列数据提取特征,然后再利用分类算法进行分类。流形学习算法包括LLE、ISOMAP、LE、LTSA和HE算法。同时,比较了该方法与上述三种分类算法和基于SVM-RFE的分类算法的效果,实验结果表明基于流形学习的基因微阵列数据的分类算法的分类精度优于上述三种典型的分类算法,与基于SVM-RFE算法相近,但其能对基因微阵列数据的本征维数作出估计,而SVM-RFE算法中基因选择的个数需要先验知识的指导,且算法复杂度较高。
其他文献
近年来,智能卡在很多领域被广泛应用,Java卡作为一种高端智能卡,具有一卡多应用和高安全性等优势,并且其上的应用程序理论上在所有的Java卡上都可运行,便于不同厂商的产品在同一个
社会网络是在人类学,心理学,社会学,图论等理论的基础上发展起来的一门科学,至今已经有70多年的历史了。计算机网络经过了半个世纪的发展,现在已经有了长足的进展,各种网络应用层出
序列比对是生物信息学中一种基本的信息处理问题,对于发现核酸和蛋白质序列上的功能、结构以及进化信息具有非常重要的意义。随着生物序列数据库中序列数据的激增,设计出能够处
复合模式查找是生物信息学中模式发现问题的一个新的研究领域,而寻求效率更高,精度更高的复合模式查找算法将是此研究领域的热点与目标。复合模式查找问题是模式查找问题的泛化
随着通信网络的广泛应用,通信网络测试技术已成为当前研究的热点。目前,大多数通信网络测试系统只能针对某类指标进行专项测试,随着通信网络的日益复杂,迫切需要一种针对多类指标
电子病历是医疗单位的医护人员对门诊及住院患者临床诊断和治疗过程的一个详细记录,其中包括数据、文字、图像、以及音频和影像等结构、非结构化信息。大多数的电子病历都是
多Agent决策仿真通过利用Agent的自治性、智能性和协作性等特点,实现对决策思维和决策流程的有效仿真,是目前研究决策行为的重要方法。而决策仿真中的知识表示问题是影响决策仿
信息技术的不断进步和网络技术的蓬勃发展,使数字图像作为重要的信息载体成为互联网信息中很重要的组成部分,图像自动分类可以有效地提高海量图像数据的管理效率降低管理难度,成
新一代航空电子系统呈现综合化、模块化的趋势,具有资源高度共享、信息快速传输、软硬件高度集成的特点,这些均对航空电子系统的信息安全性提出了新的要求。国内外相关研究机构
问答系统是一种高级形式的检索系统,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。但是传统的问答系