基于微阵列的基因分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:xiaoxi0504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物学相关信息量的革命性的爆炸,产生了对海量生物信息进行处理的需求;而计算机技术的革命性发展,形成了处理海量生物信息的能力。于是,生物信息学便在综合计算生物学的研究和生物学信息的计算机处理的基础上迅速而成功地发展起来。生物信息学是计算机和网络大发展、各种生物数据库迅猛增长形势下如何组织数据,并从数据中提取生物学新知识的学问。微阵列技术的出现为生物信息学研究提供了强有力的手段。利用显现模式(Emerging Patterns, EPs)的基因分类方法通过分析微阵列数据,不仅可以识别癌症样本,同时可以挖掘出隐含的与癌症相关的具有生物意义的基因模式,从基因角度揭示癌症病理。本文对生物信息学研究中基于显现模式的基因分类算法做了一些工作,归纳如下:(1)介绍了基因分类的发展概况、微阵列技术以及常用的分类算法,并通过实验进行性能评价,为本文后续章节的研究提供理论和实验基础。(2)针对提取显现模式时在小样本情况下将频率近似于概率的缺陷,在熵的计算中引入贝叶斯估计,即通过增加虚拟样本的方法估计概率从而缓解小样本下熵度量的不稳定性。(3)针对PCL(Prediction by Collective Likelihood)分类器的不足,提出一种基于显现模式的基因分类算法。该算法在引入贝叶斯估计的基础上,向PCL分类器中加入训练样本集EPs自身频率对似然度的影响。通过在急性白血病数据集上进行实验,表明该算法能够有效提升分类器的性能。(4)提出了随机割点的概念,以加强割点对未知样本的泛化能力。并结合贝叶斯估计,获得高级显现模式EPA;借鉴KNN思想,提出一种新的基于EPA的基因分类器EPA-KNN。在研究了采用熵及最小描述长度原理挖掘特征基因及其割点的相关理论之后,本文分析了候选割点的选取原则,引入边缘点的思想,以缩小候选割点的范围,节省搜索候选割点的计算量。但显现模式中候选割点仍是样本集合经排序后某两个相邻样本表达值的平均,这样的平均点未必是对未知的测试样本集分类能力最优的割点。随机割点即在某个区间上服从均匀分布的随机变量。实验结果表明了随机割点以及EPA-KNN基因分类器的可行性和有效性。
其他文献
在当今数字化信息时代,很多企业开始推行网络化的信息管理。其中采购管理也是企业信息化管理的一种。传统的企业采购管理通过纸质媒介平台进行流转,缺乏信息化的管理手段,已
随着电力系统不断的向开放式的方向发展,电网调度系统越来越复杂,对电网调度系统之间的协调性的要求也越来越高,为了适应这种要求,多Agent技术被应用到电网调度系统中。本文
微机电系统(MEMS,Micro-Electro-Mechanism System)、片上系统(SOC,System on Chip)和无线通信技术的进步孕育了无线传感器网络(WSN,Wireless Sensor Network)。它能够实时监
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,人们所拥有的数据资源日益丰富,数据量急剧增加。数据的价值在于它的质量,基于劣质数据的决策是不可信
嵌入式系统设计面临着系统复杂性的不断增加以及设计周期的逐渐缩短等问题的挑战,这类挑战来自于设计初期模糊的设计参数及非功能性需求(低成本、低功耗等)的不断增加等。传
  随着Internet规模快速增长,Internet网络结构日益复杂,因此,了解其拓扑结构和拓扑性质对于Internet的应用、扩展、性能优化、增强网络安全性等方面具有重要意义。研究人员已
随着多媒体和计算机网络技术的飞速发展,数字图像的数量正以惊人的速度增长,如何快速、准确地检索到所需要的图像成为急需解决的问题,图像检索技术的研究已成为当今多媒体技
本文在分析C/C++程序安全检查工具框架的基础上,根据安全检查的特殊需求,给出了一种基于分析器自动生成工具ANTLR构造C/C++安全检查工具前端的方法,并将此方法应用于实际开发过
中文输入法是手机的必备功能,但手机中文信息处理技术,包括嵌入有汉字处理技术在内的手机核心模块的控制权和修改权,主要掌握在国外厂商手中。在中国人使用的数亿部手机中,90
随着近年来高校信息化建设的开展,各高校的校园网络获得了巨大的发展,各高校纷纷获得“西部高校校园网络建设项目”,“日元贷款项目”,“中央与地方共建实验室项目”,等众多