论文部分内容阅读
生物学相关信息量的革命性的爆炸,产生了对海量生物信息进行处理的需求;而计算机技术的革命性发展,形成了处理海量生物信息的能力。于是,生物信息学便在综合计算生物学的研究和生物学信息的计算机处理的基础上迅速而成功地发展起来。生物信息学是计算机和网络大发展、各种生物数据库迅猛增长形势下如何组织数据,并从数据中提取生物学新知识的学问。微阵列技术的出现为生物信息学研究提供了强有力的手段。利用显现模式(Emerging Patterns, EPs)的基因分类方法通过分析微阵列数据,不仅可以识别癌症样本,同时可以挖掘出隐含的与癌症相关的具有生物意义的基因模式,从基因角度揭示癌症病理。本文对生物信息学研究中基于显现模式的基因分类算法做了一些工作,归纳如下:(1)介绍了基因分类的发展概况、微阵列技术以及常用的分类算法,并通过实验进行性能评价,为本文后续章节的研究提供理论和实验基础。(2)针对提取显现模式时在小样本情况下将频率近似于概率的缺陷,在熵的计算中引入贝叶斯估计,即通过增加虚拟样本的方法估计概率从而缓解小样本下熵度量的不稳定性。(3)针对PCL(Prediction by Collective Likelihood)分类器的不足,提出一种基于显现模式的基因分类算法。该算法在引入贝叶斯估计的基础上,向PCL分类器中加入训练样本集EPs自身频率对似然度的影响。通过在急性白血病数据集上进行实验,表明该算法能够有效提升分类器的性能。(4)提出了随机割点的概念,以加强割点对未知样本的泛化能力。并结合贝叶斯估计,获得高级显现模式EPA;借鉴KNN思想,提出一种新的基于EPA的基因分类器EPA-KNN。在研究了采用熵及最小描述长度原理挖掘特征基因及其割点的相关理论之后,本文分析了候选割点的选取原则,引入边缘点的思想,以缩小候选割点的范围,节省搜索候选割点的计算量。但显现模式中候选割点仍是样本集合经排序后某两个相邻样本表达值的平均,这样的平均点未必是对未知的测试样本集分类能力最优的割点。随机割点即在某个区间上服从均匀分布的随机变量。实验结果表明了随机割点以及EPA-KNN基因分类器的可行性和有效性。