论文部分内容阅读
生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域,使得生物信息学很快成为全球关注与研究的焦点。我们主要研究了生物信息学中的两个基本问题:(1)关于k-长DNA子序列在基因组全序列中出现频数的分布问题;(2)关于基于基因表达谱的肿瘤分子诊断问题。对于这两个问题的研究,都取得了非常好的实验结果,具有理论和现实意义,有助于生物信息学的发展。针对问题一,分别从DNA序列的可视化表示、k-长DNA子序列出现频数分布及其计数算法三个方面展开研究。针对问题二,分别从肿瘤特征抽取和信息基因选择两个方面研究了肿瘤亚型分类模型。DNA序列可视化表示对于研究其结构与功能具有至关重要的意义,它有助于重复子序列的识别、内含子与外显子的区分以及DNA序列进化等方面的研究。我们首先综述性研究了几种DNA序列的可视化表示方法,比较了生成DNA序列分形图像的Hao方法与经典的混沌游戏表示方法的异同点,讨论了禁止子序列中回文子序列情况,阐述了迭代函数系统产生分形吸引子的数学机理,详细介绍了根据Moore自动机与迭代函数系统定义的混沌自动机,并研究了以DNA序列驱动混沌自动机产生分形图像的方法,提出DNA序列三联密码子的分形图像表示方法,并对其进行了初步分析研究,提出进一步需要解决的问题。我们在生成DNA序列分形图像的Hao方法的基础上进一步提出一种能够直观显示k-长DNA子序列频数分布差异性的三维频数分布图生成方法,其优点是能够更加直观地观察k-长DNA子序列频数分布。然后把三维频数分布图转化为我们提出的一维对数频谱图,突出显示了频数分布的局部特征,并以一维对数频谱图为依据提出k-长DNA子序列频数区划分准则,详细研究了甚高频数区的n阶零间隔现象,发现并论证了,n阶零间隔分布就是基因组进化过程所留痕迹的有力证据,并给出一维对数频谱图特征的生物学解释。实验发现许多DNA序列频数概率分布近似服从非中心F分布,这个新发现有一定的普适性;对于分布呈多峰现象的DNA序列,可采用多个非中心F分布的叠加来拟合。在比较了非中心F分布与Gamma分布后,提出一种结合二者在拟合方面具有互补优势的新分布,实验证明这种新分布能够更好地吻合实际DNA序列的频数分布。然后研究了两种最特异出现频数(最高出现频数与出现频数为1的k-长DNA子序列个数)与k值的关系,发现不同物种的这两种关系具有良好的一致性,比如发现k-长DNA子序列最高出现频数与k值的关系与指数概率分布函数只相差一个常数因子。最后探讨了DNA序列的进化模型。因为现实世界中的基因组规模非常大,所以对k-长DNA子序列的出现频数进行计数并不是一件容易的事。我们提出并研究了k-长DNA子序列在DNA全序列中出现频数的计数问题,设计并实现了k-长DNA子序列内部计数算法和外部计数算法。该算法通过一个哈希函数把k-长DNA子序列映射为整数关键字从而把k-长DNA子序列出现频数的计数问题转化为整数关键字的重复计数问题,使得能够利用经典B树算法来解决频数计数问题,并针对待解问题的特点提出三种改进措施以进一步提高算法的性能。基于基因表达谱的肿瘤亚型分类方法有望成为临床医学上一种快速有效的肿瘤分子诊断方法,但由于目前肿瘤基因表达谱样本集存在维数过高、样本量很小以及噪音很大等特点,使得选择肿瘤信息基因或从基因表达谱中抽取肿瘤分类特征成为一件有挑战性的工作。国内外专家学者对肿瘤分类问题已开展了广泛深入的研究。我们在总结肿瘤分类研究成果的基础上概括出基于基因表达谱的肿瘤分类过程模型,阐述了分类过程模型的关键环节及其常用方法,提出肿瘤分类过程模型的分类方法,并过程模型比较了前人的研究成果,指出目前肿瘤分类研究中存在的问题。针对肿瘤特征抽取问题,设计了六种方法以获得肿瘤分类特征,分别是:1)主成份分析方法PCA,2)因子分析方法FA,3)独立分量分析方法ICA,4)小波包分解方法WPD,5)基于离散余弦变换(DCT)的PCA方法,6)基于离散Fourier变换(DFT)的PCA方法。实验采用两种肿瘤样本集(结肠癌和急性白血病样本集)验证了这六种方法的有效性。实验结果表明,所提出的方法不仅分类性能好而且各有其特点,都能在保持较高的分类准确率前提下大幅地降低基因表达谱数据维数。在分类性能方面,基于DCT变换的PCA方法是一个比较理想的数据降维方法,对于结肠癌组织样本,交叉验证识别准确率高达96.77%,而对于急性白血病组织样本,其准确率高达100%。因子分析方法和独立分量分析方法有助于分析样本集的结构特征,实验发现只需少量的因子或独立分量就可以获得很高的分类性能,由此推测,只需3~4个肿瘤信息基因就可以获得很高的分类性能的假设,为设计优秀的肿瘤信息基因选择算法提供了先验知识。尽管采用肿瘤特征抽取方法获得了好的实验结果,但是肿瘤信息基因选择仍是必不可少的工作。从基因表达谱的成千上万个基因中选择尽可能多的、分类能力尽可能强而基因数量却尽可能少的信息基因子集是一个挑战性工作。在没有先验知识的情况下,在如此大的基因空间中进行穷尽搜索是不可能的事情。为此我们提出了两类近似算法来解决肿瘤信息基因的选择问题。一类是采用经典粗糙集模型和邻域粗糙集模型的属性约简算法进行信息基因选择的方法。由于采用经典粗糙集模型的属性约简算法需要对数据进行离散化处理而导致信息损失,致使选出的肿瘤信息基因分类性能不高。为避免这个问题,我们又以邻域粗糙集模型的属性约简算法FARNeM(forward attribute reduction based on neighborhood model)为基础,设计了十一种信息基因选择算法以解决肿瘤亚型分类问题。实验结果表明,该方法能够快速搜索到分类准确率更高的信息基因子集。为提高NEC(neighborhood classifier)分类器在样本不均衡时的分类性能,对NEC分类器进行改进提出了一种适合于样本不均衡数据集的加权邻域分类器;同时我们还把适合于多分类问题的特征选择算法Simba(iterative search margin based algorithm)引入到肿瘤分类领域中,以丰富肿瘤信息基因选择方法的多样性;为增加分类模型的可信度提出一种基于邻域粗糙集模型的概率神经网络集成方法对肿瘤样本集进行分类;为实用的肿瘤分子诊断软件研制奠定了基础。另一类是根据获得的肿瘤基因表达谱样本集的结构特征提出的以支持向量机分类器为评估准则的肿瘤信息基因启发式宽度优先搜索算法,其优点是能够同时搜索到基因数量尽可能少而分类能力尽可能强的多个肿瘤信息基因子集。实验采用了三种肿瘤样本集验证了这种分类算法的可行性和有效性。对于急性白血病组织样本集,只需2个信息基因就能获得100%的4-折交叉验证分类准确率(共发现14个这样的两基因子集);而对于难以分类的结肠癌组织样本集,只需4个信息基因就可获得100%的4-折交叉验证分类准确率(共发现7个这样的四基因子集);对于小圆蓝细胞肿瘤(Small Round Blue Cells Tumor,SRBCT)数据集,同样只需4个信息基因就能获得100%的4-折交叉验证分类准确率(共发现504个这样的四基因子集);实验结果与我们的预测假设十分吻合。与国内外其它优秀的肿瘤分类算法相比,我们的实验结果在综合分类性能方面超过目前所有已知的分类算法。为更加客观地评价肿瘤分类模型的分类性能,我们提出一种能够消除肿瘤样本集的不同划分对分类性能造成影响的一种称之为全折交叉验证的方法,实验证明这是一种更加客观反映分类性能的评估方法;同时针对多肿瘤亚型样本集提出一种推断肿瘤亚型相关信息基因的方法。