论文部分内容阅读
基因疾病诊断系统以基因表达数据为研究对象,能在疾病发展早期获得较为准确的诊断效果,为疾病致病机理研究和临床诊断提供重要参考,是生物信息学的一个重要研究领域。区别于其它数据挖掘的对象,基因表达数据的特点是数据维度高、样本数量少,这给相关的研究带来较大的困难。 基因关联规则在许多相关研究中已被证明了是基因表达数据分析中行之有效的方法,然而在高维基因表达数据上挖掘出来的关联规则数量是呈现组合爆炸的。当上百万的关联规则被挖掘出来时,如何度量并发现其中最有意义的关联规则是一项非常困难却又十分重要的工作。当前各种基于统计学习理论的关联规则度量方法虽然在基因表达数据的样本分类结果上取了较好的分类精度,但也存在着一些不足。首先,由于这些传统的研究方法都只是对基因表达数据本身的信息加以统计分析,而忽略了已有生物学先验知识的重要作用,存在着一定的局限性。其次,当前的研究方法无法很好地对分类结果进行生物解释。毕竟能成功地对样本进行分类不是基因表达数据分析研究的唯一目的,通过研究基因间的相互关系,发现致病基因,以及对分类结果进行相应的生物解释都是研究的重要目标。为此,本文致力于通过KEGG数据库新陈代谢通路等先验生物学知识来研究基因间的相互关系,并且利用这些相互关系辅助基因关联规则的筛选。 本文首先对基于基因表达数据的基因疾病诊断的研究背景、意义、发展现状等进行总体的阐述。其次,对基因表达数据离散化、基因关联规则挖掘、分类器设计等基因疾病诊断系统构成部分的定义概念和算法设计进行介绍和概述。最后,本文主要针对如下几个方面进行研究与阐述: (1)通过HCNetDat基因芯片注释工具和KEGG API中的Gene Name Conversion功能,建立基因表达数据的探针号和KEGG基因号的对应关系。 (2)在KEGG代谢通路中,分别以酶和基因为顶点、化合反应为边,构建酶网络和基因网络。通过floyd最短路径算法,得到基因网络中基因之间的最短通路距离。同时,基于基因在染色体上的起始位点和结束位点,通过计算得到基因间以碱基为单位的最短序列距离。 (3)基于两种基因距离,分别提出最大代谢通路距离MaxPD和最大基因序列距离MaxCD,两种基因关联规则兴趣度,用于筛选基因关联规则。同时,针对这两种兴趣度,相应地提出在递增式关联规则挖掘中的剪枝策略和启发式项优先排序策略,提高关联规则挖掘效率。 (4)以4个公开发布的基因表达数据将作为对象,通过交叉验证实验,分析挖掘过程中两个兴趣度及其剪枝和启发式优先策略的算法效率及其实验分类结果。同时,根据挖掘的频繁关联规则,结合KEGG代谢通路的基因关系对实验的分类结果进行生物解释。