基于KEGG数据库的基因疾病诊断

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:qiuzhiye51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因疾病诊断系统以基因表达数据为研究对象,能在疾病发展早期获得较为准确的诊断效果,为疾病致病机理研究和临床诊断提供重要参考,是生物信息学的一个重要研究领域。区别于其它数据挖掘的对象,基因表达数据的特点是数据维度高、样本数量少,这给相关的研究带来较大的困难。  基因关联规则在许多相关研究中已被证明了是基因表达数据分析中行之有效的方法,然而在高维基因表达数据上挖掘出来的关联规则数量是呈现组合爆炸的。当上百万的关联规则被挖掘出来时,如何度量并发现其中最有意义的关联规则是一项非常困难却又十分重要的工作。当前各种基于统计学习理论的关联规则度量方法虽然在基因表达数据的样本分类结果上取了较好的分类精度,但也存在着一些不足。首先,由于这些传统的研究方法都只是对基因表达数据本身的信息加以统计分析,而忽略了已有生物学先验知识的重要作用,存在着一定的局限性。其次,当前的研究方法无法很好地对分类结果进行生物解释。毕竟能成功地对样本进行分类不是基因表达数据分析研究的唯一目的,通过研究基因间的相互关系,发现致病基因,以及对分类结果进行相应的生物解释都是研究的重要目标。为此,本文致力于通过KEGG数据库新陈代谢通路等先验生物学知识来研究基因间的相互关系,并且利用这些相互关系辅助基因关联规则的筛选。  本文首先对基于基因表达数据的基因疾病诊断的研究背景、意义、发展现状等进行总体的阐述。其次,对基因表达数据离散化、基因关联规则挖掘、分类器设计等基因疾病诊断系统构成部分的定义概念和算法设计进行介绍和概述。最后,本文主要针对如下几个方面进行研究与阐述:  (1)通过HCNetDat基因芯片注释工具和KEGG API中的Gene Name Conversion功能,建立基因表达数据的探针号和KEGG基因号的对应关系。  (2)在KEGG代谢通路中,分别以酶和基因为顶点、化合反应为边,构建酶网络和基因网络。通过floyd最短路径算法,得到基因网络中基因之间的最短通路距离。同时,基于基因在染色体上的起始位点和结束位点,通过计算得到基因间以碱基为单位的最短序列距离。  (3)基于两种基因距离,分别提出最大代谢通路距离MaxPD和最大基因序列距离MaxCD,两种基因关联规则兴趣度,用于筛选基因关联规则。同时,针对这两种兴趣度,相应地提出在递增式关联规则挖掘中的剪枝策略和启发式项优先排序策略,提高关联规则挖掘效率。  (4)以4个公开发布的基因表达数据将作为对象,通过交叉验证实验,分析挖掘过程中两个兴趣度及其剪枝和启发式优先策略的算法效率及其实验分类结果。同时,根据挖掘的频繁关联规则,结合KEGG代谢通路的基因关系对实验的分类结果进行生物解释。  
其他文献
随着计算机科学技术的飞速发展,软件的功能越来越强大,人们对软件质量和可靠性的要求也越来越高。软件测试是软件开发过程中的不可缺少的部分,为软件质量和可靠性提供保障。
伴随着计算机技术和通信技术的飞速发展,呼叫中心技术逐渐发展并成熟起来。与此同时,企业之间的竞争逐渐演变为服务质量的竞争,各大小公司都致力于营造顾客满意的服务质量,以进一
在分析实际问题的过程中,我们可能会对不同情况建立不同的模型。考虑一组数据应该用哪个模型来分析,这就是模型选择问题。本文主要讨论基于贝叶斯方法的模型选择及参数估计,这里
随着信息化进程的不断深入和互联网技术的迅速发展,网络安全问题逐渐成为人们关注的焦点。在众多的网络入侵行为和攻击中,软件漏洞问题成为了人们的噩梦,并造成了众多的安全性事
随着嵌入式技术、计算机技术和无线通信技术的发展,推动了无线传感器网络的进一步发展。无线传感器网络是由大量无线传感器节点构成的自组织通信网络。无线传感器网络节点将从
随着工业化进程的加快,空气质量开始不断恶化,并直接威胁到群众的身体健康。然而,要合理控制空气质量的恶化,首先得对空气质量做出科学的评价。本文使用时间序列方法和多元统计方
众包是一种分布式的问题解决方式。问题发布者利用网络将相关工作分解并以公开的方式传播给众包参与者,将众包参与者的空闲生产力利用起来,极大地提高了解决问题的效率。  在
随着互联网产业的迅速发展,电子邮件产业得到了很大的推广以及应用,人们通过使用电子邮件达到交流思想、传输文件、发表意见等目的。但是它在为人类带来方便快捷的通讯方式的
蛋白质折叠是分子生物学中的一个基础性问题。蛋白质折叠机理的研究,对探索生物现象机理以及蛋白质构象病的治疗具有重要意义。前期研究中通过全原子的分子动力学和Monte Carl
近年来随着交通智能化的发展,专家学者对智能交通车辆导航系统方面的研究也越来越深入。计算机、实时通讯、以及GIS(地理信息系统)、GPS(全球定位系统)等技术的飞速发展,也为交