基于信息增益的基因互作挖掘方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:michelle77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全基因组关联研究(GWAS)第一次浪潮的初步告捷,GWAS已广泛应用于人类疾病的遗传机制研究中。然而,GWAS研究的结果却难以完全解释很多复杂疾病的遗传机制,其原因主要在于,复杂疾病一般由多个基因共同作用发生,单个基因的效应微小。针对这一问题,研究基因-基因交互作用就显得至关重要。目前,已有很多基于SNP的基因-基因交互作用挖掘方法,这些方法往往以SNP作为研究的基本单元,通过研究SNP间交互作用,来推测SNP所在基因间是否存在交互作用。然而,基因是功能表达的基本单位,且一个基因中包含多个SNP位点,SNP间存在交互作用,并不能表明SNP所在基因间就一定存在交互作用。为了避免该问题,本文提出了一种基于基因的信息增益方法(简称,gene-based信息增益方法)来挖掘基因-基因交互作用。本文提出的gene-based信息增益方法从整体基因的所有SNP的角度出发,采用病例-对照数据集,利用信息熵、信息增益等基本理论进行设计来检测基因间是否存在交互作用。该方法以整体基因为基本单位,考虑了基因中所有的SNP信息,与基于SNP的基因间交互作用挖掘方法相比,该方法避免了单个SNP信息不足以代表整个基因的问题,更能从生物学的角度解释疾病的遗传机制。为了更好的评估gene-based信息增益方法的性能,本文设计了模拟实验,还采用真实基因数据进行实例验证,并与基于SNP的熵方法以及基于基因的KCCU方法两种基因-基因交互作用挖掘方法进行比较。模拟实验中选用了检验效能和假阳性两个评价指标,观察了检验效能随着OR值、样本量和患病率三个条件分别从小到大逐渐变化而变化的规律,并分析了两基因间不存在交互作用时,该方法的假阳性,即犯第一类错误的概率。实例验证中选用了与类风湿性关节炎疾病相关的PADI6、SERPINA1和VDR三个基因的数据进行验证。无论是模拟实验还是真实基因数据实验,本文提出的gene-based信息增益方法均优于基于SNP的熵方法、基于基因的KCCU方法,验证了该方法的有效性。
其他文献
在上世纪六七十年代,图论作为数学的一个分支,获得了空前的发展.图论在化学,物理学,生物学,网络设计,信息科学以及计算机科学等领域有着极其广泛的应用.关于分子拓扑指数问题
我们可以用图G来表示一个通讯网络的模型,所以在设计通讯网络时,为了避免或者减少由于网络通讯中断而带来的损失,网络的设计者不得不考虑网络的脆弱性.我们可以用图的一些脆
检测基因表达或基因的亚细胞定位是研究基因功能的有效途径。许多先进的技术,如RNAi技术都曾尝试对基因表型加以研究。然而,这种通过生物实验手段的研究方法不仅费时费力而且由
胎盘缺陷与转基因克隆牛的异常发育有关,但其具体机制目前还不清楚,而miRNAs在组织与器官发育过程中起着重要的调控作用。为了研究胎盘中miRNAs的差异表达是否与转基因克隆牛效
艾滋病是由人类免疫缺陷病毒感染所导致的一种死亡率极高的慢性传染病,从染上HIV到发展为艾滋病可长达十年.人体感染艾滋病后,人体的免疫机能遭到AIDS的破坏.自1981年发现首
图的各类指标的研究是图论应用研究的一个非常重要的部分.这些指标在计算机科学,组合化学,物理及其它应用学科中都有着十分广泛的应用.我们希望利用所有可能的信息来描述图的
为揭示建植当年白羊草和柳枝稷的生长及其相对竞争力与水氮供应条件的关系,通过盆栽控制试验,采用生态替代法,按照白羊草(Bothriochloa ischaemum)(B)和柳枝稷(Panicum virgatum
本文分两章.第一章分两节.第一节中回顾排队论的历史,第二节中首先介绍补充变量方法,然后提出本文要研究的问题.第二章共分二节.第一节中首先介绍第二种服务可选的M/M/1排队
2020年由于"新冠疫情"的影响,我们很多学校都转入到了线上教学,经过了一段时间后,我们需要将线上教学中成功的经验总结出来,也要将存在的问题拿出来一起探讨,为我们今后的教
本文概述了影响报警产品性能的两大原因,并以半导体传感器为例,论述了传感器的特性对报警产品的可靠性及长期稳定性的影响,并针对报警器的误报问题提出相应的解决方法。