基因本体和生物通路数据在筛选潜在疾病基因中的应用

来源 :南华大学 | 被引量 : 0次 | 上传用户:emperornjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
疾病基因的确定是基因组学从科研走向应用的重要步骤,目前已经有了大量的相关研究,其中筛选潜在疾病基因是生物信息学领域目前的研究热点。疾病基因的确定流程周期长,需要筛选出潜在疾病基因,进行生物实验来确定疾病基因。传统的筛选方法,例如定位克隆、全基因组关联分析、连锁分析等方法存在候选基因数量多,真正疾病基因少的问题。在筛选潜在疾病基因中,准确且不遗漏的找出尽可能多的疾病基因是核心问题。本文研究了基因本体和生物通路两种模式数据在筛选潜在疾病基因中的应用,分别使用两种数据计算基因功能相似度,以基因功能相似度为特征应用机器学习分类模型,筛选潜在疾病基因。与传统的方法相比,筛选出的潜在疾病基因数量更少,能缩短疾病基因确定的时间周期,降低疾病基因确定的成本。主要工作包括:(1)提出了一种改进的基于基因本体识别疾病基因的方法。现有的方法认为“疾病基因会在基因本体的生物过程分支上聚集”。本文认为“疾病基因会在基因本体的所有分支上聚集”,提出了全分支聚集方法(Full Branch Aggreation,FBA)。在计算基因本体术语相似度和基因功能相似度时,使用基因本体的所有分支。在自闭谱系障碍疾病基因数据集上进行了实验,测试了四种不同的基因本体术语相似度算法:Resnik、Rel、Wang、Netsim。实验结果表明,改进后的方法平均识别准确率从72%提升到了78%。最高的分类准确率从79.3%提升到了91.4%。(2)提出了一种基于生物通路的疾病基因识别方法,使用典型的Pathcard生物通路数据库,通过基因和生物通路之间的相关程度来计算基因之间的功能相似度,在自闭谱系障碍疾病基因上进行了实验。实验结果显示识别准确率(Accuracy)达到了95.98%,查准率(Precision)达到了93.94%,召回率(Recall)在98%以上,表明基于生物通路的方法可以有效的识别疾病基因。此外,还和基于基因本体的方法进行了对比,在查准率(Precision)方面以93.94%略低于基于基因本体的97.96%,而在召回率(Recall)方面以98.30%高于基于基因本体的83.84%,表明基于生物通路的方法会误判一些非疾病基因,但是更少地遗漏疾病基因。本文主要研究了在生物信息学领域应用较为广泛的基因本体和Pathcard两种数据,对现有的基于基因本体的方法进行改进,探讨了Pathcard在计算基因功能相似度的可行性,并应用于疾病基因分类。受限于研究所采用的分类模型,只使用了自闭谱系障碍一种疾病基因,下一步将修改模型以求能应用于其他疾病基因。
其他文献
实际生活中,个体的能力往往是有限,多个个体组合起来形成一个群体,无论是安保能力、还是信息反馈能力都提高了一个层级。传统的放射性物质安保措施依靠视频、红外、身份认证
在深部地下开采和地下工程建设当中,开挖往往会造成岩体在一个或两个方向上的卸荷,随着埋藏深度的不断增加,岩体存储的弹性能越来越高,开挖卸荷容易造成能量的突然、急剧释放
现如今传统的桌面即时通信方式在日新月异的移动互联网影响下,逐渐的被取而代之。由于4g智能手机提供的移动终端应用能够极大的提高企业的办公效率,越来越多的企业家渴望能够
车辆的SLAM(同时定位与建图)技术是实现无人驾驶技术的基础环节。通过无人车的定位和环境地图的构建,使无人车在未知环境中安全行驶,完成指定任务。激光雷达性能稳定、受环境
随着网络化和信息化技术的快速发展,后备式电源在整个系统中处于越来越重要的位置,一个高效,稳定的后备式电源是保证整个系统能否正常工作的前提条件,而对后备式电源进行实时
看电视是老年人最喜爱的日常活动之一,但老年人使用智能电视却面临着极大的困难。根据前期研究结果,老年人使用遥控器方式下的智能电视主要存在焦点操纵和视频查找困难,实验
生产物流贯穿着企业内从原材料出库到产成品入库整个物料变化过程。在生产信息高度集成和生产精益化、智能化、协同化需求不断提升的背景下,如何改善现有离散制造车间生产物流运行状态,提升整体性能,已成为广大离散制造企业亟需解决的重点难题之一。因此,本文在借鉴国内外研究成果的基础上,基于复杂网络理论,对离散制造车间生产物流网络建模分析及优化进行研究。首先,分析离散制造车间生产物流网络要素及结构,并基于复杂网络
高精度地图作为地理信息系统的基础,在智慧城市、车辆导航、无人驾驶等领域具有不可替代的作用。随着社会经济发展,城市化水平不断提高,城市中的路网也在频繁变动。而传统制
随着国家推进“平安城市”“天网工程”“雪亮工程”来建设多级视频监控并联网应用,监控视频的数量与日俱增,在安保方面单靠人力资源在海量的视频里进行行人追踪和监控将会非
随着技术的发展,获取到的图像的大小越来越大。所以以像素为基本处理单位的图像处理算法的性能越发不能够满足人们的要求。超像素分割算法就是为了处理这个问题而出现的。超