基于内存计算的基因型-表型关联技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:swrthy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随生物医学数据得到爆炸式增长,快速发展的生物信息学也在不断剖析这些数据背后隐藏的信息,相关研究已成为热点。识别致病基因是人类健康研究的根本挑战,针对识别致病基因就要通过生物网络了解基因型与疾病表型的关联关系。海量生物数据存储在各种没有统一标准化的数据库中,生物网络都是以这些数据为基础构建起来,而且研究生物网络也是在对探索复杂生命活动。疾病表型与基因型的关联关系对于致病基因的预测和寻找基因导致的疾病都具有深远意义。根据疾病的模块性表明,功能相关的蛋白质会导致相似疾病。由此,研究疾病基因关联方法大多集中于基于计算网络,整合了蛋白质相互作用网络、疾病表型相似性网络和疾病-基因二分网络。在线孟德尔遗传(OMIM)是人类遗传疾病和相关基因的数据库,基于OMIM数据我们计算形成了疾病表型相似性网络和疾病基因对应网络,再加上蛋白质相互作用网络,整合构建复杂的异构网络。本文介绍了相关的重启游走算法,通过改进网页排序算法Trust Rank后形成YSearch方法。算法首先根据构建网络选择查询疾病(基因)的先验知识(种子集),通过全局网络的随机游走策略迭代处理得到TR分数,然后对候选基因与疾病进行优先级排序,实现预测功能。并且针对算法效果进行留一交叉验证,采用ROC曲线与其他方法比较实验结果,证明算法的良好性能。以此,我们设计并开发了基因疾病的搜索引擎平台YSearch,整个系统是搭建在基于内存计算的spark大数据平台,数据存储在HBase中,并对系统进行相关介绍与优化。本文的算法与平台都可以对疾病诊断与治疗等临床研究提供新思路。
其他文献
社团结构是复杂网络普遍而又重要的拓扑属性之一,它具有团内连接紧密、团间连接稀疏的特点。揭示网络社团结构对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网
当今时代,数据爆炸为近似聚集的效率和准确性提出了很大挑战。为了提高近似聚集的效率和准确性,我们引入了机器学习领域的杠杆机制。在传统的杠杆机制中,杠杆反映了样本的个
近几年孤立点检测研究已经成为数据挖掘的热点。孤立点检测的作用是扩展人们的感官功能,来发现那些不能被人们容易发现的知识,识别那些隐藏的重要模式。而这些知识和模式可能
Web环境下快捷有效地向用户推荐对其更为可信和感兴趣的资源已经成为一个研究热点。本文主要研究基于信任网络的个性化推荐模型以向用户推荐更为可信和感兴趣的Web资源。  
随着计算机技术的飞速发展,在计算机视觉领域内的图像处理和模式识别等技术也逐渐变得更加完善,其中检测问题也是图像处理等领域大多数学者研究的主要问题之一,并且在实际生
远程医疗是将计算机、多媒体、通信、网络等技术与现代化医疗技术结合起来,为了提高医疗诊断水平、降低医疗费用、满足众多特殊人群的需求而产生的一项全新的医疗服务模式。
交通流参数检测是智能交通系统的重要研究内容之一。基于视频的交通流参数检测具有信息含量丰富、设置灵活、成本低等优点,目前已成为国内外的研究热点,有着广阔的应用前景。
大数据计算框架Spark运用内存空间极大提升了任务的执行效率,但由于内存空间的局限性,Spark任务常常因为内存瓶颈导致执行效率低下,甚至任务失败,这与框架本身的缺陷和RDD(Re
TTCN-3语言越来越多地被应用于协议一致性测试中,TTCN-3的图形化表示给用户提供了友好的图形化描述手段。标准的GFT标准只能够描述测试逻辑对应的图形化表示,自动生成的测试
目前云计算已经大量出现并逐渐成为一种主流的计算范式,市场上将云平台作为主要IT基础设施的公司正在逐渐增多,这些趋势使得云计算的核心价值从最初的降低成本逐渐向具有敏捷