基于异构信息融合的致病基因预测算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lylh0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂疾病严重影响人的身心健康,发现疾病致病基因是医学领域一直以来的研究目标。随着生物信息学的出现及生物技术的快速发展,为了克服传统生物医学方法实验周期长、成本高等固有困难,研究者提出许多利用大量生物数据挖掘疾病致病基因的基因优先排序算法。但由于目前已知的基因-疾病关联矩阵仍然非常稀疏,并且缺少基因-疾病之间无关的证据,对基因优先排序算法预测性能造成一定影响。基于功能相近的基因突变可能引发类似的疾病这一假设,本文提出一种基于异构信息融合的PU归纳矩阵补全算法PUIMCHIF(PU Induction Matrix Completion with Heterogeneous Information Fusion)预测人类疾病的候选致病基因。一方面,PUIMCHIF使用不同的紧凑特征学习方法从多种数据源提取基因和疾病的特征,弥补数据稀疏的不足。具体地,使用带重启的随机游走和扩散分量分析方法学习基因和疾病低维的网络特征;使用去噪自编码对基因和疾病的高维数据特征进行降维。另一方面,基于未知的基因-疾病关联关系中多数是无关关系的先验知识,我们采用PU-Learning的策略,将未知的无标记数据视为负例进行有偏学习。我们进行了多组实验验证了PUIMCHIF算法的有效性。在查准率、查全率以及均值百分位数排名(Mean Percentile Ranking,MPR)三个评价指标上,PUIMCHIF的实验结果都明显优于其它算法。在对多基因多疾病进行top-100全局预测分析时,PUIMCHIF算法恢复真实基因关联的概率达到了50%,且MPR值为10.94%,比IMC、CATAPULT等其它方法具有优先级更高的实验验证。
其他文献
微流控技术微型化与功能多样化的特点,使得微流控系统能够保证痕量反应物在最佳的条件下反应。通常情况下蛋白质样品容量较小,表达量较低,传统的检测手段难以满足微量低浓度样品的要求,亟需一种提高蛋白质相对含量的富集方法。诱导电荷电渗作为一种在颗粒聚集方面极具优势的粒子操纵技术,发生在电极系统中不加电的电极表面,可实现不同规模的粒子聚集。本文拟在研究粒子富集中电渗流动特性、电控粒子行为和芯片几何特征等规律的
目的:通过临床观察,客观评价健脾化痰活血法治疗消渴病汗证的临床疗效,为临床治疗本病打开新的思路。资料与方法:收集2019年1月1日—2019年12月31日期间在辽宁中医药大学附属
同步是复杂网络系统上一种最常见的群体行为.考虑到网络同步对于揭示自然界中的诸多现象和分析神经元网络的作用机理等都有着深远意义,因此复杂网络系统的同步受到了不同领域学者的广泛关注.此外,时滞是自然界和人类社会中普遍存在的一种客观现象.一般而言,网络系统中存在两种时滞类型:内时滞和耦合时滞.鉴于间歇控制在实际应用中降低控制成本和易于实现的优势,本文利用非周期间歇控制方案,探讨了两类具有混合时滞的有向网
微米和纳米尺寸结构的微梁和薄板等部件通常表现出尺寸效应现象,由于器件结构尺寸小,使其力学性能及变形与尺度效应密切相关,基于不包含任何材料长度尺度参数的经典连续介质
正整数表示为平方数和三角数之和的表示方法数是一个经典的数论问题,大数学家拉格朗日、高斯都在这一课题上做出了杰出的贡献。这一课题与多个数学分支有着密切而重要的联系,是当前组合数学和数论的研究热点之一。本文主要研究了表正整数三角数和平方数之和的表示方法数之间的关系。令N(a,b,c,d;n)和t(a,b,c,d;n)分别表示正整数n表示成ax2+by2+cz2+dw2和a(x(x+1))/2+b(y(
通过对中扬子地区志留系兰多维列统的黔北正安安场剖面、湖北秭归两河口剖面及宜昌远安石桥坪宜地1井几丁虫样品的采集、分析与综合性研究,将鲁丹阶至特列奇阶的地层划分为9个几丁虫带,自下而上分别为Belonechitina postirobusta 带、Conochitina electa 带、Conochitina alargada 带、Conochitina emmastensis 带、Conochi
目的:本研究旨在探讨骨碎补总黄酮干预SD大鼠颈椎间盘退变模型的作用机制并对其临床价值进行分析。方法:SD大鼠50只(雌雄各半)随机分为两组:10只SD大鼠作为假手术组,40只SD大
当前,化工行业步入了低利润水平衰退期,为了在残酷的市场竞争中不被淘汰,化工企业一面对自有产品采取低价策略,一面又采取盲目扩张增大体量来抵御风险。南京YD公司正是其中一家以生产医药中间体为主营业务的化工企业,由于受到原材料供应商、竞争对手、环保诉求等多方面的压力下,公司收益水平骤减与市场份额节节败退,已经严重威胁到公司生存与发展。南京YD公司如何顺应时代要求摆脱困境并完成转型升级,已成为亟待解决的课
对结构的地震损伤机制控制是保证结构抗震安全性的有效措施之一。钢筋混凝土(RC)框架结构在多、高层建筑中应用广泛,为了对RC框架结构的地震损伤机制、损伤程度和抗震性能进
壳质组是煤岩显微组分三大组分组分之一,虽然其储藏量较少,却有着较高的氢含量、产烃能力和挥发性能,广泛应用于油气的生成。因此,对煤岩壳质组进行自动分类与识别极具研究意义。本文在分析比较煤岩壳质组显微图像特征的基础上,针对其结构复杂、多样、采用传统的方法构建特征量集信息冗余量大等问题,采用卷积神经网络模型对壳质组显微图像的特征量进行提取,构建适合于小样本分类问题的支持向量机分类器进行分类,并与由传统的