基于基因本体降维的蛋白质功能预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:dluflonline
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是活细胞生命活动中最主要的载体,执行着生物体内各种重要功能。对蛋白质功能进行自动标注是生物信息学领域的关键问题,也是后基因组时代的核心问题之一。准确全面地对蛋白质进行功能标注,不仅能帮助人们正确理解生命机理,而且对疾病分析、药物研发、农作物促产等研究领域都有着极大的促进作用。基因本体(Gene Ontology,GO)是一种在蛋白质功能预测中被广泛使用的功能标注数据库。本体中包含多于45000个功能标签术语,但是一个蛋白质仅被其中的几个或者几十个功能标签标注,且这些标签间存在复杂的结构关系,给蛋白质功能预测工作带来了巨大挑战。本文结合基因本体建模及其降维学习,进行蛋白质功能预测研究,主要工作如下:(1)提出一种基于基因本体图哈希的蛋白质功能预测方法(HashGO)。该方法首先利用基因本体图结构定义功能标签间的分类相似度,然后将该相似度结合到图哈希技术中并优化一系列哈希函数,再以二进制的形式编码大规模的功能标签术语。其次,利用这些哈希函数将蛋白质-功能标签关联矩阵映射到低维哈希空间,基于海明距离计算蛋白质之间的语义相似度。最后,HashGO基于语义近邻蛋白质的功能预测蛋白质功能。在酵母菌和人类这2个模式生物数据集上都显示了该方法在蛋白质功能标注预测中的有效性和优越性。与现有算法相比,HashGO不仅具有更高的预测精度,而且运行效率也有一定的优势。(2)由于HashGO在本体图哈希的过程中存在破坏基因本体的层次结构关系的风险,本文提出另一种基于基因本体层次结构保持哈希的蛋白质功能预测方法(HPHash)。该方法首先测量功能标签间的层次偏序关系,并基于这种关系指导层次保持哈希技术去编码功能标签术语。其次将蛋白质-功能标签关联矩阵投影到低维哈希空间,并在低维空间中执行基于语义近邻的功能预测。在人类、小家鼠和褐家鼠这3个模式物种上进行的功能预测实验表明,HPHash不仅可以保持本体的层次结构关系来更准确地预测蛋白质缺失的功能标注,而且鲁棒性强。(3)上述两种方法获取的压缩标签可解释性差,且面临着多标记学习中的阈值划分难题。为解决这些问题,本文提出一种基于0-1矩阵分解的蛋白质功能预测方法(ZOMF)。该方法首先将蛋白质-功能标签关联矩阵分解成两个低秩0-1矩阵,挖掘蛋白质和功能标签间的内在关联。其次它利用蛋白质互作网和基因本体结构信息分别针对上述两个低秩矩阵定义了平滑正则项,约束指导低秩矩阵的优化。最后它利用优化获取的低秩矩阵重构关联矩阵,进而实现蛋白质功能预测。在酵母菌、拟南芥、老鼠和人类数据集上的实验表明,ZOMF比已有的相关算法能够更准确地预测蛋白质功能,它无需对重构的矩阵进行阈值划分,压缩的0-1标签可解释性更直观。
其他文献
软磁复合材料主要是通过磁粉与绝缘介质混合并压制而成的,因其优异的软磁性能而被广泛应用在电感、变压器以及电机磁芯等电子元器件中。尽管电子电器等工业领域对软磁材料日益增长的需求促进了其快速发展,然而较高频率下的损耗尤其是高频时的涡流损耗则严重限制了其稳定应用。因此,在磁粉颗粒表面包覆致密均匀、厚度适中且电阻率高的绝缘层是降低涡流损耗主要解决措施。以树脂为主要组成的有机绝缘剂多为物理包覆过程,导致绝缘层
在本学位论文中我们将首先研究真合取一致零模在三角模、三角余模和一致模类Umin∪Umax上的分配性与条件分配性.根据获得的结论,不难发现,对于解的存在性,所考虑的全部情况其分配方程与条件分配方程等价.也就是说,如果算子对(F,G)条件分配方程有解,那么其分配方程也有解,反之亦然.特别的,如果方程的解存在,那么除了G是三角模外,两个方程的解的个数是不相等的.显然,条件分配方程解的个数要更多.进一步,
《普通高中语文课程标准(2017年版)》首次提出了十八个学习任务群,“当代文化参与”学习任务群位列第二,并且贯穿必修、选择性必修和选修三个阶段,在必修阶段占0.5学分和9课时。其重要程度不言而喻。这一任务群不仅能增强学生的文化自信还能拓宽学生的语文学习空间,锻炼学生的综合实践能力,增强语文学习与社会生活的联系。因此,笔者以哈尔滨城市文化参与为例对“当代文化参与”学习任务群进行研究,期望能为一线教师
学位
介电弹性体作为一种新型电活性聚合物,由于具有质量轻、响应快、机电转换效率高等特点,在柔性驱动器设计领域受到了广泛的关注。锥形介电弹性体驱动器相对于平面膜、堆栈型等
一维纳米半导体材料具有优异的电学和光学性质,在构筑纳米电子和光电子器件等集成电路和功能元件的进程中充当重要角色。NiO是一种直接宽带隙半导体材料,由于其特殊的电子结
随着电子产业的不断发展,工业生产对电子封装密度和集成度提出了更高的要求,从而使电子封装技术面临新的挑战。近年来,三维硅通孔技术不断创新,为芯片的封装提出了一种新的思路。其中,超薄高保形绝缘层的制备是实现三维TSV垂直互联的关键技术之一,但随着TSV直径的减小和深宽比的增大,传统的工艺越来越无法满足性能的要求。现有研究发现,水相接枝绝缘层的方法可以制备出均匀致密,与基底结合牢靠,绝缘性能也满足要求。
随着能源危机及环境污染等问题愈发严重,寻找可替代能源迫在眉睫。生物质能具有分布广、储量大、可再生等优点,已受到国内外广泛的关注。利用快速热解技术能够将结构复杂的固体生物质转化为高附加值液体产物,是生物质高效利用的重要途径之一。然而,常规热解得到的液相产物存在成分复杂、目标产物含量低等问题,不利于分离提纯,经济性差。预处理能够改变生物质的化学组成和结构,提高其热解选择性。在众多预处理工艺中,生物预处
烟草青枯病作为一种由青枯雷尔氏菌引起的土传性病害,在长期连作的模式下极易爆发并造成严重损失。土壤是植物生长的基础载体,其中土壤微生物是维持土壤健康的关键因素之一,也是影响烟草青枯病发生的一个重要生态因素,已有研究表明,生物熏蒸在土壤理化性质改良、主栽作物生长、病虫害控制等方面均有一定作用,而系统地研究生物熏蒸对连作发病土壤微生物群落结构的变化及对烟草青枯病的控制效果至今没有报道。本文主要通过盆栽试
超分子化学为化学家合成许多具有应用前景的材料提供了一种有效的途径。科学家们精心设计含有合适空腔结构的化合物时,总希望它们能够用来专一且可预知的催化一些反应。事实
深度高斯过程(deep Gaussian process,DGP)是一种流行的概率建模方法,它具有强大的功能,适用于函数近似和不确定性估计,能广泛应用于各个机器学习领域。随着大数据时代的到来,数据的获取方式和特征类型不断增多,出现了越来越多的多视图数据。然而,传统的DGP主要处理的是单视图数据的建模问题,缺乏对多视图情况的考虑。因此,本文主要研究的是多视图深度高斯过程,提出了一般化的多视图深度高斯