基于矩阵分解的蛋白质同源性研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:shohoku23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质作为在生物的生命活动中起到重要作用的生物大分子,其结构和功能研究对生物学有着重要的意义。以往的研究发现,拥有相同进化祖先的同源蛋白质,很可能在结构和功能上也类似。所以,在现代生物信息学中,通常将已知结构和功能的蛋白质序列进行归类,然后从中寻找未知蛋白质序列的同源蛋白质来推测该序列的结构和功能信息。   在最近的研究中,支持向量机(SVM),隐马尔科夫(HMM)和神经网络(NN)等很多机器学习算法被应用于蛋白质的同源性检测研究中,并取得了很好的效果。但是这些算法仍有很多不足:第一,这些算法在检测序列相似性较低的远同源蛋白质时效果不佳;第二,检测结果缺乏清晰的生物学意义。   本文使用profile-profile比对算法对蛋白质序列进行向量化,将蛋白质序列由字符串序列转化为数值形式。之后使用改进的非负矩阵分解(NMF)算法,对profile-profile比对得到的蛋白质向量进行进一步特征提取,然后使用支持向量机(SVM)模型进行同源性判定。NMF算法的作为一种特征抽取方法,具有对原始特征进行部分表达的特性,这使得该算法在蛋白质序列分析上有很大的潜力。为了适应实际问题的需要,本文中对NMF算法进行了适当改进,降低了NMF算法对初始值的敏感性,减少了蛋白质序列中无用片段对分解结果的影响。经过实验证明,NMF算法有效的提取了蛋白质序列的关键部分,提高了蛋白质远同源判定的性能。
其他文献
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,
数字多媒体数据极易在网络上复制、伪造、传播,数据的版权验证保护问题随之凸显出来。数字水印技术因成为解决这一问题的有效方案而受到广泛关注。但是目前大多数水印算法是嵌
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓
随着多模态融合识别技术的飞速发展,唇读技术作为模式识别领域中的热点问题得以关注。唇读技术与指纹识别、虹膜识别、视网膜识别等相比,具有更加直接、便捷、适时的特点。唇读
近年来,skyline查询在多目标决策、数据挖掘、数据库可视化等方面得到广泛应用。然而在高维空间环境下,skyline查询因为返回的结果集过大而不能提供有用的信息。因此,学术界提出
关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。   针对如
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。然而目前的强化学习算法在可扩展性方面都