生物数据的数值特征提取方法及其应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:handsomenijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划(HGP)的完成,极大地丰富了人类遗传相关的生物数据,使得研究人员开始热衷于基于大规模的基因及蛋白质等数据的系统生物学研究。利用生物信息学方法分析海量的生物数据,探索及理解人类复杂疾病的发生、发展机制,实现重大复杂疾病的个体化预防、医疗,一直是我国及全世界研究工作的出发点。已经有权威研究指出,为了系统地理解复杂疾病的形成机理,融合分析基因数据、蛋白质数据以及其它生物医学数据,形成有效地系统分析方法是必不可少的。本研究将针对基因、蛋白质这两种最为关键的生物数据开展功能研究,首先利用基因表达谱数据挖掘基因的功能,结合通路分析方法探索基因之间的相互关系。同时,开展蛋白质的亚细胞定位研究进一步理解蛋白质的功能、结构,从而有助于开发治疗复杂疾病的新型药物。  本文首先扼要介绍了相关研究内容的基本概念及国内外研究现状,然后在此基础上总结了基于基因表达谱数据的基因共表达分析及基于亚细胞定位的蛋白质功能的研究方法,并比较分析了现有方法的特点。为了更完整、准确地理解基因及蛋白质的功能,本文开展了以下工作:  针对现有基因共表达分析方法存在缺乏生物意义、基因之间功能关系不明确等问题,从双聚类策略出发,提出一种基于遗传算法的基因表达谱双聚类分析方法,以发现具有相似功能的基因簇。该方法首先根据不同条件下基因表达值的改变程度,提出了一种相似性打分度量,然后在此度量的基础上设计了适应度函数,最后改进了遗传算法以搜寻最优的基因聚类,识别具有相似功能的基因簇;从生物通路模块出发,提出一种基于生物通路的基因共表达分析方法,识别共表达的基因,从而有利于提取构成生物通路的关键基因,并在复杂疾病数据集上利用该方法识别了致病基因。  结合多种信息之间的互补性及融合策略的优势,分别提出两种数值特征融合的方法:从蛋白质序列氨基酸的位置信息及其组成角度出发,设计一种融合氨基酸残基的位置信息以及伪氨基酸组成信息的数值编码方法,该方法根据伪氨基酸的组成特性,融入氨基酸分子的物化性质信息,以提取蛋白质的结构信息,从而提高亚细胞定位的精确度。  从蛋白质序列的全局特征及局部特征的融合策略出发,提出了一种数值编码方法充分考虑蛋白质全局信息及局部信息,该方法利用蛋白质序列的氨基酸、压缩三肽的组成信息及局部频域值对蛋白质序列进行数值描述,然后构建特征向量,最后分别利用支持向量机及最近邻模型在两组数据集上进行了比较实验。从多个数据集上的实验结果表明,从不同角度所提取的互补信息,更有利于更完整地描述蛋白质序列,从而提高蛋白质亚细胞定位的预测性能。  针对样本量过少及类别样本不平衡等困难,提出了基于迁移学习的亚细胞定位方法。该方法首先利用氨基酸的亲疏水特性构建了蛋白质序列的特征向量,然后利用基于支持向量机的迁移学习方法进行蛋白质亚细胞定位,并引入自适应检测机制,以确保预测准确度和时间复杂度。最后在两个常见的不平衡数据集上验证了迁移学习模型的适用性。  针对现有蛋白质相互作用预测方法存在准确度较低等不足,本文提出一种融合蛋白质序列信息及基因本体注释信息的相互作用预测方法,该方法首先利用基因功能注释信息处理基因本体数据,并采用蛋白质亚细胞定位方法构建蛋白质相互作用数据集,然后结合融合策略及集成学习模型以预测蛋白质的相互作用,该方法提高了蛋白质相互作用预测的准确度以及其泛化性。
其他文献
LTE(Long Term Evolution,长期演进)技术是新一代的无线通信技术,它可以更好的支持移动环境下的无线视频传输。基于项目实际需求,本文借助于LTE技术实现了一套对底层透明的、
随着移动设备、无线传感网络技术、RFID设备以及GPS卫星定位技术的快速发展以及大规模应用,很方便收集到海量移动对象轨迹数据。这些轨迹数据包含很多潜在的有意义的知识,如何
粗糙集理论是由波兰科学家Z.Pawlak在1982年提出的一种新型的处理模糊和不确定知识的数学工具。目前已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了
入侵检测技术的进一步发展,给网络安全的研究带来了新的途径,入侵检测系统已成为必不可少的重要手段。为了提高入侵检测系统的检测能力,本文提出了一个ID模型。在模型中引入
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应
当前网络的蓬勃发展,形成了以ASP、PHP、JSP为主流的Web页面开发技术。ASP简单实用,深受Web页面开发者的青睐。PHP编写的代码执行起来会更快,能实现同样功能的PHP代码,不用改
非线性时间序列预测是近年发展起来的一个备受关注的研究领域,无论在数学、物理学、生命科学、信息科学,还是在经济学、地球科学、天文学等领域均具有广泛的应用前景。对非线性
本文对电信业务支撑系统中产品模型的研究与设计进行了研究。文章结合相关的理论和规范,定义了电信产品的概念,确定了电信产品的范围、属性和分类。然后通过分析、梳理与电信产
随着计算机技术的飞速发展和社会公共安全需要的日益增长,身份识别受到极大的重视,作为典型的生物特征识别的人脸识别也逐渐成为研究热点之一。尽管线性子空间方法在人脸识别中
综合网络管理决策支持系统(INMDSS)是先进的网络管理决策支持系统,主要为网络管理者提供信息服务和辅助决策支持。本学位论文在分析综合网络管理决策支持系统框架的基础上,结合