论文部分内容阅读
人类基因组计划(HGP)的完成,极大地丰富了人类遗传相关的生物数据,使得研究人员开始热衷于基于大规模的基因及蛋白质等数据的系统生物学研究。利用生物信息学方法分析海量的生物数据,探索及理解人类复杂疾病的发生、发展机制,实现重大复杂疾病的个体化预防、医疗,一直是我国及全世界研究工作的出发点。已经有权威研究指出,为了系统地理解复杂疾病的形成机理,融合分析基因数据、蛋白质数据以及其它生物医学数据,形成有效地系统分析方法是必不可少的。本研究将针对基因、蛋白质这两种最为关键的生物数据开展功能研究,首先利用基因表达谱数据挖掘基因的功能,结合通路分析方法探索基因之间的相互关系。同时,开展蛋白质的亚细胞定位研究进一步理解蛋白质的功能、结构,从而有助于开发治疗复杂疾病的新型药物。 本文首先扼要介绍了相关研究内容的基本概念及国内外研究现状,然后在此基础上总结了基于基因表达谱数据的基因共表达分析及基于亚细胞定位的蛋白质功能的研究方法,并比较分析了现有方法的特点。为了更完整、准确地理解基因及蛋白质的功能,本文开展了以下工作: 针对现有基因共表达分析方法存在缺乏生物意义、基因之间功能关系不明确等问题,从双聚类策略出发,提出一种基于遗传算法的基因表达谱双聚类分析方法,以发现具有相似功能的基因簇。该方法首先根据不同条件下基因表达值的改变程度,提出了一种相似性打分度量,然后在此度量的基础上设计了适应度函数,最后改进了遗传算法以搜寻最优的基因聚类,识别具有相似功能的基因簇;从生物通路模块出发,提出一种基于生物通路的基因共表达分析方法,识别共表达的基因,从而有利于提取构成生物通路的关键基因,并在复杂疾病数据集上利用该方法识别了致病基因。 结合多种信息之间的互补性及融合策略的优势,分别提出两种数值特征融合的方法:从蛋白质序列氨基酸的位置信息及其组成角度出发,设计一种融合氨基酸残基的位置信息以及伪氨基酸组成信息的数值编码方法,该方法根据伪氨基酸的组成特性,融入氨基酸分子的物化性质信息,以提取蛋白质的结构信息,从而提高亚细胞定位的精确度。 从蛋白质序列的全局特征及局部特征的融合策略出发,提出了一种数值编码方法充分考虑蛋白质全局信息及局部信息,该方法利用蛋白质序列的氨基酸、压缩三肽的组成信息及局部频域值对蛋白质序列进行数值描述,然后构建特征向量,最后分别利用支持向量机及最近邻模型在两组数据集上进行了比较实验。从多个数据集上的实验结果表明,从不同角度所提取的互补信息,更有利于更完整地描述蛋白质序列,从而提高蛋白质亚细胞定位的预测性能。 针对样本量过少及类别样本不平衡等困难,提出了基于迁移学习的亚细胞定位方法。该方法首先利用氨基酸的亲疏水特性构建了蛋白质序列的特征向量,然后利用基于支持向量机的迁移学习方法进行蛋白质亚细胞定位,并引入自适应检测机制,以确保预测准确度和时间复杂度。最后在两个常见的不平衡数据集上验证了迁移学习模型的适用性。 针对现有蛋白质相互作用预测方法存在准确度较低等不足,本文提出一种融合蛋白质序列信息及基因本体注释信息的相互作用预测方法,该方法首先利用基因功能注释信息处理基因本体数据,并采用蛋白质亚细胞定位方法构建蛋白质相互作用数据集,然后结合融合策略及集成学习模型以预测蛋白质的相互作用,该方法提高了蛋白质相互作用预测的准确度以及其泛化性。