蛋白质序列的相似性比较及聚类的数学方法

来源 :大连交通大学 | 被引量 : 1次 | 上传用户:agreessive
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算分子生物学是由多种学科相互交叉、相互渗透形成的一门综合性学科,它主要对生物学实验数据进行一系列复杂的处理,并服务于基因诊断、药物研发和疾病治疗等事业。由于蛋白质序列之间相似性比较是计算分子生物学中最重要的研究课题之一,因此蛋白质序列之间进行相似性研究对预测未知蛋白质功能、确定生物体同源进化关系和对蛋白质进行分类均具有重要的理论意义和应用价值。本文旨在探索一些快捷而有效的数学方法来分析蛋白质序列之间的相似性,为今后所研究的蛋白质序列比较分析提供一定的依据和参考。其主要工作集中在基于数学方法通过降维的思想对蛋白质序列的相似性比较及聚类图的构建上。本文的研究成果可以概括如下:1.用氨基酸不同种类的物化性质表征蛋白质序列的基础上,把蛋白质序列转化成11维和16维特征向量;用因子分析法分别把蛋白质序列的特征向量进行降维得到因子模型,进而利用因子模型分析了不同物化性质下40个G蛋白偶联受体序列的相似性,并对其进行了聚类分析。2.将氨基酸的极性且亲水pq,极性且疏水pr,非极性且亲水sq和非极性且疏水sr四种物化性质两两连接以及基于20种氨基酸所得的特征下用傅里叶变换把蛋白质的字符序列转换为数字序列;利用离散傅里叶变换功率谱得到蛋白质序列对应的特征向量;通过特征向量之间的中间距离对31条含有血凝素蛋白的蛋白质序列进行相似性分析并构建了聚类图。3.依据构成蛋白质序列的20种氨基酸及其物化属性,将40维特征向量分解为20维、16维和4维的特征向量来分析蛋白质序列在不同特征向量下的相关性,并选择出低维且有效的特征向量对28条具有血凝素(HA)和神经氨酸酶(NA)流感病毒蛋白质序列进行了分层聚类。
其他文献
随着经济全球化、社会信息化、文化多元化的深入发展,置身其中的青少年正处于价值观形成和发展的黄金阶段,自身生理和心理尚不成熟,易受外界因素影响,使得价值观教育面临很多新的情况和任务。当前我国青少年价值观教育实效性不强、效果不佳,其中一个重要原因就是缺少对教育过程中学生体验的关注。以色列教育立国的人才培养机制极具典型性,且非常重视教育,特别是青少年的价值观教育。其中,“关键教育体验理论”的提出为价值观
四阶抛物型方程常用来描述和分析薄的粘性不可压缩流体沿斜面的运动,或模拟流体流动,如泡沫薄层分析和隐形眼镜作用下泪液的运动.本文研究了一维薄膜方程弱解在初边值条件下
清洁能源的使用可以有效地解决能源危机和环境污染所引发的问题,氢能被认为是最有发展前景的清洁能源之一,使用无机半导体光催化剂吸收太阳光分解水制氢被认为是最引人注目和
煤或生物质经过气化,经由合成气催化转化是一条可持续制备低碳醇路径。Rh由于适中的CO解离能力和加氢能力,是公认的最优良乙醇合成催化剂。就目前的Rh基催化剂现状而言,载体
随着科学技术的进步,无线网络技术的应用越来越广泛,人们对无线通信的要求也越来越高。使用者期望无线网络能给自己提供价格更低廉,传输速率更快,业务更多、性能更可靠的服务
本文研究的是航空发动机高精度叶片辊轧机轧辊调整机构,主要是用来调整轧辊轴向上的位移。分析调整机构的传动误差,选择合适的技术对误差控制和补偿,把轧辊调整到准确位置,轧
Multi-Quadric(MQ)函数是径向基函数法的一个重要的基函数,由其构造的MQ拟插值因为不需要求解线性方程组,为求解带来了方便。径向基函数拟插值在科研领域或者实际生产生活中
本文以辊轧机传动系统为研究对象,通过建立辊轧机传动系统动力学模型,分析其动态特性,结果对辊轧机传动系统的精度具有一定的指导作用。首先,介绍了辊轧机的工作原理。概述了
H.Bass在研究Serre问题及代数K理论的过程中,对于环提出了Bass稳定秩的概念;受此启发,在1983年,对于Banach代数,M.Rieffel又定义了拓扑稳定秩,连通稳定秩,一般稳定秩这三种稳
共轭亚油酸(Conjugated linoleic acid,CLA)是亚油酸(LA)多种位置和几何异构体的统称,具有抗癌、降脂、增强免疫、抗动脉粥样硬化等重要的生理功能,其中,t10,c12-CLA是最具生