基因序列与结构的信息分析及应用算法研究

被引量 : 6次 | 上传用户:jkhy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组研究的重点向功能基因组转化,“海量”的生物数据为生命科学研究提供了广阔前景,同时也对现有的生物数据处理能力提出了严峻挑战。如何从浩如烟海的生物序列数据中挖掘出有价值的生物信息,以获取基因、蛋白质结构、功能和进化等理性知识是生物信息学研究的主要目的。因此基因序列与结构的信息分析是生物信息学的一个非常重要的研究课题。基因序列与结构信息的获取是通过序列和结构的比较来实现的,序列或结构比对是序列或结构比较的基础。序列或结构信息最终是为获取基因组功能以及进化关系服务的。基因表达的产物是蛋白质,蛋白质也是生命活动的执行体,而蛋白质亚细胞定位与蛋白质功能是密切相关的,蛋白质亚细胞定位信息可以为蛋白质功能的研究提供有用线索。在蛋白质亚细胞定位预测研究中,如何获取更完整的序列特征信息是关键。本文将围绕基因序列或结构特征信息分析这一主题,将从以下三个方面进行深入研究:(1)新型序列和结构比对方法,以提高分歧较大序列的多序列比对准确率;(2)基于图形表示的全基因组系统发育分析方法;(3)基于复合特征的蛋白质亚细胞定位预测方法。论文的主要研究成果如下:(1)基于最小编辑距离的序列比对算法中,针对动态规划过程中不是所有的过程都需要进行,提出了更有效的非动态规划算法,其复杂度分别为O(n.L)时间和O(n)空间,其他最快算法是由Pevzner和Waterman提出来,其复杂度分别为O(l+Ln)时间和O(l+Ln)空间。(2)针对多序列比对计算的高复杂性,采用一种平面图表示来描述多序列比对进程,既能考虑到每种可能的比对,也定义了空格插入、每种可选路径上迭代信息值和打分规则,引入蚁群遗传算法搜索和探索解空间中的最优近似解,提高了找到可行解的能力和避免过早收敛,能有效提高相同列指标。(3)针对现有RNA二级结构表示法存在高复杂性、退化和不同结构可能会对应相同表示的问题,提出了RNA二级结构的三位和四位编码表示方法,利用二进制的异或运算对RNA二级结构进行了比对分析。结构编码方式简单直接地展示了结构信息,有助于更好地实现突变分析可视化,从而推断疾病发生的机理。结构的编码方式也为结构比较提供了一种很好的数学模型,易于发现结构间的相似性和差异性,便于基因的检测和基因功能区的预测。该方法既能很好地区分自由基和基对及其它们的位置,也能区分含假结在内的不同子结构类。(4)针对系统发育分析需要构建指导树,且指导树生成方面存在近似程度不高的问题,运用图形表示生物序列的思想,提出了一种新的DNA序列的二维图形表示,给出了一种基于全基因组序列的二维图形表示来分析基因组进化关系的新方法,该方法通过对二维曲线之间的差异测量来得到进化距离。通过冠状病毒DNA序列的相似性/相异性比较实验,利用PHILIP软件包构建系统发育树,结果与实际进化树相吻合。该方法用全基因组的相似矩阵代替了进化距离矩阵,不需要多序列比对。既很好地体现了物种之间的关系,也大大降低了计算复杂性和时间复杂度。(5)引入一个基于距离频率的蛋白质序列编码方法,将一个原始序列定义为220维复合特征向量来表示一个蛋白质,包含20个氨基酸成分和200个相同氨基酸的距离频率。然后,我们用支持向量机算法进行蛋白质亚细胞定位预测,实验结果证明了该方法的有效性。
其他文献
目的比对5个品牌9款床边检测(POCT)血糖仪的主要分析性能。方法用高、中、低3个浓度的质控品在9款POCT血糖仪上进行检测,连续测试30 d,计算变异系数(CV)。取高、中、低3种不
CEO是分享了部分剩余控制权的企业最高行政长官。CEO治理模式的形成 ,不仅适应了现代企业治理结构创新的需要 ,同时亦是现代企业治理创新的重要标志。引入CEO模式是我国实现
从2015年春节的"摇一摇抢红包"到"代金券"式红包的派发,这种线上与线下实体消费的结合是微信在O2O领域的新尝试。事实证明了这种营销新模式的受欢迎程度。然而,微信O2O营销模
在运输情况下,电子机柜的随机振动影响产品性能。对于某大型电子机柜,利用仿真结果对有限元模型进行修改,找出设计薄弱环节,通过结构设计参数优化以达到行业标准或国家标准要
高等教育财政支出绩效评价,是公共财政体制下政府管理公共支出的符合市场经济国家惯例的间接监督管理方式和手段,是提高高等教育财政支出效率、合理配置高等教育资源、保障高
1喷油嘴不喷油 一是油路中有空气,将油路中的空气排除即可。二是输油泵供油不正常,需对输油泵进行检修。如因输油管接头漏气,可设法接好,使其不漏:如因油阀磨损而导致密封不严,
林业企业的市场营销能力是受营销环境影响的。文章在对我国林业企业所处的市场营销环境进行深入分析的基础上,结合有关企业市场营销能力的评价体系,对我国林业企业的市场营销
<正>随着我国工业化、城镇化的加快发展,农户群体快速分化,出现了种养大户、科技示范户、经营和服务型农户、半工半农型农户和非农产业农户等,相应的农民也快速地职业化,出现
<正>免疫透射比浊测定技术(immunoturbidimetry)和免疫散射比浊测定技术(immunonephelometry)是目前检测人血清中特定蛋白的2种常用方法。目前以散射比浊为原理的特定蛋白分
目前多数工程项目要素集成管理的研究都是基于两要素或三要素的集成管理研究,对工程项目进度、成本、质量、安全和环保五要素的全面集成研究较少。通过参考相关的工程管理规