基于序列特征预测蛋白质编码基因及其启动子

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tq08eb0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别出蛋白质编码基因及其启动子是基因组研究中的重要论题。然而,面对急剧膨胀的基因组序列数据,传统的生物学方法已很难满足需要,采用计算的方法高通量地预测蛋白质编码基因及其启动子序列显得至关重要。为此,利用DNA 序列特性对基因组中的蛋白质编码基因及其启动子进行了预测。 首先,研制了启动子及其转录起始位点预测系统。通过构建启动子的线性对数模型,有效利用了近端启动子序列特征和距转录起始点的相对位置不同的启动子序列在序列特征上存在的显著差异性,开发了哺乳动物蛋白质编码基因启动子及其转录起始点预测软件ProKey。在人类和小鼠基因组序列上对该系统进行了大规模的测试。比较测试结果显示,系统的综合预测精度优于著名软件DGSF 和Eponine。 然后,研制了蛋白质编码基因预测系统。通过分析蛋白质编码基因的序列特性,将复杂的多个蛋白质编码基因的预测问题划分为基因级、元件级、特征级等多个层次上的一系列较简单子问题,建立了用于蛋白质编码基因预测的多级模型,设计了基因结构寻优的动态规划算法, 开发了脊椎动物蛋白质编码基因预测系统GeneKey。采用广泛使用的数据集对该系统进行测试的结果表明, GeneKey 的预测精度在核苷酸、外显子和基因水平上均高于著名系统GENSCAN。 最后,分析了序列C+G 含量与蛋白质编码基因的关联性。结果表明,蛋白质编码基因的序列特性与该蛋白质编码基因所处于的序列的C+G 含量密切相关。利用低序列C+G 含量数据训练预测模型,能提高对低C+G 含量序列中的蛋白质编码基因的预测精度。
其他文献
伴随着计算机网络的飞速发展,网络结构日益复杂,规模不断扩大,网络管理的作用和地位也越来越突出。当前,网络管理的研究方向和研究内容很多,但基本上都处于理论研究阶段,国际
21世纪是知识经济时代,企业所处的商业环境与以往相比发生了很大的变化,企业受到越来越多的来自各个方面的挑战。信息技术特别是计算机技术的发展,使企业找到了应对各种挑战的有
面对Internet上的信息海洋,人们利用搜索引擎往往难以找到自己真正所需的信息和知识。Web信息挖掘技术可以有效地解决如何在异质、分布的Web上快速、有效地发现资源和知识,可以
随着信息技术和互联网技术的快速发展,嵌入式实时系统越来越广泛地应用于消费电子和通信领域。由于嵌入式产品的商品化,嵌入式图形用户界面系统和嵌入式浏览器已逐渐成为一个
随着计算机技术和网络技术的迅速发展,信息安全问题逐渐被广大研究学者所重视。以数字图像为载体的信息隐藏技术和隐写分析技术作为信息安全领域的重要分支,两者既相互斗争,又相
当今,嵌入式系统的发展日新月异,国内推出了龙芯、方舟等具有自主知识产权的嵌入式处理器,新型嵌入式系统正成为研究与开发的重点与热点。嵌入式系统由于自身的特点,对其开发提出
随着科技的发展,新一代的计算机,无论计算能力和计算速度都比旧的计算机优越。但人类对高性能计算的需求,也不断提高。除了增强处理器本身的计算能力外,并行处理是一种提高计
本文通过对汽车故障自诊断系统和汽车故障诊断设备现状的分析,设计了一种新颖的随车、本地和远程诊断相结合的嵌入式汽车故障诊断仪。本课题旨在研究基于ARM平台的操作系统移
为一个大型复杂系统建模通常是一件非常烦琐和相当困难的工作,为了控制和降低系统模型的复杂程度,人们通常采用多视图方法来有效地简化模型的表达。一个软件系统模型由多个不同
网络可生存性是对传统网络安全观念的突破和创新,强调网络信息系统在遭受攻击、故障或意外事故的情况下,能够及时的完成其主要任务的能力。可生存性的中心思想是即使在入侵成功