论文部分内容阅读
生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
本文致力于分析DNA序列,找到能够区分蛋白质编码和非编码序列的特征,设计算法提高蛋白质编码基因的识别率。本文分析原核基因组中基因和ORF的结构特征,对描述基因特征的参量的提取做了一些尝试,并且对重叠基因进行了分析,设计了自训练识别原核生物基因的算法。
本文第一章主要介绍生物信息学的背景和相关的生物学基础知识,第二章重点介绍Fisher判别法,第三章和第四章是本文的主体,简要回顾了前人的成果并重点介绍了我硕士期间的一些工作。第三章蛋白质编码区识别,已知基因提取变量,设计算法识别基因,找到了两组参量,第一组是氨基酸不均匀度,第二组是碱基含量不均匀度和转移概率。第四章自训练方法识别原核生物基因,在已知序列的情况下,通过自训练算法预测基因。分析重叠基因结构特征是这部分的关键,找到了七种ORF筛选的方法:
1.去短留长ORF筛选;
2.信息熵相乘ORF筛选;
3.出现频率ORF筛选;
4.错位方差ORF筛选;
5.碱基平均自信息(熵)ORF筛选;
6.联合12自信息量ORF筛选;
7.氨基酸自信息量ORF筛选。
在检验时把两组参量的打分作为两个新的参量,提高了识别率。