论文部分内容阅读
随着人类基因组计划的实施和基因组测序技术的快速发展,生物学家已得到几百种生物的全基因组序列,这些序列的背后隐藏着丰富的生物学知识和生物学规律。基因组序列测定之后,识别序列中的蛋白质编码基因是进行基因组分析首先要解决的问题,本论文致力于蛋白质编码区(特别是短编码区)的识别,论文从图形特征和分类算法两个方面对蛋白质编码区的识别进行研究。针对短编码序列的识别问题,论文根据碱基在密码子三个位置的偏性和碱基自身物理化学性质的分类,提出新的序列图形表示方法,然后在新图形上,提取了9个有效的面积矩阵特征,并使用支持向量机对人类的短蛋白质编码区进行识别实验。在识别过程中,为了提高识别率通过递增特征选择算法添加了4个统计特征到面积特征中,使识别特征表达的信息更加完备,并采用PCA方法对这13个特征进行降维。实验结果表明,与其他方法相比,该方法使用较少的特征(7个或4个)取得了更好的识别结果。针对传统支持向量机计算量大,对孤立点和噪声数据太敏感的特点,论文使用最小二乘模糊支持向量机代替传统支持向量机进行编码区识别。论文为最小二乘模糊支持向量机设计了一种新的充分考虑了样本与样本之间关系的样本隶属度计算方法,实验结果表明,与传统支持向量机和最小二乘支持向量机相比较,该方法的识别精度更优。