基于新型特征的基因识别方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:xtljj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组以及多种模式生物的作图和测序工作的快速进展,预示了后基因组学时代的到来,同时也带来了大量的基因数据。生物信息学为高效地处理这些数据提供了重要理论支持。基因识别是生物信息学的关键组成部分,大量的算法被应用于解决基因识别问题。但是仍有一些问题没有得到有效地解决,比如真核生物短基因识别。本论文主要致力于人类短基因编码区识别算法的研究。有效地对生物信息进行提取是基因识别算法的性能保证。在论文中,我们尝试从新的途径来提取生物信息。首先将终止密码子相位分布信息与碱基偏性信息相结合,提出两个混合性质特征。接着将用于蛋白质序列信息提取的伪氨基酸组成特征引入到DNA中,给出了一组伪碱基组成特征,该特征可以提取不同位置上碱基间的相互作用信息。将改进的终止密码子变量和两个混合性质特征进行识别时,取得较理想的效果。特别当序列长度为192bp时,识别效果达到92.73%。同时本文提出的一个15维特征向量,其中包含混合特征、伪碱基组成特征和其他统计特征等。同样在序列长度为192bp时,基于该特征向量的方法识别效果达到95.65%。由此可得,混合两种性质的特征提取方式以及伪碱基组成特征能有效地提高编码区识别精度。在基因识别中,识别方法的选择对识别效果的影响很大。为了在短基因编码区识别中获得更高的精确度,必须选择精细的模型,径向基函数神经网络是一个较理想的选择。为了解决神经网络中可能存在的记忆变形和记忆丢失问题,结合K-均值的聚类结果和样本类别标记,获得一些启发式信息。并给出基于启发式信息的样本筛选机制,用于降低神经网络的样本集规模。同时对单个数据集进行多组实验,并采用投票法进行统计,取得不错的识别精度。
其他文献
研究排球蹲起运动对膝屈伸等速肌力衰退影响,可保护运动员的膝关节避免损伤。进行排球蹲起运动对膝屈伸等速肌力衰退影响建模时,需要准确分析运动员膝关节伸肌肌力和屈肌肌力与
分析了用甲醇、乙酸乙酯和二硫化碳3种不同极性的介质配制的4种苯系物样品,在不同极性的石英毛细柱、不同的分流比、宽口径石英毛细柱、宽口径玻璃毛细柱和玻璃填充柱上的测
研究目的: 局部进展期非小细胞肺癌,局部控制失败是死亡的重要原因,如果能在不增加治疗毒副作用前提下,提高局部控制率必然会提高疗效。术后病理分期是肿瘤分期的金标准,PET显
无人机遥感监测具有实时、精细、远程等优势,是现代林业信息监测的重要方式,并在林冠上监测得到了广泛应用。而林冠下也蕴藏着丰富的林区环境信息,因此对林冠下进行信息监测也尤为重要。林冠上的环境较为空旷可以很好的接收GNSS信号,但林冠下环境由于树冠遮挡在监测时面临着GNSS信号缺失的问题。为解决无人机林冠下监测由于信号缺失导致无法自主定位导航的问题,本文提出了基于RGB-D相机和惯性测量单元进行传感器信
<正>2016年1月8日,东营市孙庆民名师工作室举行教学研讨活动,笔者作为成员之一执教的"二次函数复习(基础知识)"受到了听课老师的一致好评,也收到了较好的课堂教学效果,为此将
<正>前段时间我重装了系统,之后就发现手机无法与电脑上的蓝牙适配器进行连接了,出现了“Device not found”的提示。经过了很长时间的查找,
目的观察培元活血汤联合泼尼松治疗特发性间质性肺纤维化(IPF)的疗效及对凝血功能和血清肺表面活性蛋白A(SP-A)、基质金属蛋白酶-9(MMP-9)、血管细胞黏附分子-1(VCAM-1)表达的影响。
p53蛋白是调控细胞周期的关键因子,有维持基因组稳定性的重要功能,是一个重要的抑癌基因。肿瘤中最经常发生突变的基因之一就是p53基因的突变。BMP-Smad信号通路不仅能调节细
在生态动力系统中,传统的Lotta-Votarra模型和具有比例依赖率的食饵-捕食者模型是两类研究十分深入的模型,它在生态捕获和资源管理中得到广泛的应用,具有重要的探索价值.然而
党的十七大和《国民经济和社会发展第十二个五年规划纲要》明确要求实现广大群众住有所居的目标。目前,我国保障性住房建设正在如火如荼的进行,其中国家大力推行的基本保障型