细菌必需基因自训练算法的研究及实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:Arqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
必需基因是生物体中非常重要的一类基因,如果缺少这种基因,生物将无法存活。对于必需基因的确认,现在主要有两种方法,一种就是使用实验方法进行确认,但是这种方法耗时长,并且消耗巨大,由于实验方法的缺陷与局限性,至今也只有很少的细菌必需基因被大规模实验确定;另一种方法是利用计算机进行必需基因预测,这种方法解决了实验方法的缺陷,现今的预测方法大部分使用的是整合方法,但是这种方法非常依赖实验数据,在缺乏实验数据的时候很难对细菌必需基因进行预测。为了摆脱实验数据的限制,我们决定开发基于基因本身特征的必需基因预测算法。首先我们选择了蛋白质结构域作为预测必需基因的特征,通过实验验证,我们发现蛋白质结构域在必需基因的预测中起到了非常大的作用。之后,我们选择了25个物种作为实验物种,通过物种间的亲缘距离将不同物种间的结构域联系起来,设计了基于蛋白质结构域的必需基因预测算法。通过对25个实验物种进行多重交叉检验并计算结果AUC值,最终结果有5个物种超过了0.9;而在0.75到0.9之间的物种,也有14个;低于0.75的物种只有6个,最低的也有0.66,说明了我们的这种算法效果非常的好。然后,对于同样基于基因序列特征的必需基因预测工具Geptop,我们对其进行了改进。改进的地方如下:(1)对参考集由最初的19个物种扩充到25个;(2)对不易让人理解的评分公式进行了简化,使之简单易懂同时不降低必需基因预测准确度;(3)对预测程序进行了优化,使之效率提升。通过这三面的改进过后,Geptop的预测准确度得到了一定的提升,通过和之前的版本进行比较,19个物种中,有12个物种的结果均有所提高。同时,以大肠杆菌为例,程序的运行速度从107分钟缩减到了26分钟,效率提高了接近4倍。最后,我们尝试将基于蛋白质结构域的必需基因预测方法和Geptop结合起来,期望得到更好的预测结果。由于时间关系,我们没能找到提高预测结果的结合方式,但是我们已探索的结合方式也能给继续研究这方面的学者提供经验。
其他文献
如今说起铅酸蓄电池,就不能不提到风帆。风帆产品以年超过820万只的销量占有了国内市场25%的份额,成为国内最值得信赖的铅酸蓄电池品牌。这其中,风帆的销售工作起到了至关重要的
教师与学生、教育教学内容、教育或教学内容的物化形式以及其他辅助条件是教育活动的三个基本要素,国家、学校、教师、学生是教育关系中的四个利益主体。由于国家、学校、教
<正>系统性自身免疫性疾病是免疫调节机制异常而出现的一系列临床疾病谱,可引起全身多器官和组织的病理损伤。近年来研究表明,血管内皮作为人类最大的器官,已成为自身免疫性
对无人车鱼眼双目环境感知系统模型进行了研究,分析了鱼眼双目模型与针孔双目模型的转化关系。针对鱼眼图像变形大的特点,提出了一种用于鱼眼相机图像矫正的余弦相似方法插值算法,算法采用余弦相似方法衡量待插值点与周围灰度已知点的相似性,对因重投影产生的像素缺失进行了有效插值。最后,通过场景深度提取试验对该模型和算法进行了试验验证。研究结果表明,与传统双目模型相比,鱼眼双目模型能够获得更大范围的深度信息;对于
学生科长,是一位以“执法必严”取信于“民”而在学生中威望最高的人,四十多岁,头发却全斑白了。无论在学校哪个角落,无论多么调皮的学生,正在多么高明地捣蛋,只要一出现他的
文化力是企业最重要的软实力,是企业持续发展的内在动力。中国兵器工业集团公司是中国最大的武器制造集团和中央直接管理的特大型国有重要骨干企
期刊
为了研究微通道壁面随机粗糙度对流体流动和传质特性的影响,采用随机排布准则构建具有典型粗糙元类型的随机粗糙微通道壁面,利用有限元方法分析壁面随机粗糙度对流速、压降、
通过对三明市区城市绿道豆科植物的调查与分析,结果表明:三明市区城市绿道豆科植物有3个亚科、27属、47种,生活型表现为乔木17种、灌木12种、草本6种、藤本12种,分别占豆科植
本文以汉语国际教育专业教学方式为突破口,先介绍汉语国际教育发展的教育情况,接下来探讨当前汉语国际教育创新的几种主要教学方法。传统的汉语国际教育教学方式主要是以讲授
研究目的:机体在剧烈运动时会由糖的无氧代谢而产生乳酸,当机体产生和清除乳酸能力的失衡时则会导致乳酸堆积,并可因肌肉和外周血中乳酸含量过高而导致疲劳的发生。推拿按摩