宏基因组中可移动序列的精确检测问题研究

来源 :集成技术 | 被引量 : 0次 | 上传用户:chaowei7838
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组组装是宏基因组分析的主要挑战之一。通常假设所有测序序列均来源于同一个基因组,微生物中非常活跃的可移动元件给这个前提假设提出了重大质疑。文章将该质疑抽象为可移动元件与宿主染色体之间的二分类问题,准确的二分类性能将进一步促进宏基因组学方面的研究。基于宏基因组测序数据的数值化特征,详细考察特征选择算法 ReliefF、卡方检验和 Fisher判别t检验,并结合分类模型逻辑回归、极限学习机、支持向量机和随机森林,验证最优可移动元件检测模型的性能。实验结果表明,ReliefF特征选择算法和随机森林分类算法的融合模型,使用100个特征即可正确分类95%以上的宏基因组测序数据,优于使用全部的690个特征。
其他文献
根据复杂周边环境、地质、基坑围护结构形式与水文地质及施工季节等条件,在保证基坑稳定的形式下,通过深化设计及应急预案保证了施工的安全及质量。通过太阳城1#地二期工程的基
在混凝土的施工过程中,混凝土裂缝已成为混凝土工程质量通病,如何减少混凝土裂缝成为控制混凝土结构质量的关键。地铁工程是百年的民心工程,我们需要更加关注其混凝土结构的质量
本文从建筑节能的角度讨论了建筑幕墙的发展方向,阐述了玻璃幕墙崛起的原因和建筑幕墙的发展,提出了两种外围护结构是玻璃幕墙的建筑。
工程造价的管理,就是在建设程序的各个阶段控制好投资,以求合理使用人力、物力和财力取得较好的投资效益。施工企业的市场竞争,实质是管理水平的竞争。如何管理施工阶段的工程
手机位置数据是一种新兴的轨迹数据源,在支持人类移动研究方面具有巨大的潜力。近期研究指出,基于手机用户独特的活动特征,许多用户能够被轻易地重识别。然而,隐私保护处理对原始
文件系统的元数据主要是用来描述它的命名空间,访问权限和数据定位等信息的数据。由于50%~80%的文件系统访问要涉及到元数据,元数据服务的性能将极大地影响整个分布式文件系统的
文中阐述了生态建筑的基本概念,建筑生态化的基本特征,发展生态建筑的社会条件以及目前生态建筑发展的动态趋向,并就发展中国家发展生态建筑提出自己的见解。
单相弧接地过电压会损坏电气设备,造成短路事故,危害性极大。本消弧装置采用新型微控制器和电抗器投切可以准确有效地消除弧光接地过电压造成的危害,具有良好的消弧、过电压及保
随着市场经济的发展和城市面貌的日新月异,城市规划在城市建设中的“龙头”作用,已经被人们所公认。然而城市规划的作用愈大,我们就愈有必要不断寻找在城市规划管理工作中的瑕疵
明挖地铁施工中,侧墙混凝土多数只能进行单侧支撑形式,故保证边墙的垂直度及边墙与底板混凝土的接缝顺直无错台成为施工中的重点和难点,本文通过沈阳地铁黎明文化宫站及站后区间