论文部分内容阅读
目前,围绕宏基因组的模拟读长(reads)或片段、全基因组等不同类型的输入数据,新的基因预测算法、软件与工具层出不穷,但存在三方面的问题:一、基于模拟reads或片段得出的结果无法准确反映真实基因的预测效果,而基于全基因组得出的结果不能实现未知物种的预测;二、模拟reads或片段大多小于真实基因的总长度,软件很难预测出完整的基因,甚至丢失部分真实基因;三、长片段基因预测的基准衡量研究较少,大大限制了基因预测在不同领域的应用。针对以上问题,提出基于真实数据长片段基因预测的基准衡量方法。首先,对两个包含20种