论文部分内容阅读
背景:近几年,三代测序技术如PacBio测序技术正在迅速发展。PacBio测序技术比二代测序技术产生更长的序列读长,并且有其独特的测序错误特征。针对PacBio测序技术开发的生物信息学工具和算法也随之涌现,如比对软件、序列拼接软件、结构变异分析软件等。模拟测序数据可以帮助研究者评估同一用途的不同软件和流程,为程序选择特定的参数等,是性价比高且节省时间的方法。此外,PacBio测序平台发展迅速,已有了多代测序仪,因此可以有效模拟不同代测序仪的测序数据特征的测序模拟系统对于评估和促进基于PacBio测序数据分析的新生物信息学工具的开发至关重要。结果:我们开发了一个针对PacBio测序平台的测序模拟系统PaSS。它能从真实的PacBio测序数据中估计出序列模式和错误模型。PaSS的模型中除了multi-pass的特征及序列长度分布信息,我们还包含了与序列上下文有关的测序错误模型,并用一个预设的高错误率来模拟那些因错误率高而比对不上参考基因组的序列区域。我们将PaSS与现有的PacBio平台的测序模拟工具如PBSIM、LongISLND和NPBSS进行了全面的比较和评估,并采用了K-S检验对结果进行评估,结果表明PaSS在多个方面都表现更好。最后,我们还采用了间接比较的方法,从序列拼接的角度也表明PaSS模拟的序列与真实测序数据最接近。结论:PaSS是一个快速有效的PacBio测序模拟工具,它将有助于PacBio测序数据的生物信息分析工具的评估和开发,可以加速PacBio测序的应用发展。