论文部分内容阅读
高通量DNA测序技术是目前生命科学领域的一种重要的研究手段。经过十几年的发展,高通量测序技术无论在测序通量还是测序速度上都有了很大的提升,测序成本也有了大幅度的降低。然而高通量测序错误率高等难题仍未得到有效解决。另外,目前市场上所有的商用测序仪器及其配套试剂都被国外测序仪公司所垄断,要打破这种局面必须发展具有自主知识产权的国产测序仪。本课题针对东南大学生物电子学国家重点实验室自主研制的AG系列测序仪,研究系统误差的来源及其纠错模型,以期提高现有AG-100测序平台数据产生的准确率,在此基础上,建立碱基识别算法并开发软件系统,并同时为双碱基编码测序技术的AG-200平台提供解码方案。本论文首先分析了高通量测序平台中常见的测序误差,介绍并比较了一些比较流行的误差模型及校正的工具。在此基础上,对自主研发的基于连接法测序的AG-100高通量测序平台,我们分析了该平台的误差来源,建立了相应的误差校正模型,主要包括荧光光谱串扰校正和相位偏移校正。对于光谱串扰,我们将其视作一个线性转换问题,建立相应的数学模型,明确了求解串扰矩阵是校正流程中的关键步骤。我们采取了逐步迭代的方法对串扰矩阵进行估算,并在迭代的过程中对荧光强度数据进行不断地校正。在相位偏移的校正步骤中,我们将测序片段按照连接法测序时的顺序分割成更小的片段,对分割后的片段分别建立相位偏移矩阵,然后逐一校正,再将其合成。最后我们为AG-100平台的碱基识别流程开发了软件,该软件接收荧光强度数据作为输入,输出fastq格式的包含序列和及其质量的文件。通过模拟试验证明该软件能有效地校正光谱串扰偏差。为提高测序效率,在连接测序的基础上,我们实验室还提出了两核苷酸同时合成DNA测序方案。相比较单核苷酸测序,两核苷酸测序具有较高的精度,但同时也造成每一轮测序结果不直观,我们需要对其进行解码。为此我们提出了相应的解码方案,并采用模拟数据集进行了测试,取得了完全正确的解码结果。然后将这个方案推广到包含测序错误的情况下,我们详细分析了三组编码序列的全部误差模式,并分别为其可能出现的测序错误提出了相应的纠正方案。通过模拟数据集的测试,初步验证了该解码方案的正确性。