论文部分内容阅读
在近几年的发展里,第二代测序技术的测序通量越来越大,测序速度越来越快,出现了各种各样的测序平台。作为新一代测序技术,半导体测序仪采用了半导体芯片进行测序,摆脱了传统测序技术采用光学成像装置进行信息检测的限制,极大地提高了测序速度,缩减了测序成本,并使得测序技术走进临床应用成为可能。第二代测序仪中的离子半导体测序仪,目前包括IonPGMTM测序仪和Ion ProtonTM测序仪,其中Ion PGMTM测序仪是针对较小规模的基因组测序设计的,Ion ProtonTM测序仪是针对较大规模的基因组测序而设计的,这两款测序仪的测序原理基本相同,在测序速度上都有了极大的提高,但其测序准确率却不是很高,准确率约为98%左右。半导体测序仪在测序的过程中,首先利用半导体装置测得一系列的电压信号,然后根据测得的电压信号的大小推测出电压信号代表的碱基长度,这个过程是存在误差的,也是导致半导体测序仪测序准确率偏低的主要原因。针对半导体测序仪基于测得电压值解读碱基长度时存在检测误差的问题,本文进行了相应研究。首先,从半导体测序仪原始测序数据出发,实现了测得的电压信号的有效提取,并根据测序仪的测序误差特点对电压信号进行了合理分组。然后,通过统计分析各组电压信号的信号值分布规律,实现了基于贝叶斯的对测得电压值进行碱基长度判别的方法。依据同一物种的个体碱基差异仅占基因组约1%的特点,进一步提出了一种新的结合贝叶斯和参考基因组信息的对半导体测序仪碱基长度判别的方法。随后进行的实验测试表明,本文所设计方法对测得电压值碱基长度的判别错误率不到0.85%,比半导体测序仪现用算法的判别错误率下降了 80%。实验结果表明本文所提出的判别方法的可行性。