高通量测序误差模型分析及解码方案设计

来源 :东南大学 | 被引量 : 1次 | 上传用户:zw975526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量DNA测序技术是目前生命科学领域的一种重要的研究手段。经过十几年的发展,高通量测序技术无论在测序通量还是测序速度上都有了很大的提升,测序成本也有了大幅度的降低。然而高通量测序错误率高等难题仍未得到有效解决。另外,目前市场上所有的商用测序仪器及其配套试剂都被国外测序仪公司所垄断,要打破这种局面必须发展具有自主知识产权的国产测序仪。本课题针对东南大学生物电子学国家重点实验室自主研制的AG系列测序仪,研究系统误差的来源及其纠错模型,以期提高现有AG-100测序平台数据产生的准确率,在此基础上,建立碱基识别算法并开发软件系统,并同时为双碱基编码测序技术的AG-200平台提供解码方案。本论文首先分析了高通量测序平台中常见的测序误差,介绍并比较了一些比较流行的误差模型及校正的工具。在此基础上,对自主研发的基于连接法测序的AG-100高通量测序平台,我们分析了该平台的误差来源,建立了相应的误差校正模型,主要包括荧光光谱串扰校正和相位偏移校正。对于光谱串扰,我们将其视作一个线性转换问题,建立相应的数学模型,明确了求解串扰矩阵是校正流程中的关键步骤。我们采取了逐步迭代的方法对串扰矩阵进行估算,并在迭代的过程中对荧光强度数据进行不断地校正。在相位偏移的校正步骤中,我们将测序片段按照连接法测序时的顺序分割成更小的片段,对分割后的片段分别建立相位偏移矩阵,然后逐一校正,再将其合成。最后我们为AG-100平台的碱基识别流程开发了软件,该软件接收荧光强度数据作为输入,输出fastq格式的包含序列和及其质量的文件。通过模拟试验证明该软件能有效地校正光谱串扰偏差。为提高测序效率,在连接测序的基础上,我们实验室还提出了两核苷酸同时合成DNA测序方案。相比较单核苷酸测序,两核苷酸测序具有较高的精度,但同时也造成每一轮测序结果不直观,我们需要对其进行解码。为此我们提出了相应的解码方案,并采用模拟数据集进行了测试,取得了完全正确的解码结果。然后将这个方案推广到包含测序错误的情况下,我们详细分析了三组编码序列的全部误差模式,并分别为其可能出现的测序错误提出了相应的纠正方案。通过模拟数据集的测试,初步验证了该解码方案的正确性。
其他文献
<正>1病案举例患者,男,66岁,2013年6月14日初诊。患者2个月前无明显原因出现四肢及躯干散在淡红色丘疹,后丘疹变为直径0.5~2 cm半球形硬结,高出皮肤,质地坚实,剧痒难忍,夜间
随着我省造船业的不断发展 ,企业管理已日益显示其重要性。船舶建造是一个系统性的、涉及面极广的大型项目工程 ,只有采用先进的管理模式 ,才能取得良好的经济效益。项目管理
<正>61年前,在东北辽沈大地上发生了一场震惊中外的战役——辽沈战役,它胜利的炮声奏响了全中国解放的序曲。这场关键性的战役永远地被载入史册。在位于渤海之滨,有两千多年
<正>香港书展的全民参与度这么高,令人颇感意外。——知名学者钱文忠法兰克福书展规模大,但读者参与不是第一位的,主要是书商交易市场,中国内地各地书展从来没有像香港书展那
针对目前我国老年旅游市场开发的现状和存在的问题,提出进一步开发老年旅游市场的对策:突出老年旅游特点,开发富有老年旅游特色的产品;规范市场操作,提高服务水平;普及旅游观
银行战略管理是依据银行内部和外部环境变化制定战略、实施战略,并根据结果的评价和反馈来调整、制定新战略的动态过程。差异化战略是银行战略管理中的重要内容,是塑造银行特
作为一种已被世界各国普遍接受的扶贫模式,农户联保贷款具有自动瞄准、互相监督、还款共生和培训互助等独特的运行机制。然而,农户联保贷款在我国还存在着排除最贫困农户、小
纽马克的翻译理论为解读电影片名翻译的现状提供了新的解释。电影片名兼有文学文本属性和广告属性,但更主要的是广告属性。电影片名翻译不能单纯从传统翻译理论着眼,而要以纽
该文针对传统办公自动化系统中公文流转的固定流程和流转复杂性的矛盾,提出了以动态流程为基础的复杂工作流程的通用设计方法.同时结合开发实例加以剖析,并展望了今后的发展
<正>进入21世纪,随着科技日新月异的发展,一个崭新的概念——电子书正悄悄走进人们的生活。狭义的电子书指的是手持的阅读设备;广义的电子书是指从书的写作、编辑、出版、发