半导体测序仪测序数据分析方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:youpi100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着精准医疗概念的提出,基因测序也备受关注。通过基因测序能够提早预测患病风险,以便尽快提出针对性治疗方案。半导体测序仪以其快捷、方便、低成本的测序特点成为如今主流的测序仪之一,半导体测序仪通过半导体芯片将化学信号转变为电压信号来实现测序,用半导体芯片代替了传统的光学测序技术。尽管半导体测序仪具有这些优点,但是其在具有连续相同核苷酸(多聚碱基)的测序区间上测序准确率并不高,对多聚碱基的长度判定不准确,这种限制因素减小其在生物应用上鉴定各种遗传变异体的准确率。该测序技术是根据测序电压来判别多聚碱基的长度,而在这个过程里具有相同长度的多聚碱基存在不同的测序电压,这就导致其在多聚碱基测序区间的精确度较低。针对该问题,本文以测序电压为研究对象展开分析。首先,对半导体测序仪原始测序数据进行预处理,将其与参考基因组信息进行比对;随后提取相关测序数据信息,根据影响测序电压的不同因素将提取信息分组;然后分析各组测序数据信息中电压信号的分布情况,发现每组测序电压的分布都符合正态分布;最后,根据测序电压的分布提出了基于贝叶斯理论的模型来预测多聚碱基长度,再利用动态规划算法计算测序序列与参考基因组信息的比对得分,进一步设计了基于朴素贝叶斯分类器与动态规划算法的综合模型来对多聚碱基长度进行预测,并且根据预测到的结果对原始数据进行矫正。实验结果表明,本文所提出的综合模型在对多聚碱基长度的预测上错误率为0.054%,半导体测序仪在多聚碱基处有2.111%的错误率。在所有半导体测序仪判定错误的多聚碱基测序数据中,有97.453%错误数据可以用本文所提方法矫正。从而证明综合模型显著提高了半导体测序仪在多聚碱基区域处的比对正确率。
其他文献
目的:通过复制动物贫血模型,观察当黄片调节免疫抗贫血效应。方法:采用失血法造成小鼠失血性贫血模型,观测小鼠的血红蛋白(HB)、红细胞(RBC)、红细胞压积及平均红细胞血红蛋
为了解决高重频脉冲多普勒末制导雷达制导过程中的距离遮挡和距离模糊问题,实现在距离遮挡环境下正常解模糊,提出了相应的解决方法:通过对发射信号重频进行参数设计,可实现在
<正>笔者自1997年以来,采用眼周穴位深刺为主治疗复视156例,经过不断探索改进,此方法已日趋成熟,现报道如下。1一般资料全部156例患者均为我院病人,其中男56例,女100例;年龄
近年来,财务造假和财务报表舞弊问题特别是上市公司财务报表舞弊已经到了相当严重的地步,无论是在性质还是在数量方面都非常令人吃惊。这些财务造假和财务报表舞弊的行为不仅
伴随着全球经济一体化程度的不断加深,企业所处的经营环境越来越复杂多变,在这样的环境之中,企业要想长久地生存下去必须具备对未来不确定性的把控上,即企业要注重风险的管理
互联网科技的不断发展和普及带动了全世界范围内电子商务行业的迅速崛起。越来越多的经营者将精力投放于网络市场的开发和运用,试图利用互联网的优势最大限度的配合自身的商
在当前网络经济革命背景下,我国社会的生产方式、生活方式、交换方式等都受到了巨大的冲击,发生了翻天覆地的变化,这也使得原有的、传统的区域理论不适应于当前的网络经济以
“诚然”是在现代汉语书面语中经常使用的一个语气副词,很多学者已经对“诚然”的词性、词义进行过研究,但是对其从篇章角度进行的研究还不多见,对“诚然”的词性问题和语法化动
作为我国西南少数民族的一个重要组成部分,纳西族主要分布在我国川滇藏三省毗邻的澜沧江、金沙江及其支流无量河和雅砻江流域。历史上纳两族曾使用过东巴文、哥巴文、达巴文
汉语形容词是一个非常重要的词类。学界对形容词有着繁多的分类方式,但基于对外汉语教学,结合课堂教学规律的分类却为数不多。通过教学实践,我们发现在形容词的教学中,正向形