【摘 要】
:
随着第三代测序技术的日益成熟以及广泛应用,长序列比对成为正在兴起的研究领域。在转录组学研究中,将RNA长读段比对定位到参考基因组中,是对第三代RNA测序数据进行分析的关键一步,其准确性对差异基因表达、RNA编辑和融合基因的检测等后续分析有着至关重要的影响。然而,第三代RNA测序数据具有读段长、错误率高、高通量的特点,为RNA长读段比对算法设计带来了挑战。现有相关算法普遍在对结构复杂、规模较大的基因
论文部分内容阅读
随着第三代测序技术的日益成熟以及广泛应用,长序列比对成为正在兴起的研究领域。在转录组学研究中,将RNA长读段比对定位到参考基因组中,是对第三代RNA测序数据进行分析的关键一步,其准确性对差异基因表达、RNA编辑和融合基因的检测等后续分析有着至关重要的影响。然而,第三代RNA测序数据具有读段长、错误率高、高通量的特点,为RNA长读段比对算法设计带来了挑战。现有相关算法普遍在对结构复杂、规模较大的基因组上进行RNA序列比对准确率较低;其次,这些方法比对的很多位置与真实位置还存在偏差,导致外显子边界识别的准确率不高。因此,本文设计并实现了一套针对第三代RNA测序读段的比对算法流程,命名为WFMap。该方法通过索引和预比对策略进行全局搜索,首先找到RNA片段可靠的、大致的位置,再通过精细比对,对第一阶段比对的位置进行局部调整,最终实现准确地、高效地将RNA序列各个部分精确定位到基因组上。本文的主要研究方法如下:首先,通过使用minimizer的索引方法对参考基因组进行索引。根据计算自定义窗口内的minimizer构造minimizer的哈希索引。其次,采用基于种子-扩展策略的方法将读段和参考基因组进行预比对,减少算法下一步的搜索空间。通过区域选择、图映射、锚点扩展以及锚点过滤等步骤,锁定读段在参考基因组的大致位置。最后,采用基于WFA算法的精细比对。在此阶段,首先引入注释文件来识别外显子边界。此后,在最优锚点集合之间使用WFA算法,利用序列之间的同源性,将动态规划对角线得分递增等思想扩展到间隙-仿射模型,从而提高比对结果的准确性。在WFMap中,将WFA应用于RNA序列比对以及采用基因组注释精确地识别外显子边界是本文的两个创新点。实验结果表明,WFMap在不同数据集的各个性能评估指标中综合表现高于现有比对方法,在规模较小且剪接简单的数据集上表现最优,在规模较大且剪接稍复杂的数据集上具有一定的适用性。此外,在不同物种和不同测序技术(Pac Bio和ONT)的数据集上仍然表现良好,说明算法泛化性较好。通过可视化结果可以看出,在处理外显子边界上WFMap具有一定的优势。特别地,我们发现测序读段的错误率会影响比对算法的结果,当测序读段的正确率提高时,比对算法的结果也会随之提高。本文对长RNA序列比对中存在的问题和解决方案进行了深入地探索,为后续相关算法的开发提供了新思路。
其他文献
目的本研究采用Tee Tester数字化咬合系统,分析无症状的偏侧咀嚼者和伴颞下颌关节紊乱病(Temporomandibular disorders,TMD)症状的偏侧咀嚼者的咬合特点,为临床上偏侧咀嚼相关的TMD的诊治提供新的思路。方法1.根据调查问卷和口腔检查筛查出60名受试者,分为三组,偏侧咀嚼者40名(左侧20名,右侧20名),对照组(非偏侧咀嚼者20名)。采用Tee Tester数字化咬
随着互联网在我国的迅速发展和高速普及,信息过载使得人们在获取自己感兴趣的内容时面临严峻的挑战。而推荐系统的兴起,它不仅能提高用户黏性和用户忠诚度,而且还能通过用户属性信息以及用户的历史交互行为信息来学习用户潜在的兴趣偏好,这可以帮助用户节约筛选信息的时间,提升用户购物体验以及缓解用户在购物过程中的信息过载问题。一般而言,经典的传统推荐算法只会考虑用户和商品的历史交互行为信息,而往往会忽略在真实的推
在大数据时代,数据通常以高速和不断变化的形式生成。在实际应用场景中,数据通常以无标签的形式存在。数据量大且形式多种多样的特性使得人类专家不可能在有限的时间内为每一个样本打上正确的标签。与此同时,标记所有样本非常耗时且成本昂贵,有时甚至非必要。因此,半监督学习技术非常适合处理这些数据。然而,由于数据不断变化的特性使得样本服从同分布这一假设在实际应用场景很难得到满足。分布不同的数据间却有着相关性,我们
偏标记学习作为一种弱监督机器学习框架,其目标是从每个训练示例对应一组候选标记集合的数据中学习一个多分类模型,其中候选标记集合中只有一个是真实标记且不能在训练阶段直接获取。从带有模糊标记信息的偏标记数据中学习的关键就是消除候选标记集合的歧义。现有的偏标记学习算法在计算示例相似度时,往往只针对特征空间,很少考虑利用候选标记空间的信息来辅助构造示例之间的相似关系。并且在消歧过程中,很少考虑候选标记不同置
版画作为一门具有独特语言魅力和丰富表现形式的艺术,在中国传统艺术阵营中占据重要地位。意象是主观情感和客观形象的融合,具有丰富的内涵和情感性。创作者应将“意”与作品结合起来,在版画创作过程中注重以形写神、传神写意,连接观者的精神感悟并产生情感共鸣。
以在电力、化工、空分领域广为应用的成熟设备及参数指标为基础,提出了纯氧燃烧燃煤机组尾气压缩液化分馏回收的系统方案,从关键性的总体指标分析入手,论证了方案的工程可行性,为燃煤火电机组尾气无害化处理及资源化加工提供了新的途径。
目的:分析胃黏膜癌前状态和癌前病变的血清胃功能变化特点及幽门螺杆菌感染情况,评价不同无创筛查方案在诊断癌前状态和癌前病变中的应用价值,在体检人群中更高效地识别出胃癌高风险者,并结合其发病相关因素影响分析,提供生活方式管理的依据,最终达到提高胃癌早诊率、降低死亡率。方法:(1)纳入健康体检者,行经鼻胃镜检查并取活检,经病理结果诊断为非萎缩性胃炎、癌前状态和癌前病变者,共498例。(2)检测Hp,测定
研究目的针对重症病人的病情特点,我们在前期研究基础上,结合国内外现有不同置换液特点,基于对含枸橼酸无钙置换液抗凝与传统含钙置换液在血液净化中单独加入枸橼酸抗凝应用效果的系统评价分析,通过对连续性血液净化(Continuous blood purification,CBP)应用于ICU重症患者置换液配方优化研究,确定适合重症病人代谢特点的含枸橼酸无钙置换液基础配方。在进一步有效延长重症病人血液净化时
现有网络环境中不断产生大量的短文本数据,文本数据的产生必然伴随着对数据的归类,如何提高分类结果准确率,实现文本分类过程可解释,已成为当下的研究热点。然而,当前大多数的短文本分类算法都会面临如下问题:一是短文本内容中会包含诸多不确定信息且提取出的特征信息相互独立,忽略特征关联信息;二是短文本存在词汇量小、文本特征稀疏和内容不规范等问题。针对上述问题,本文在Dempster-Shafer理论框架下提出
在分组密码算法中,S盒是唯一能够为算法提供非线性变换的部件,为加密算法提供混淆特性。现在大多数针对分组密码算法的攻击都是针对S盒的攻击,因此,S盒的安全性质直接关系到整个密码算法的安全强度。如何设计出能够抵抗数学分析以及侧信道攻击的S盒是研究的重点。面对计算机日益增强的计算能力,S盒受到的数学性攻击威胁随之增长。4比特轻量级S盒虽然实现成本较低,但在抵抗数学分析方面能力较弱;8比特S盒与16比特S