基于表示学习的碱基序列压缩与比较

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yayaguo123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的飞速发展,基因组碱基序列的规模快速增长,带来大规模数据下的序列存储与序列比较问题。直接利用动态规划针对序列进行比对,需要消耗巨大的时间空间计算资源。而免于配准的序列比较算法基于k-mer的相对频度,建立统计模型间的差异度度量尺度,但存储空间随着k值的增长指数级增加,而且基于固定的度量尺度衡量序列间差异限制了算法的泛化性和应用场景。因此,针对当前序列比较出现的两个问题:(1)包含百万量级碱基序列的数据库难以存储及比较;(2)固定的距离衡量方式限制了序列比较的性能,本论文提出基于表示学习的碱基序列压缩与比较的计算框架,对基因组碱基序列利用表示学习进行压缩,将序列映射到低维向量空间,并进行差异度度量。进一步,我们针对基因组序列的压缩与比较和宏基因组长序列(contig)分箱两个场景,进行序列压缩和序列比较的模型构建:(1)提出压缩表示大规模碱基序列数据库并进行基因组快速比较的算法CRAFT。CRAFT通过序列压缩算法利用k-mer频度向量将输入序列映射到嵌入空间并计算序列间的差异性,其间利用分支定界算法加速比较过程。对于拼装与未拼装的序列,CRAFT在运行速度、存储空间及性能上均优于当前的代表性算法,并且在面对不完整的序列数据时展现出很强的鲁棒性。(2)提出面对序列分箱的度量尺度学习模型。通过学习已知物种的宏基因组长序列的序列信息(即k-mer频度向量)及物种类内与类间序列关系构建面对序列分箱的度量尺度学习模型。其通过学习得到的距离度量尺度能够以高准确率正确归类同物种长序列及相似物种长序列。本文所提出的基于表示学习的序列压缩与比较算法可实现针对大规模碱基序列数据的压缩表示和碱基序列的快速比较完成准确的物种定位,适用于各种类型的碱基序列数据(基因组、宏基因组、转录组和宏转录组)。同时面对长序列分箱的度量尺度学习模型克服固定度量尺度导致的单一应用场景问题,适用于各种分布未知的长序列数据集的差异度量。
其他文献
随着移动互联网信息技术的变革与成熟,网络直播平台应时而生。网络直播平台作为一种新型社交媒介与载体,以其独特的实时性、互动性、趣味性等特点,在网上购物、网络游戏、娱乐消遣、教育培训、知识传播等方面发挥着巨大的平台优势,带给社会公众全新的使用感受。而政府监管不仅是网络直播平台规范运营的重要保障,也是推动网络直播行业可持续发展不可或缺的力量。但在网络直播平台发挥着显著作用的同时,也不断暴露出涉黄涉暴、版
学位
工业革命之前,世界各地对于土地的使用大多都仅仅停留在土地表面。到了 19世纪中后期,随着科学技术的不断发展,地表资源的有限性迫使人们向空中和地下要空间,“土地分层利用”的概念也逐步被人类熟知,西方国家通过制定单行法、民法典或判例与其他法律形成了彼此联系却又相互独立的城市土地空间开发利用制度。而我国随着近年来火爆的地下空间开发市场,在立法上也越来越重视土地空间分层使用的研究。基于当下这种情况,本文的
学位
金属结构具有设计成熟、易于加工和成本低廉等优点,广泛应用在航空航天、土木桥隧和其他众多工业领域,是最为常见且最为重要的结构之一。不管是港珠澳跨海大桥、上海中心大厦、“奋斗着号”全海深载人潜水器还是C919大型客机和未来的中国空间站,都能看到它们的身影。长久以来,金属结构的疲劳、腐蚀、载荷和工作环境的变化一直是造成结构失效故障的主要因素,严重制约了金属结构的服役寿命。为保障结构安全可靠,恢复其承载能
学位
由步进电机组成的运动控制系统兼具成本与性能的优点,广泛应用于数控、医疗、纺织、包装等领域。但步进电机传统的控制方式存在转矩脉动、振荡、失步过冲等问题,难以应用于动态特性要求较高的场合。近年来,随着半导体器件与微处理器性能的提升,使得步进电机驱动控制器在小功耗、大功率驱动能力与处理复杂算法能力成为了可能。本文通过研究混合式步进电机运行过程中电流谐波的产生机理及其对电机的危害,提出混合式步进电机的空间
学位
随着互联信息技术的爆炸式发展,以云计算技术为代表的大数据技术逐渐开始成为时代的主流,全球掀起了数据信息热。美国在前几年抢先一步启动了“大数据研究和发展计划”,而我国不久也在“十三五”规划纲要明确提出了“国家大数据战略”,世界两大经济体不约而同的表达了对大数据的重视,足见其战略地位。现今时代,所有人无时无刻不在生产着大量的数据信息流,也各自享受着大数据带来的便捷红利,但不能忽略的是,人们也在不知不觉
学位
中国证券监督管理委员会成立即将30年,在推动市场法治建设、化解市场风险、维护市场秩序、促进市场发展等方面取得了显著成绩,在国际上享有了较高的声誉和地位。《证券法》历经三次修订,已基本满足了我们资本市场在新时代下发展需求,但证券监管体制的改革并未停下脚步。证券监管体制改革意味着需要调整证券监管机构的法律定位。研究监管机构的法律定位可从主体定位和职能定位两个重要方面进行分析。监管机构与其他政府机构的关
学位
私募基金作为风险偏好型的投融资方式,在一定程度上缓解了中小企业面临的融资难的困境。然而私募股权基金的高风险高收益的的特征,也决定了资本市场中没有永远的输赢,基金管理人作为基金资产的管理和运营方,基金管理人对资产的管理与运营决策直接影响了基金能够成功地实现预期的资产增益,实现投资目的,这也注定基金管理人在管理基金时的道德水平和业务能力会影响投资的走向与结果,而道德风险毫无疑问也成为了立法与实践难以把
学位
海洋面积十分广阔,约占地球表面积的71%,当我们提到海洋环境时往往想到的只是它的水体环境,其实真正的海洋环境还包括海域上空的大气环境、海底的生态环境以及毗邻海洋的陆地环境,由这些部分共同构成的海洋环境是人类经济社会持续健康发展所倚杖的重要生态基础,但是如此重要的海洋生态环境却在人类进入工业社会后开始出现环境污染的状况,尤其是在二十一世纪以来这种海洋环境污染的现象愈发严重,如2011年爆发的康菲(中
学位
自2007年在《物权法》中确定不动产预告登记制度以来,预告登记制度对维护不动产交易市场的稳定具有重要的作用。2019年,我国在《不动产登记暂行条例实施细则》中,对于预告登记进行了明确的规定,并明确规定了预告登记具有权利保全的效力。我国2020年颁布了《中华人民共和国民法典》简称《民法典》,此次修订的《民法典》在物权编中继续肯定了预告登记制度,对预告登记的法律条文进行了一些细微的修改,如将三个月的规
学位
我国作为用电大国,电力系统的相关产业技术都在国际上处于领先地位。目前,全国电力系统中电力屏柜的巡检却仍然采用人工的方式完成。人工巡检的方式对作业人员的身心素质、业务水平、技术经验等方面都有较高要求,因此也引入了许多不确定因素,而机器人巡检则可避免这些隐患,弥补人工巡检的不足,在提升作业效率与运维质量的同时增加安全性与经济效益。尤其是经过此次疫情,实现对电力屏柜无人值守的远程智能监管已经成为电力行业
学位