生物序列数据k-mer频次统计与可视化研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:luoxing1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年来测序技术的飞速发展,人类产生了海量的生物序列数据,亟需通过有效的计算手段进行分析和处理。而在众多的生物序列分析与处理问题中,生物序列数据的k-mer频次信息是一种非常关键且重要的序列特征,它在序列比对、序列拼接、序列聚类、模体发现等诸多的问题上得到了广泛的应用。面对大规模数据,k-mer频次统计的算法以及其可视化问题就显得至关重要,本文就围绕着这两个方面进行研究,其主要内容和贡献包括:  (1) k-mer频次统计算法研究  按照k-mer频次的计数方式,该问题可以分为两类:全序列k-mer频次统计、序列间k-mer频次统计。对于全序列k-mer频次统计问题,本文先对有限内存和磁盘空间限制下的DSK算法进行了分析,该算法主要存在磁盘I/O开销过大。对于同样规模或更大规模的问题,云计算平台可以减少各节点的磁盘I/O开销,因此,我们对DSK算法进行了适用于MapReduce云计算框架下的并行化改造,提出了PDSK算法。理论分析及实验结果表明,PDSK算法能够对数据进行均匀划分,减小各个节点的磁盘I/O开销,提高全序列k-mer频次统计的效率。  对于序列间k-mer频次统计问题,通过对传统的基于前向遍历的FTKC算法进行改进,我们提出了新的基于逆向遍历的k-mer频次统计算法BTKC。该算法能够利用k+1长度的k-mer频次统计结果,推导出k长度的统计结果,从而避免了统计每一长度的k-mer频次结果时均需要对所有序列重新遍历。算法时间复杂度分析及实验结果表明,相比于传统FTKC算法,BTKC算法性能提升明显,非常适合于k-mer长度有一定连续变化范围的情况下使用。  (2) k-mer频次可视化软件的设计及应用  当前生物信息学的软件和应用中,一直缺乏一款专门对生物序列的k-mer频次信息进行多维度多层次的统计与分析的可视化软件,因而我们设计了专门针对生物序列数据k-mer及k-mer频次在横向和纵向进行可视化展示的软件。该软件包括序列下载、序列格式转换与解析、序列数据k-mer频次统计、k-mer频次可视化展示等功能。并提供了两个适用于该软件的典型应用,分别是模式串的查找与频次展示、扩展的序列Logo图生成。
其他文献
近年来,随着互联网经济的异军突起,推荐系统的作用日益凸显,并成为研究热点之一。推荐系统通过研究用户的兴趣偏好和信息需求特征,将用户感兴趣的信息、产品等资源主动、智能
图上最短路径问题是一个经典问题,在诸多领域有着广泛的应用,路网上交通导航就是其中尤为重要的一项应用。随着信息化的高速发展,路网趋于精细,数据量较大;比如纽约市路网地图就
每年发生大量的交通事故中由疲劳驾驶引起的数以万计,所以如何降低因疲劳驾驶引起的交通事故发生概率具有极其重要的意义。基于驾驶员视觉特征的疲劳检测技术因为其非接触式
多传感器数据融合技术在军事和民用领域有着广泛的应用,是目前热门的研究领域之一。本文以多传感器数据融合系统为研究对象,以数据融合算法为侧重点主要做了如下工作:首先,针
云计算是新兴商业计算模式之一,是并行计算、分布式计算和网格计算的发展。云计算充分利用成熟的虚拟化这一关键技术封装打包数据中心的资源,通过互联网将服务提供给用户,以满足
伴随着网络和信息技术的发展,互联网已经融入到了我们生活的方方面面。特别是随着Web2.0技术的应用,社交网络迅速兴起,如QQ空间(Qzone)、人人网(Renren)、朋友网(Pengyou)、
随着互联网的飞速发展,HTML5标准的提出并广泛被各种浏览器所支持,传统的基于二维图形的网络页面已经不能满足用户的视觉和交互需求。在这一趋势下,通过HTML5引入并实现的Web
近年来,随着物联网的快速发展和人们对传感器网络研究倍加关注,作为物联网核心技术的无线传感器网络也得到了广泛的应用和研究。由于无线传感器节点具有价格低廉、功耗低和体
随着软件行业的发展,软件开发技术的提高,软件产品的规模变得日益庞大,软件的复杂度不断增加,软件测试日益得到重视和变得专业化。软件测试作为保证软件质量的重要环节,测试
无线传感器网络是一门综合了计算机技术、现代通信技术、微电子技术、嵌入式系统、分布式信息处理等理论的新兴科学。它是由大量具有感知能力、计算能力和通信能力的微型传感