生物序列数据K-mer频次统计与可视化研究

被引量 : 0次 | 上传用户:litang345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年来测序技术的飞速发展,人类产生了海量的生物序列数据,亟需通过有效的计算手段进行分析和处理。而在众多的生物序列分析与处理问题中,生物序列数据的k-mer频次信息是一种非常关键且重要的序列特征,它在序列比对、序列拼接、序列聚类、模体发现等诸多的问题上得到了广泛的应用。面对大规模数据,k-mer频次统计的算法以及其可视化问题就显得至关重要,本文就围绕着这两个方面进行研究,其主要内容和贡献包括:(1) k-mer频次统计算法研究按照k-mer频次的计数方式,该问题可以分为两类:全序列k-mer频次统计、序列间k-mer频次统计。对于全序列k-mer频次统计问题,本文先对有限内存和磁盘空间限制下的DSK算法进行了分析,该算法主要存在磁盘I/O开销过大。对于同样规模或更大规模的问题,云计算平台可以减少各节点的磁盘I/O开销,因此,我们对DSK算法进行了适用于MapReduce云计算框架下的并行化改造,提出了PDSK算法。理论分析及实验结果表明,PDSK算法能够对数据进行均匀划分,减小各个节点的磁盘I/O开销,提高全序列k-mer频次统计的效率。对于序列问k-mer频次统计问题,通过对传统的基于前向遍历的FTKC算法进行改进,我们提出了新的基于逆向遍历的k-mer频次统计算法BTKC。该算法能够利用k+1长度的k-mer频次统计结果,推导出k长度的统计结果,从而避免了统计每一长度的k-mer频次结果时均需要对所有序列重新遍历。算法时间复杂度分析及实验结果表明,相比于传统FTKC算法,BTKC算法性能提升明显,非常适合于k-mer长度有一定连续变化范围的情况下使用。(2) k-mer频次可视化软件的设计及应用当前生物信息学的软件和应用中,一直缺乏一款专门对生物序列的k-mer频次信息进行多维度多层次的统计与分析的可视化软件,因而我们设计了专门针对生物序列数据k-mer及k-mer频次在横向和纵向进行可视化展示的软件。该软件包括序列下载、序列格式转换与解析、序列数据k-mer频次统计、k-mer频次可视化展示等功能。并提供了两个适用于该软件的典型应用,分别是模式串的查找与频次展示、扩展的序列Logo图生成。
其他文献
为了解微尺度扩散火焰燃烧特性,选用液体燃料,进行燃烧实验,并利用理论模型对层流火焰高度进行了预估。结果表明:毛细管层流扩散火焰尺寸随燃料流量的增加而增大,水平方向当
据美国《大众科学》网站8月1日(北京时间)报道,热光伏系统(TPV)能将热转化为电,但其转化效率一直比较低下。美国科学家研制出了一种新方法,对一块钨的表面进行操作后,
在医疗损害纠纷中,归责原则的问题关系到医患双方的切身利益,直接影响到案件的审理结果。因此,医疗损害的归责原则引起社会的广泛关注,成为一个社会热点。2009年颁布的《侵权责任
随着社会保障制度的不断完善,老年人精神需求的满足已成为健康老龄化的重要内容和标志,然而无论在现实中还是在理论上,老年人的精神需求与满足都仍然比较缺乏,那么精神需求满
混合整数演化策略成功地应用于现实生活中的混合整数优化问题。同时,该算法也面临着适应值评估困难的混合整数优化问题的挑战。本文提出了两种排序模型用于协助混合整数演化
葡萄糖是一种在临床化学、生物化学、环境监测、葡萄糖生物燃料电池和食品化学方面具有广泛应用的物质,高灵敏度的检测葡萄糖的方法是近期的热点研究领域之一。与检测葡萄糖
春秋时期上承西周下启战国,是一个宗法体制由稳固向松动转变的时期。春秋时期社会政治秩序的维持是靠着霸主或者盟主。齐国、鲁国的关系就是在这样的大背景下发生发展的,其中贯
人类社会进入到电气化时代以来,电气设备逐渐应用到人类生产生活的各个方面。电机作为一种动力设备,在现代工业生产中应用非常广泛。近几年来我国的电机市场飞速增长,年销售
家庭暴力是存在于世界所有国家的现实问题。妇女在家庭暴力中是最大的受害者。家庭暴力是一种严重的基于性别的暴力。采取立法措施赋权女性,反对家暴是国际社会维护妇女人权的
函数概念是中学数学的基本概念之一,又是学生学习的难点.一次函数作为初中生在初二最先接触到的函数概念,对于学生后续学习函数概念,乃至提高数学素质都起到至关重要的作用.已有研