基于Spark集群的H+H管道并行化研究

来源 :内蒙古农业大学 | 被引量 : 0次 | 上传用户:qq382585541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的迅猛发展,生物信息领域产生并积累了海量的基因测序数据。基因序列定量分析能够发现核酸和蛋白质上的功能结构和遗传信息等关键信息,是基因数据分析的重要环节之一。本文针对生物信息科研人员由于缺乏计算机专业技能,导致在基因定量分析过程的操作困难问题,提出了H+H(HISAT2+HTSeq)工作流管道的自动化分析方法。该方法实现了HISAT2和HTSeq自动化串联,它将HISAT2的比对输出结果直接作为HTSeq的输入数据,从而完成定量分析的自动化工作流。它在一定程度上减少计算机操作步骤,降低数据分析的操作难度,为科研人员提供了便捷的方式。此外,由于基因测序数据集庞大和基因序列比对过程的计算复杂度高,导致了基因序列定量分析效率低和耗时长的问题。针对H+H分析的耗时长问题,本文提出了基于Spark集群的H+H工作流管道并行计算方法,并通过对比实验证明了在不改变计算准确率的条件下,相比于单机H+H自动化工作流管道,基于Spark集群的H+H工作流管道可以有效提高其计算效率。综上,本研究不仅实现了基因定量分析自动化工作流,提供了便捷分析方式;而且提出了基于Spark大数据技术的可扩展H+H自动化工作流管道并行计算方法,可以灵活的提高H+H自动化工作流管道的分析效率,对推动生物信息领域中基因数据分析方法的发展具有重要意义。
其他文献
学位
湿地生态环境建设是我国生态安全体系建设的一个关键环节,也是实现经济与社会可持续发展的重要基础。乌梁素海湖泊湿地是世界范围内干旱半干旱地区最具代表性的湿地之一,也是东亚-澳大拉西亚迁飞路线和中亚迁飞路线重要的繁殖地。上世纪九十年代至今,对乌梁素海湖泊湿地的过度开发导致乌梁素海生态环境破坏严重,同时乌梁素海生态补给水量减少,造成乌梁素海湿地生态功能严重退化,湖泊水体富营养化严重,沼泽化进程加快。对乌梁
学位
人类对矿产资源的需求日益增加,频繁的采矿活动造成了严重的环境污染,内蒙古西部地区铬矿资源丰富,常年的开采导致了矿区周边土壤环境的铬污染比较严重,威胁着动物、植物和人体的健康,因此急需开发快速有效的土壤铬污染修复技术。纳米级别的材料由于其高比表面积效应、优越的小尺寸效应,且具有很强的还原性、吸附性和络合能力,还不会造成二次污染,常被用作去除土壤中的重金属。近些年很多研究表明纳米零价铁材料对土壤铬污染
学位
草地牧草的识别与分类是草原荒漠化治理和数字化监控的重要环节,有效识别牧草种类可以为解决草原荒漠化问题提供较大帮助。高光谱成像技术是光谱技术和成像技术结合的多维信息检测技术,可以同时提取图像信息和光谱维度信息,从而提高成像的精度与可靠性并加强对物体的识别探测能力。因此本文尝试采用高光谱成像技术解决草地牧草的识别分类问题。首先使用高光谱设备实地拍摄草地牧草图像并建立数据库,然后提取草地牧草高光谱图像特
学位
中国作为一个农业大国,当前正面临着严重的水资源短缺的问题。农村生活污水排放量巨大,虽然污水处理技术有较大提高,但污水处理率仍然较低。我国在发展农业的同时,也存在着环境问题、灌溉用水问题。其中,农业废水中的氮、磷等营养物质含量较高,将其直接排放到河水,会引起水体的富营养化和环境污染。因此,在我国南方平原水网区,将生活污水尾水等农村低污染水作为一种替代水源进行稻田灌溉有着良好的应用前景。但是,尾水合理
学位
鼢鼠头骨外形指标是鉴定鼢鼠年龄组成的重要依据。传统的鼢鼠头骨外形指标测量是由人工利用游标卡尺直接测量,不仅工作量大,且测量时不能避免直接接触头骨标本,从而导致标本产生不同程度的破损,影响后续研究使用。同时,在此过程中造成测量误差出现,降低测量结果精度。针对上述问题,本文以不同性别、年龄的鼢鼠头骨标本为研究对象,利用三维激光扫描技术,研究了基于三维点云数据的鼢鼠头骨外形指标无接触测量的方法及应用。主
学位
在畜牧业、农业以及草地管理项目中,草地牧草识别是草地数字化最重要的环节之一。目前牧草识别主要依靠人工识别,不仅需要专家资源还需要实地采集样本,费时费力,效率较低,因此,本文以牧草为研究对象,实地采集牧草图像并建立数据库,研究牧草图像快速分割识别分类方法。主要研究内容如下:(1)采集并建立牧草图像数据集。本文的牧草图像数据集均通过佳能相机EOS60D在自然光下拍摄。共采集六类牧草图像,分别为冰草、南
学位
布鲁氏菌引起的布鲁氏菌病是重要人畜共患传染病之一,在世界范围内广泛流行,给养殖业和人类健康造成了严重威胁,其致病机制和免疫机制尚不明确。布鲁氏菌毒力基因和免疫调控基因及他们之间的关系往往淹没在海量科学文献数据中,导致全面理解和系统性研究其致病和免疫分子机制十分困难。通过构建布鲁氏菌病关联知识库,为系统性研究布鲁氏菌的致病和免疫机制,研发治疗药物和疫苗提供新的思路和线索。本文立足于文献挖掘,以布鲁氏
学位
随着城市犬类数量的激增,社会出现一系列犬类管理问题。因此,智能化犬类管理的建设成为文明城市建设的重点之一。对犬类的精确识别是智能化犬类管理的关键,而犬类面部检测是其中的核心部分。因此,本文以Faster R-CNN为研究基础,结合可变形卷积网络、残差网络、特征金字塔网络等技术开展犬类脸部检测的研究。本文的研究主要用于协助相关部门解决城市居民饲养犬类引发的卫生、治安等问题,简化犬只检疫、疫苗接种、区
学位
东北鼢鼠是内蒙古草原地区的主要鼠害之一,其头骨外形参数能够反映它的年龄组成与生长状况。传统的鼢鼠头骨外形参数测量方式主要是人工测量,但是依靠皮尺、游标卡尺、卷尺及测杖等工具的手动测量方式存在测量耗时长、精度低、测量结果误差大等问题。针对上述问题,本文以东北鼢鼠头骨为研究对象,研究基于三维激光扫描技术的鼢鼠头骨三维重构和外形参数的测量。论文主要开展的研究内容如下:(1)针对具有复杂背景的鼢鼠头骨点云
学位