高通量计算在大规模人群队列基因组数据解析应用中的挑战

来源 :数据与计算发展前沿 | 被引量 : 0次 | 上传用户:flowerofwind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]为推动精准医学研究的发展,世界各国相继开展大规模人群队列基因组测序计划,通过对数以万计个体进行全基因组测序,构建人群特异的基因组变异图谱.这些海量基因组数据产出,对计算速度和计算通量提出了新的要求,迫切需要速度更快、通量更高的计算平台来处理与解读这些生物序列信息.由于基因组数据自身的特点、数据解析过程的多样性和复杂性,致使在大规模人群基因组变异解析中高通量计算资源的使用效率低、计算速度慢、耗时长,服务器与本地数据交换不便,因此需要针对基因组变异解析进行多方面优化,通过软硬件开发来解决应用中存在的多种问题.本文拟对这些优化方法进行分析和综述.[方法]在高通量计算系统中,系统IO瓶颈问题是基因组变异解析并行化效率低的主要原因,通常采用基于分布式非结构化存储数据库以及对象存储系统,以提升IO的大规模可扩展能力,解决分析流程中存在的IO问题;同时通过基因组数据的高效压缩算法,可减少数据IO和传输压力.为了加快基因组数据解析速度,可在软件上采用神经网络等算法优化基因组解析方法,在硬件上使用FPGA(现场可编程逻辑门阵列)或GPU异构计算,以提高数据处理速度.[结果]综合来看,以上多方面的优化可以大幅提升基因组数据分析中高通量计算的性能,解决基因组数据处理中的存储墙问题,提高高通量计算资源的使用效率,大大减少全基因组变异解析的计算时间.[结论]高通量计算在基因组数据解析应用中存在的多种问题,可通过软硬件开发和优化得以解决,从而显著改进高通量计算在大规模人群队列变异解析应用中的计算效率,促进今后人群队列基因组研究与应用的广泛开展.
其他文献
[目的]高超声速湍流直接数值模拟(DNS)对空间及时间分辨率要求高,计算量非常大.过大的计算量及过长的计算时间是导致DNS难以在工程中被大范围应用的重要原因.为加快计算速度,
[目的]为应对超大规模计算系统所带来的监控数据风暴、作业调度稳定性及灵活性、网络复杂度及高效性等实际挑战,本文分享了近期真实实践的经验和解决办法.[应用背景]当计算系
[目的]在大数据处理领域,分布式计算系统得到广泛应用,它们的可扩展性得到重点关注,但其绝对性能往往没有得到重视.我们希望提出科学合理、与时俱进的度量标准,对分布式系统
高性能电工钢是我国现代化建设、高质量发展和人民生活不可缺少的重要原材料产品之一,也是我国电工钢产业高质量发展及产品升级、节能环保的发展方向.本文从我国电工钢生产能
[目的]本文主要介绍材料基因方法在一系列材料设计中的应用,如开发高性能催化材料、热电材料、金属有机框架(MOFs)材料、锂电池材料以及钙钛矿型光伏材料.[方法]将高通量计算