论文部分内容阅读
分子对接技术是计算机辅助药物设计的主要方法之一,随着计算机技术、药物化学和分子生物学的发展,越来越多的小分子化合物和靶标蛋白在不断地被发现。人们在新药研发中的分子对接实验中将遭遇大规模数据计算与海量数据存储的双重挑战。计算机技术和互联网技术的蓬勃发展带来了云计算技术,云计算技术带来了强大的大数据处理能力。这种大数据处理技术为我们解决分子对接中的大规模数据计算与海量数据存储困难提供了新的思路和解决方法。自从Hadoop成为开源组织Apache的独立项目后,由于其高性能、低成本的优势,在有大数据处理需求的用户中得到了广泛使用。本论文通过对分子对接算法的分析,针对分子对接中的数据存储、査询和对接实现等关键问题,搭建了一个具有5个节点的Hadoop集群,并在基于Hive技术,构建了一个存储分子对接数据的云数据库,提供查询和分析功能。从用户查询需求角度出发建立元数据表,利用MapReduce计算框架对配体分子文件和对接结果文件进行解析,生成对应的数据文件存入云数据库。本文将以Hadoop和Hive技术为背景,对并行化的分子对接流程中的相关问题进行研究,主要工作如下:1.对分子对接算法进行理论分析,表明Autodock Vina实现分子对接原理和高效性,以及基于云平台处理分子对接问题的可行性;2.基于Hadoop搭建一个分布式集群用作实验平台,并基于Hive构建一个支持海量数据管理的云数据库,提供数据查询和分析功能;3.利用MapReduce框架实现并行分子对接功能,针对Hadoop调用第三方软件AutoDock Vina的关键问题,设计Map函数和Reduce函数,分别实现分子对接任务的分发和对接结果的汇总;4.利用MapReduce框架对分子对接结果进行处理,筛选出所有配体小分子及其相应的打分值存入到HDFS,并导入Hive数据库供用户查询、分析;5.通过对比单任务和基于云平台的分子对接两种方式来测试云平台对分子对接效率的提高,通过数据加载、字段组合查询、多表连接查询、排序查询等方法对分子对接结果进行测试。本文的研究工作可为云计算技术在分子对接研究领域提供示范。