论文部分内容阅读
课题一并行生物计算集群的构建及性能评价目的:研究并行计算集群的构建策略和实现方法,生物信息学并行软件的配置和安装以及在生物信息学方面的应用。并且探讨并行计算集群的性能,在加快生物信息学研究方面的意义。方法:采用从头构建集群的方法。1个主节点和5个计算节点通过千兆网卡和千兆交换机相连。主节点从光盘安装RedHat Linux AS4 update2操作系统,配置DHCP、NFS、TFTP等服务器,通过PXE网卡启动方式从网络安装所有计算节点的Linux操作系统。各节点间建立无须密码验证的安全层通讯链接。主节点配置MPICH并行编译和运行环境,Ganglia图形化集群监控工具和OpenPBS作业管理系统。并行环境构建成功后,继续安装序列数据库搜索、EST聚类和拼接、分子对接和分子动力学模拟等并行生物信息学软件模块。最后采用不同的计算任务和不同的运行参数测试集群的并行运算性能,并且根据参数调整达到并行计算的最佳性能。结果:成功构建了并行计算环境,并且成功安装了常用的生物信息学软件的并行版本。通过OpenPBS作业管理系统使得计算资源分配更为合理。通过Ganglia图形化集群监视工具,可以很直观的监测各个节点的工作状态、任务运行情况和作业排队情况。授权用户可以通过主节点登陆或SSH远程登陆方式提交运算任务。该生物并行计算集群能够胜任诸如序列数据库检索、EST序列聚类和拼接、分子对接和分子动力学模拟等繁重计算量的生物信息学研究。通过我们的性能测试结果,该集群性能表现为超线性加速,6个节点的并行计算速度比单节点运算速度提高了近8.33倍。结论:我们已经实现并行生物计算集群的构建,其计算性能达到了超线性加速。该生物计算集群可以在局域网范围内实现计算任务提交,对本实验室的生物学研究具有巨大的推动作用。课题二肿瘤转移相关基因的基因组聚类和功能注释及新的肿瘤转移相关基因的高通量虚拟筛选研究背景及目的:研究目前所有已知肿瘤转移相关基因的功能聚类及注释,研究人类基因组上肿瘤转移相关基因的编码热区及功能组成。并以已知的肿瘤转移相关基因核酸序列为基础,利用并行生物计算平台,从人类EST数据库挖掘新的肿瘤转移相关基因。以期发现基因功能与基因组定位间的内在联系,进一步阐明肿瘤转移的分子机理和寻找更多的肿瘤转移阻断靶点。方法:自网络公共数据库获取已知的肿瘤转移相关基因以及所有人类参考序列基因的基因组定位信息,通过人工检视修改及MySQL数据库排序整理,以及ID格式转换后,以perl语言编程,采用四格表卡方统计方法计算有统计学显著差异的肿瘤转移相关基因在人类基因组上的编码热区。对于所有人类肿瘤转移相关基因进行Gene Ontology、InterPro、KEGG、BioCarta等基因功能、结构域、代谢通路等功能注释,并且利用DAVID工具的模糊聚类算法建立基因一术语相似性矩阵,进行功能聚类。自GenBank下载肿瘤转移相关基因的所有参考序列及相关mRNA序列,下载最新的人类EST数据库并对数据库进行格式化。用所有肿瘤转移相关基因的蛋白参考序列共1115条对est_human数据库进行TBLASTN检索,e值小于10的匹配EST序列再对nr蛋白数据库进行BLASTX检索,并对人工检视过的候选基因EST行预处理(去除载体,屏蔽低复杂度序列和串联重复序列),再以P PHRAP进行序列延伸。对有意义的重叠群进行进一步的生物信息学分析,以期获得新的肿瘤转移相关基因。结果:下载人类肿瘤转移相关基因和所有人类参考序列基因,经过预处理后,获得无冗余的高质量人类肿瘤转移相关基因序列787条,人类参考序列基因16849条。采用perl语言编程及卡方统计方法,计算所有肿瘤转移相关基因在人类基因组上的分布情况,根据统计学结果获得有显著意义(p<0.05)的编码热区共13个,分别位于2p25.2-2q31.3、3p14.2-3q22.1、4p16-4q31.23、6p24-6p23、8p23.1-8q24.2、9p24.2-9q34、11p15.5-11q24、12p13、13q12.3-13q13.3、15q13、17p13.3、18p11.32-18q21.3、Xp22.32-Xq28。肿瘤转移相关基因聚类结果表明有9组基因对肿瘤转移有较大贡献,分别为a、丝氨酸类内肽酶抑制物;b、各类生长因子;c、各类跨膜细胞表面受体;d、蛋白质水解酶类;e、调节细胞凋亡的基因;f、各类蛋白激酶;g、中间丝细胞骨架组成蛋白;h、核转录因子及受体;i、参与DNA损伤修复的基因。将1115条肿瘤转移相关基因蛋白参考序列对人类EST数据库行TBLASTN搜索,共获得e值小于10的匹配EST序列31293条,e值小于10的匹配EST序列再对nr蛋白数据库进行BLASTX检索。将所有匹配EST序列进行预处理,RepeatMasker处理结果显示总共屏蔽碱基数量247375bp,占碱基总数的6.89%。采用P_PHRAP对预处理的EST序列进行聚类和拼接,共获得1681条重叠群,EST单体3125条,平均每个重叠群有16条左右EST组成。人工检视重叠群后发现潜在的候选基因重叠群有64条。结论:采用生物信息学方法成功鉴定了肿瘤转移相关基因的基因组编码热区。采用模糊聚类算法表明有9组基因对肿瘤转移有较大贡献。这9组基因覆盖了肿瘤转移经典理论的各个环节。通过采用已知序列挖掘人类EST序列,发现潜在的候选新基因重叠群,表明EST数据库挖掘是发现新基因的良好策略。并行计算环境为该研究提供了有力支持。