并行生物计算集群的构建及性能评价和肿瘤转移相关基因的基因组聚类及功能注释

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yaer7201982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
课题一并行生物计算集群的构建及性能评价目的:研究并行计算集群的构建策略和实现方法,生物信息学并行软件的配置和安装以及在生物信息学方面的应用。并且探讨并行计算集群的性能,在加快生物信息学研究方面的意义。方法:采用从头构建集群的方法。1个主节点和5个计算节点通过千兆网卡和千兆交换机相连。主节点从光盘安装RedHat Linux AS4 update2操作系统,配置DHCP、NFS、TFTP等服务器,通过PXE网卡启动方式从网络安装所有计算节点的Linux操作系统。各节点间建立无须密码验证的安全层通讯链接。主节点配置MPICH并行编译和运行环境,Ganglia图形化集群监控工具和OpenPBS作业管理系统。并行环境构建成功后,继续安装序列数据库搜索、EST聚类和拼接、分子对接和分子动力学模拟等并行生物信息学软件模块。最后采用不同的计算任务和不同的运行参数测试集群的并行运算性能,并且根据参数调整达到并行计算的最佳性能。结果:成功构建了并行计算环境,并且成功安装了常用的生物信息学软件的并行版本。通过OpenPBS作业管理系统使得计算资源分配更为合理。通过Ganglia图形化集群监视工具,可以很直观的监测各个节点的工作状态、任务运行情况和作业排队情况。授权用户可以通过主节点登陆或SSH远程登陆方式提交运算任务。该生物并行计算集群能够胜任诸如序列数据库检索、EST序列聚类和拼接、分子对接和分子动力学模拟等繁重计算量的生物信息学研究。通过我们的性能测试结果,该集群性能表现为超线性加速,6个节点的并行计算速度比单节点运算速度提高了近8.33倍。结论:我们已经实现并行生物计算集群的构建,其计算性能达到了超线性加速。该生物计算集群可以在局域网范围内实现计算任务提交,对本实验室的生物学研究具有巨大的推动作用。课题二肿瘤转移相关基因的基因组聚类和功能注释及新的肿瘤转移相关基因的高通量虚拟筛选研究背景及目的:研究目前所有已知肿瘤转移相关基因的功能聚类及注释,研究人类基因组上肿瘤转移相关基因的编码热区及功能组成。并以已知的肿瘤转移相关基因核酸序列为基础,利用并行生物计算平台,从人类EST数据库挖掘新的肿瘤转移相关基因。以期发现基因功能与基因组定位间的内在联系,进一步阐明肿瘤转移的分子机理和寻找更多的肿瘤转移阻断靶点。方法:自网络公共数据库获取已知的肿瘤转移相关基因以及所有人类参考序列基因的基因组定位信息,通过人工检视修改及MySQL数据库排序整理,以及ID格式转换后,以perl语言编程,采用四格表卡方统计方法计算有统计学显著差异的肿瘤转移相关基因在人类基因组上的编码热区。对于所有人类肿瘤转移相关基因进行Gene Ontology、InterPro、KEGG、BioCarta等基因功能、结构域、代谢通路等功能注释,并且利用DAVID工具的模糊聚类算法建立基因一术语相似性矩阵,进行功能聚类。自GenBank下载肿瘤转移相关基因的所有参考序列及相关mRNA序列,下载最新的人类EST数据库并对数据库进行格式化。用所有肿瘤转移相关基因的蛋白参考序列共1115条对est_human数据库进行TBLASTN检索,e值小于10的匹配EST序列再对nr蛋白数据库进行BLASTX检索,并对人工检视过的候选基因EST行预处理(去除载体,屏蔽低复杂度序列和串联重复序列),再以P PHRAP进行序列延伸。对有意义的重叠群进行进一步的生物信息学分析,以期获得新的肿瘤转移相关基因。结果:下载人类肿瘤转移相关基因和所有人类参考序列基因,经过预处理后,获得无冗余的高质量人类肿瘤转移相关基因序列787条,人类参考序列基因16849条。采用perl语言编程及卡方统计方法,计算所有肿瘤转移相关基因在人类基因组上的分布情况,根据统计学结果获得有显著意义(p<0.05)的编码热区共13个,分别位于2p25.2-2q31.3、3p14.2-3q22.1、4p16-4q31.23、6p24-6p23、8p23.1-8q24.2、9p24.2-9q34、11p15.5-11q24、12p13、13q12.3-13q13.3、15q13、17p13.3、18p11.32-18q21.3、Xp22.32-Xq28。肿瘤转移相关基因聚类结果表明有9组基因对肿瘤转移有较大贡献,分别为a、丝氨酸类内肽酶抑制物;b、各类生长因子;c、各类跨膜细胞表面受体;d、蛋白质水解酶类;e、调节细胞凋亡的基因;f、各类蛋白激酶;g、中间丝细胞骨架组成蛋白;h、核转录因子及受体;i、参与DNA损伤修复的基因。将1115条肿瘤转移相关基因蛋白参考序列对人类EST数据库行TBLASTN搜索,共获得e值小于10的匹配EST序列31293条,e值小于10的匹配EST序列再对nr蛋白数据库进行BLASTX检索。将所有匹配EST序列进行预处理,RepeatMasker处理结果显示总共屏蔽碱基数量247375bp,占碱基总数的6.89%。采用P_PHRAP对预处理的EST序列进行聚类和拼接,共获得1681条重叠群,EST单体3125条,平均每个重叠群有16条左右EST组成。人工检视重叠群后发现潜在的候选基因重叠群有64条。结论:采用生物信息学方法成功鉴定了肿瘤转移相关基因的基因组编码热区。采用模糊聚类算法表明有9组基因对肿瘤转移有较大贡献。这9组基因覆盖了肿瘤转移经典理论的各个环节。通过采用已知序列挖掘人类EST序列,发现潜在的候选新基因重叠群,表明EST数据库挖掘是发现新基因的良好策略。并行计算环境为该研究提供了有力支持。
其他文献
多烯紫杉醇在体内外对人肝细胞肝癌抑制生长及放射增敏实验研究第一部分 多烯紫杉醇抑制人肝细胞肝癌(HCC)生长及诱导细胞凋亡目的: 在体内外探讨多烯紫杉醇(docetaxel)对人HCC生
中国先秦时期出现了贤能政治思潮,以后逐渐形成了以选贤任能为目标的选举制度。二者相辅相成,共同丰富了中国古代制度文明。贤能思潮以及选贤任能制度是中国历史进化的产物,在历
<正>2018年12月21日上午,长三角虚拟现实创新联盟大会暨长三角虚拟现实教育资源一体化共享研讨会在上海工艺美术职业学院徐汇校区(漕溪北路502号)召开。来自长三角地区的数十
肝细胞癌是我国致死率居第二位的恶性肿瘤,侵袭力强,易转移,预后差。尽管人们做出巨大努力,但对其发病机制仍了解不多。在亚洲乙肝病毒感染是HCC的最主要相关因素。AFP是目前唯一
在小学数学教学中,恰当运用多媒体技术创设情境,以形象、具体、生动、活泼的形式展示教学内容,可有效调动学生的学习积极性,增强学生创新意识,能使学生高效地获取知识、发展
截顶正二十面体是目前应用广泛的球体张拉整体结构模型之一。它具有60个顶点,12个五边形边,20个六边形面。球壳在均匀的伸展状态下,沿该模型的棱的方位最容易裂开。前人从全
[摘要]初步探讨院前急救领域人本管理的作用及实施。通过提升院前急救的管理水平,来加强队伍建设、更好地为人民服务。  [关键词]院前急救;人本管理  [中图分类号]R192;R459 [文献标识码]A [文章编号]1673-9701(2009)22-158-02
2005和2006年研究了灵武长枣新生枣头三级摘心对生长结果的影响,结果表明。新生枣头摘心对结果枝有良好的生长发育效应,有利于培养健壮结果枝组和骨干枝,是提高产量增加收入的一
利用现代化手段可以方便快捷地得到有关文献的全文。介绍利用全文数据库、图书馆馆藏、图书馆文献资源共享、免费网络期刊和图书等几种获取全文医药文献的途径,使有用的文献信
人表皮生长因子受体2(human epidermal growth factor 2,HER2)在乳腺癌、卵巢癌、前列腺癌、胃癌、肺癌等多种上皮细胞来源的恶性肿瘤中过表达,而在正常组织中表达水平很低或