论文部分内容阅读
在人类基因组计划的推动下,生物数据海量增加,基因组学与生物信息学相互促进并迅速发展。生物数据库的构建和维护就是生物信息学应用到基因组领域的一个重要体现。这些数据库系统通过计算机科学技术实现对各种生物学数据的存储、管理、搜索,成为生物信息学的重要研究部分,也是生物学研究的重要基础。
北京华大基因研究中心和北京基因组研究所一直致力于基因组学与生物信息学的研究工作。2002年12月完成了籼稻“93-11”的精细图,覆盖度达到6.28X。2004年带领着中、美、英、德、瑞典和挪威六国组成的国际小组,绘制了鸡基因组序列多态性图谱。同年,与西南大学一道,完成了约6X覆盖度的家蚕基因组框架图。这些项目产生了大量的基因组序列与相关数据,为了更好的利用这些信息资源,我们分别开发了水稻基因组信息系统(BGI-RIS)、鸡基因组变异数据库(ChickVD)和家蚕基因组数据库系统(SilkDB)。BGI-RIS不仅提供了水稻最原始的基因组序列,包括自主测序的籼稻(L.ssp.Indica)基因组和来自国际水稻基因组计划的粳稻(L.ssp.japonica)基因组序列,还整合了详尽的注释信息,包括遗传标记、BAC末端、预测基因、cDNA、高通量嵌合芯片数据、重复单元和基因组多态性数据。ChickVD中主要是基因组变异的数据,包括SNPs和插入删除(InDel),还整合了基因和其他相关特征,包括遗传标记、数量性状位点、cDNAs、鸡中人类疾病的同源基因、原始峰图文件以及参考文献。SilkDB则在基因组范围内整合了基因组组装信息、cDNA、表达序列标签、转座单元、遗传突变、SNPs,以及进行了GO和InterPro等功能注释的基因。SilkDB同时包含了一系列来自野桑蚕(Bombyx mandarina,公认的家蚕祖先)的表达序列标签,以及其他鳞翅目(Lepidoptera)昆虫的基因集。以上所有的基因组数据库系统,都提供了功能强大的搜索引擎系统帮助用户查询数据,开发了界面友好的MapView可视化系统以供浏览,同时还提供一系列的软件工具以帮助用户更好地分析数据,比如BLAST,BLAT。
基因组学的发展,不仅促进了生物信息学的发展,还与其他生物技术进步一起,将表观遗传学推进到基因组水平。DNA甲基化是一种最为广泛的表观遗传修饰,研究表明其异常改变在人类多种重大疾病如肿瘤、精神性和免疫性等疾病中起了非常重要的作用。为了更好地理解DNA甲基化,在对CpG岛文库中克隆进行大规模测序和分析的基础上,我们在整个人类基因组水平确定了CpG岛。在我们的研究中,总计18,816条新的CGI克隆被测序,与从Sanger中心和UHN获得的26,565条CGI克隆序列一起,通过与人类基因组进行序列比对,最后共聚类成18,240个基因组位点(Genomic Loci)。这些位点如果能与预测的CGI相匹配,则称为CGI位点,否则称为非CGI位点。CGI位点与非CGI位点具有明显差异性,包括CGI位点含有更高的GC含量和CpG比值,大部分(>60%)位于远端启动子区域内,有更少的重复序列等。在此基础上,我们挑选出具有代表性的CpG岛克隆用作探针设计了9K的人类CGI芯片。使用该芯片,我们对Ges-1和MGC-803两株细胞系的甲基化谱进行了比较分析。对获得的差异CpG岛探针相关的基因进行了GO分析和KEGG代谢通路分析,结果显示大量参与多种重要生物学功能的基因在癌症细胞系中可能发生了甲基化的调控。显示基于该芯片建立的DNA甲基化谱分析平台具有重要的科研价值。
在人类的所有疾病中,癌症是头号杀手,并且继续威胁着全人类的健康。为了研究DNA甲基化,基因表达与癌症的相互作用,我们开发了MethyCancer:一个关于人类DNA甲基化与癌症的公共数据库。MethyCancer高度整合了来自公共资源的DNA甲基化数据、癌症相关基因、变异及癌症信息数据,以及来自我们自己大规模测序的CpG岛克隆。不同类型数据之间的相互联系被深入分析并在MethyCancer中进行体现。我们进一步开发了一个对用户友好的搜索工具,方便用户更好的使用数据及数据间的相互联系。一个图形化的MethyView系统在基因组学与遗传学的数据背景中展示了DNA甲基化,将促进我们更深理解在肿瘤细胞中基因表达戏剧性变化的遗传学及表观遗传学机制。