论文部分内容阅读
要发展新的预防、诊断和治疗肝癌的途径,必须了解肝组织形成肿瘤的复杂过程的分子机制,以基因研究为主要内容的分子生物学为阐明肝癌的发病机制提供了一个独特的机遇和切入点。建立“人肝和肝癌组织中表达的基因数据库信息系统”,为检测非正常肝组织中表达的基因提供对照或研究的平台,与各种类型的肝组织病变或肿瘤组织的基因表达谱比较,进一步发现病变或肝癌组织的基因表达差异,对研究肝癌的发生、发展和癌变的分子机制有重要意义。
作者在研读了多个版本(Release146,147,149,150,153)的GenBank版本说明文件和序列源文件之后,在文中对GenBank数据文件的格式做了详细分析。
GenBank的数据格式是由NCBI定义、维护的,由于其格式的特殊性和复杂性,GenBank文件所包含的数据信息不能被其它软件工具直接提取,所以,在获取了GenBank格式的数据源文件之后,就需要有一个工具能够分离、提取出所需要的数据信息,并且转换成我们想要的数据格式;同时,由于一般的数据库管理系统(作者使用的是MySQL5.0.16-standard)在从外部数据文件导入内部表的时候,都要求外部数据文件的格式必须是:文件的一行对应内部表的一条记录,一条记录中的各字段以TAB制表符(或空格)相间隔。因此,这就需要将GenBank格式的文件作为输入文件,经过数据抽取、转换工具的处理,输出能够被数据库管理系统识别、导入的数据格式文件。鉴于以上要求,作者利用VisualC++6.0的可视化、多线程编程技术开发了相应的工具——BioETL(全称BiologicDataExtractandTransformTool)。
服务器的硬件、软件环境配置对整个系统的开发,以及运行的稳定性和效率起到至关重要的作用,所以,作者对服务器上运行的服务软件做了精心的挑选和配置。
建立现代人的DNA序列一次数据库bioserv,不但为建立人肝和肝癌组织表达的基因二次数据库hsliver提供了数据来源,而且也为其它二次数据库和研究奠定了基础。应用我们开发的各种生物信息学分析软件从hsliver中提取出需要的数据信息进行数据分析,在分子水平上为人肝和肝癌组织的基因研究提供了重要依据。