论文部分内容阅读
宫颈癌(cervicalcancer)是最常见的妇科恶性肿瘤之一,发病率仅次于乳腺癌位女性肿瘤的第二位。据国际癌症研究中心(InternationalAgencyforResearchonCancer,IARC)最新统计显示,在2002年全球宫颈癌估计有49.3万新发病例及27.3万死亡病例;而83%新发病例及85%死亡病例发生在发展中国家。作为发展中国家最常见的妇科癌症,它占了2/3病例,并将继续成为严重的健康问题。在全世界范围,80-95%宫颈癌的病理类型是鳞状细胞癌。在发达国家,宫颈癌的低发病率,在很大程度上归因于有效的宫颈癌筛查。在发展中国家,由于宫颈癌筛查工作不完善,缺乏有效的、身体能接受的、经济上能负担的治疗措施,故发病率及及死亡率均较发达国家高。尽管如此,宫颈癌的病因尚无定论,一般认为其发病与早婚、性生活紊乱、过早性生活、早年分娩、多产、子宫颈裂伤、包皮垢、经济状况、种族和地理环境等因素有关。而近年发现通过性交感染某些病毒如单纯疱疹病毒Ⅱ型、人乳头瘤病毒、人巨细胞病毒等可能与宫颈癌发病有一定关系。宫颈癌的发病受环境和遗传双重影响,具体机制尚待进一步研究。由于宫颈癌存在较长的癌前病变阶段,所以早期诊治对于宫颈癌的预后十分重要。
近年来,随着基因芯片技术在分子生物学中的应用与发展,为研究工作者提供了快速、高通量、高效率的检测手段;目前基因芯片技术在DNA序列测定、基因表达分析、基因组研究、基因诊断、药物研究与开发,以及工农业、食品与环境监测等领域得到广泛应用;这样势必产生了大量高通量数据资料。后续数据挖掘与分析是一项艰巨的任务,因此许多研究者建议由政府机构来组织、存放、免费管理这些高通量数据以便更好的分析。所以NCBI(NationalCenterforBiotechnologyInformation)启动了基因表达数据汇编计划,目的是构建一个基因表达综合数据库(GeneExpressionOmnibus,GEO)。GEO是为了建立一个在线的基因表达和分子杂交数据库资源,以便更好地利用和挖掘这些数据。GEO凭着其操作简单、数据全面、免费共享等特点,将在基因表达、数据挖掘、信息推广等中发挥重要作用,为后续研究提供了更好的平台。因为GEO是一个免费共享的网络资源,所以可以很容易在该数据库中检索并下载数据。
基因芯片技术在宫颈癌研究中的应用主要包括:宫颈癌基因表达谱的研究、宫颈癌分子流行病学的研究、宫颈癌病理分型的研究、宫颈癌放疗敏感及抵抗的研究、宫颈癌治疗药物的筛选、宫颈癌基因组的研究。本课题旨在利用GEO中现有的宫颈癌相关基因芯片数据,结合生物信息学方法对数据进行挖掘与分析,从分子水平揭示宫颈癌的发病机制,为临床早期诊治提供有效工具。
本课题的目的及意义在于:首先,结合临床医学知识,从GEO数据库大量基因芯片数据集中,找到有价值的宫颈癌相关基因芯片数据,并进行进一步挖掘探索,以期望找到对宫颈癌诊治有帮助的基因靶点。其次,从GEO数据库下载一些未被分析的数据集进行分析,或者从不同角度和深度进一步分析别人的基因芯片数据集,不仅能得到有价值的信息,而且节省了大量不必要的研究经费。这将是基因芯片数据分析的一个重要分支。
本课题的材料与方法:在GEO数据库中利用"cervicalcancer"作为关键词进行检索,在25个检索结果中选择了序列GSE4482的芯片数据进行再挖掘,本研究对该系列中同一芯片平台GPL4926的所有样本进行分析,它们分别是GSM177286、GSM177287、GSM177288、GSM177289、GSM177290、GSM177292、GSM177293。从GEO中下载上述7个样本,利用BRB-ArrayTools(3.5版)软件包对数据进行统计学分析,利用软件包中classcomparison工具筛选宫颈癌的差异表达基因,clustering工具分析基因表达模式。并对差异基因进行GO基因本体分析,了解其功能分类,利用KEGG及PANTHER在线分析差异基因的生物学通路。最后利用ExPASY集成数据库对人类YPEL5蛋白的结构与功能进行了预测。
本研究的内容和过程分为两部分
第一章:宫颈癌相关基因的筛选及分析。
本章用BRB-ArrayTools(3.5版)对GSE4482系列中,同一芯片平台GPL4926所有样本进行统计学分析,找到宫颈癌组织与正常宫颈组织的差异表达基因,并对差异基因进行分层聚类分析及GO基因本体分析,利用KEGG及PANTHER在线分析差异基因的生物学通路。结果共发现36条差异表达基因,上调的23条,下调的13条;差异基因分层聚类分析共分为五类。这些差异基因的功能大致分为:物质的转运、细胞骨架成分、转录调控、细胞信号传导、细胞周期、细胞粘附、细胞凋亡等。参与的生物学途径有MAPK信号途径、凋亡途径、细胞粘附分子、细胞周期等。并对差异基因进行文献挖掘,检索它们在肿瘤中的表达是否发生改变,明确它们在肿瘤发生中所起的作用。
第二章:人类YPEL5蛋白的结构与功能预测。
本章利用集成数据库ExPASY对前一章筛选出的宫颈癌相关候选基因YPEL5编码的YPEL5蛋白,进行了结构与功能预测。检索了该蛋白的结构功能域及家族谱系图,YPEL5属于一类含有Yippee样结构域的蛋白质,这类蛋白质在大多数真核生物都有表达。对该蛋白的理化性质进行了预测,提示YPEL5可能是非极性疏水性蛋白。并对其功能位点进行预测,发现它具有APPC-Dbox(APPC结合破坏模序)、BRCT磷酸肽配体、细胞周期蛋白识别位点、MAPK对接模序等功能位点。而这些功能位点与调节细胞周期、DNA修复、MAPK细胞信号途径有关,所以YPEL5可能在上述过程中起作用。
综上所述,利用生物信息学方法能有效对基因芯片数据进行分析,挖掘其内在的信息;并得出以下结论:
1、宫颈癌是由多因素所致,多个基因表达发生改变。差异表达基因参与的生物学通路有细胞周期、p53信号途径、细胞粘附、凋亡信号途径、MAPK信号途径、EGF受体信号途径、FGF信号途径等;宫颈癌的发生与发展可能与这些生物通路相关。
2、通过对差异基因的文献进行挖掘,值的注意的是LY6D、SFN、PCNA、PTPRA在多种肿瘤中表达上调,DUSPI在肿瘤中表达下调,这与本研究相符。并考虑LY6D、SFN、DUSP1作为宫颈癌肿瘤标志物及治疗的新候选基因靶点,也是下一步研究的重点。
3、本研究首次利用生物信息学方法对宫颈癌相关候选基因编码蛋白YPEL5的结构与功能进行预测,并有了初步认识,为下一步实验探索提供方向。
4、通过对YPEL5的功能位点进行预测,发现它具有APPC-Dbox(APPC结合破坏模序)、BRCT磷酸肽配体、细胞周期蛋白识别位点、MAPK对接模序等功能位点。而这些功能位点与调节细胞周期、DNA修复、MAPK细胞信号途径有关,所以YPEL5可能在上述过程中起作用。而本研究发现它在宫颈癌中表达显著下调,它可能是通过上述途径在宫颈癌的发生和发展中起作用,需要进一步实验验证。