论文部分内容阅读
目的:乳腺癌是一种严重危害妇女健康的、发病率较高的恶性肿瘤,从基因水平上认识乳腺癌的发病过程与发展机制在癌症研究中具有重要意义。基因芯片技术可以自动化、大规模、快速方便地测出癌组织与癌旁正常组织的基因表达水平,将实验得到的数据进行对比,运用数学与计算机的方法进行数据分析与挖掘,可望找出在不同样本中呈现差异表达的基因及其相关基因。而目前大量基因芯片实验结果已公开发布在互联网上,利用互联网可以开放共享这些实验数据。本研究旨在对互联网上下载得到的基因芯片实验数据进行分析与挖掘,以验证挖掘方法的可行性,并且寻找与乳腺癌疾病相关的差异表达基因及其相关基因、开关基因,为进一步研究提供候选基因,并为构建基因调控网络打下基础。方法:本研究运用显著性分析(Significant Analysis of Microarray, SAM)方法、顶级评分基因对(Top-Scored Pair, TSP)方法,来寻找癌组织与癌旁正常组织中呈现差异表达的基因;运用数据挖掘中的关联规则(Association Rule)方法、协同过滤(Collaborative Filtering)方法,来寻找具有相似或相反变化规律的共调相关基因、开关基因。首先从互联网上搜索得到基因芯片实验的原始数据,然后进行必要的数据预处理,再利用SAM、TSP、关联规则、协同过滤等方法,对数据进行分析与挖掘,找出差异表达基因及相关基因。结果:本研究将以上方法运用于乳腺癌的基因芯片实验数据的分析与挖掘,寻找到若干在癌组织与癌旁正常组织中呈现差异表达的基因,其中部分基因已被数篇文献报道过,认为其确与乳腺癌的发生与发展有密切的关系;同时寻找到若干变化规律相似或相反的基因及部分具有开关效应的基因,其中部分基因经查询可知确为在生物学意义上具有相关性的基因。结论:综合运用SAM和TSP方法来初步筛选显著性差异表达基因是有效的,它能在维持较低错误发现率时,发现较多数量的显著性差异表达的基因;运用关联分析和协同过滤方法来初步寻找相关基因是可行的,这样找出的基因确实是在生物学上具有共调节作用、因而具有共同变化规律的基因。寻找到的差异表达基因及相关基因可用于进一步的研究,并且为初步构建基因调控网络发挥基础作用。