论文部分内容阅读
组织特异性基因(TS基因)被认为是在不同的组织内表达水平差异较大、从事细胞特异性活动或者进化过程中变化较快的基因。为了分析基因表达组织特异性的因素,研究人员对基因序列模式、结构特征、调控因子特性等方面进行了相关研究。我们认为基因的表达模式是基因表达组织特异性的又一因素。研究基因的表达模式对理解生物体的内在活动机制、有针对性的疾病诊断和药物设计具有重要的作用。为此,本文提出基于高斯混合模型的方法研究基因表达的组织特异性。该研究方法主要包括三方面内容:基因表达组织特异性模式的发现、基因表达组织特异性模式的分析和组织特异性基因的预测。
在基因表达组织特异性模式发现过程中,我们将基于高斯混合模型的聚类算法作为研究方法,发现模式特征。选用这种算法是因为该算法是基于概率的聚类,更适合于异质数据的集成。同时,混合模型的分量描述,更适合于寻找聚类簇与各组织之间的隐含关系。
基因表达组织特异性模式分析过程,主要利用基于高斯混合模型的聚类算法聚类,分析实验数据,获取基因表达组织特异性模式的模式特征。该过程使用Affymetrix公司提供的U133A芯片基因跨组织表达数据作为实验数据,使用EST、TIGER、CFATS数据作为是实验结果的比对数据来分析聚类结果,评价基因表达组织特异性模式的性能,最终提取出基因表达组织特异性模式的参数特征。实验结果发现了对胎盘、胰腺/结肠和肾/肝等组织特异性表达的基因表达模式。
组织特异性基因预测过程,主要利用模式分析过程提取的模式特征建立预测模型,预测潜在TS基因。该过程使用Affymetrix公司提供的GNF1H芯片和U133A+GNF1H芯片集基因跨组织表达数据作为实验数据,使用EST、TIGER作为实验结果的比对数据,评价基因预测的性能。结果表明预测模型对胎盘、胰腺/结肠和肾/肝组织潜在TS基因的预测性能较优,而对其他组织潜在TS基因的预测性能有待提高。