论文部分内容阅读
全基因组表达谱数据(genome-wide gene expression profile,GWGEP)通过利用微阵列技术(microarray technology,MAT)对全部基因的转录组水平进行定量的刻画。从而连接起DNA中所存储的遗传信息和生物体的实际表型,使得我们可以从全局角度来测量某一个细胞或者组织处于某些实验条件下和特定时间点的转录水平,进一步可以分析在特定状态下细胞内各基因的差异表达情况。通过比较不同表型数据的表达谱的印迹基因集(signature gene sets,SGS)相互之间的富集情况,我们可以对不同表型下表达谱之间的相似程度进行分析。如果两个不同表型下的表达谱比较相似,则可以认为它们的诱导因素之间存在功能叠加的可能性,同时将细胞暴露于两种条件下倾向于增强该表型(强化或者恶化);而反过来如果两个表型的表达谱呈现相反的状态时,它们的诱导因素之间可能存在相互抑制的作用,因此其中一种的条件可以作为另一种的抑制条件来实现细胞状态的逆转和恢复。基于上述理论,CMAP(connectivity map)数据得到了广泛的利用,并且有很多在药物重定位(drug repositioning,DRP)、关键因子发现(key factor discovery,KFD)、作用机理(mode of action,MoA)分析等应用得到了证实。但是由于在包括细胞系种类、实验药物种类、实验剂量和实验时间等方面数据量的限制,CMAP数据在分析中呈现出一定程度的局限性,同样由BROAD研究所承担的LINCS(library of integrated network-based cellular signatures)数据应运而生,目前该计划已获得了77种典型细胞系中4000余个基因沉默试剂和7000余种化学小分子刺激下的130余万个全基因组表达谱。鉴于Broad方面没有给出详细的数据描述信息,在这里我们根据工作总结对LINCS数据进行了解析,主要包括该数据的数据格式、数据来源、数据获取方法、数据使用等方面的内容。同时,我们对基因表达谱数据分析中的分析方法进行了介绍,并对性能较好、使用广泛的GSEA方法进行了介绍。为了验证该数据对现有知识体系带来的信息增益,我们基于其中的基因沉默数据进行了探索性分析,构建了基于基因的扰动关系网络(gene-based genetic perturbation relationship network,GGPRN),分析了存在相互扰动关系的基因对之间,其对应的蛋白质也存在相互作用(protein-protein interaction,PPI)现象的比例,以及存在相互扰动关系的基因对,在KEGG和GO Biological Process中是否存在于同一通路或者不存在于同一通路但是有一个公共基因同时位于两个通路中的现象,分析结果发现现有的数据只覆盖了这些从表达谱数据中发掘出来的关系的大约30%-40%。接下来,基于“具有相似功能的基因沉默后对细胞造成的影响较为一致”这一假设,我们分析了肝癌细胞系中进行的基因沉默表达谱数据,通过计算表达谱之间的相似性我们得到了基因之间的相似性矩阵,并且使用亲和传播聚类(affinity propagation cluster,apcluster)算法进行了聚类分析,发现同一社团内的基因在沉默后造成的表达谱印迹更为一致,而不同社团之间的表达谱印迹交集则很小。更进一步我们利用GO网站对同社团基因中功能已知的基因进行了功能注释,分析了社团内及社团间的基因集的富集情况,并对未标注基因功能的基因进行了功能预测。