论文部分内容阅读
以in bulk的方式处理分子生物学文献,而非一篇一篇地阅读其中的基因信息,这可能是继转录组学和蛋白质组学后又一种高通量的生物信息获取方式,属于文献组学研究的范畴。蛋白质组研究中存在“中心性一致死性法则”,即拥有越多相邻节点的蛋白,其缺失更倾向于对机体具有致死性。为寻求科学的对称之美,本研究重点探讨了基因同现网络(GGCON)中是否存在以及缘何存在这种类似中心性一致死性法则的原理的问题,并对其在解决主题相关基因排序及镇痛药靶筛选等生物学问题中的具体应用进行了探索。
首先通过归纳和总结提出了“一个在某主题下尚未被引起重视的基因如果在基因同现网络中具有越多的相邻节点,则具有越高的概率被引起重视”的规律,并将其命名为“枢纽法则”。通过实验证实该规律能够应用在主题相关基因的突出或预测中。通过基于构想生物学的建模对该规律形成的原理进行了演绎:将主题相关基因划分为已知与主题相关的核心基因以及与主题关系尚待确定的拓展基因。将拓展基因转变为核心基因的影响因素归结为依赖构想链路的因素(红色因素)和不依赖构想链路的因素(绿色因素)。通过回归分析对节点邻居数与主题之间的相关性进行了量化,随后发现红绿因素在决定基因与主题关系的权重的比值在逐年升高,最终证明依据枢纽法则来挖掘主题相关基因具有理论上的可行性,运用时效上的可持续性以及实际应用中的可操作性,并运用枢纽法则对阿尔兹海默病(AD)、乳腺肿瘤以及基底神经退化等疾病的相关基因进行了挖掘。
为解决主题相关基因检索中的“噪音干扰”问题,根据枢纽法则原理设计了GeneRankV1算法,使得一个基因如果在GGCON中越多地连接到高等级的基因,其自身的等级也得以提高。以专家罗列的AD相关基因作为金标准,GeneRankV1算法能够从受噪音干扰的AD相关基因列表中挖掘出位于此金标准中的基因。建立了将GeneRankV1算法付诸实际应用的Gengle平台。截至2006-6-30,Gengle收录人类疾病1131种,通路199个,涉及人类基因共计10699个、文献96547篇以及基因专利文献9437件。该平台面向基因组织信息,有效地排序主题相关基因,提供对基因与主题相关性按图索骥的文献来源。其基因专利文献组模块也能够对刻意隐藏于基因专利中的专利基因进行挖掘。主题相关基因检索的检索问题与镇痛药靶的选择问题之间具有密切的关联。已知的或潜在的镇痛药靶存在于以疼痛为主题的MEDLINE中。然而,从其中选出镇痛药靶的文献组学方法仍然面临噪音干扰问题。为此根据枢纽法则原理设计了GeneRankV2算法,获取了83450篇以疼痛为主题的文献组,利用该算法有效地从697个疼痛相关基因中选出已知的镇痛药靶,挖掘出已被忽视的镇痛药靶,预测了潜在的疼痛相关基因和镇痛药靶。首先,考虑到围绕被忽视的镇痛药靶的镇痛药物研发相对进行较少,知识产权覆盖相对疏松,由此基于GeneRankV2算法突出了11个被忽视的候选药靶作进一步考察。其次,考虑到生物化学与分子生物学实验室制备此类药靶配体的硬件条件不适合进行化合物的合成,最终从11个候选药靶中确定了以烟碱样乙酰胆碱受体(nAChr)为靶点的镇痛药物开发方向。据此方向创建了一套“挂钩”蛋白表达纯化系统,实现了将nAChr配体的复性、肠激酶切割以及纯化集成在Ni亲和层析柱上完成的技术方案。
上述工作为文献组学中基于枢纽法则的主题相关基因挖掘提供了理论依据和实验基础,体现了文献组学、枢纽法则及其衍生算法在解决具体生物学问题中的应用价值。此外,Gengle平台有望成为当前面向基因的信息平台的重要补充,Gengle建设中所建立起来的首个中国专利基因数据库(NASDAP)也能够为相关研究的思路启发及知识产权战略制定提供参考。而基于枢纽法则的镇痛药靶选择实现了从海量疼痛主题文献中确立有把握且有潜力的研究方向,与之配套的“挂钩”系统的建立的建立,也为后续镇痛新药研发的研发提供了实践根基。