论文部分内容阅读
研究背景:在后基因组时代,随着疾病相关特征如基因和蛋白质网络等研究的深入,领域学者逐步关注到不同疾病之间相互关系的重要性。并形成了从网络医学角度研究疾病关系,即疾病组学的热门研究问题,以便了解和探索疾病的分子网络机理。鉴于疾病机理的复杂性,进行疾病关系研究是一项困难的研究任务。疾病可以通过基因、蛋白质相互作用、表型症状甚至代谢途径相互联系。这些联系隐藏在医学的经验性操作和常识性知识中,临床试验是体现医学经验性知识的重要资源,其中的纳入排除标准(eligibility criteria)记载了大量疾病关系的经验性认识。因此,为进一步探索疾病关系,本文通过使用临床试验纳入排除标准数据进行疾病关系分析及其潜在生物学机制的探索。研究方法:本研究使用的数据来自全球最权威的临床试验登记数据库:美国NCBI 的 clinicaltrials.gov 数据库(www.clinicaltrials.gov),我们下载了其中的Aggregate Analysis of Clinical Trials(AACT)数据库。然后,我们通过筛选该数据库的纳入排除标准字段文本,并采用ELiIE工具自动从非结构化文本中提取疾病术语及其规范代码。具体而言,从每一个临床试验中,我们提取了正在研究中的疾病及其所有相应的疾病,这些疾病被列为临床试验的排除标准。因此,从每一个试验记录中,我们都有至少一个疾病对组成的调查疾病和排除标准疾病。从获取的6000个临床试验记录中,我们形成了 27776对疾病记录。为排除数据中的噪音影响,我们对疾病关系对进行了卡方检验分析,以确定哪些疾病对的发生是区别于随机情况的。经筛选之后,我们确定了具有显著关联(p-value<0.05)的疾病对,并建立了疾病关系网络(包含699节点和1616条边)。在网络构建的基础上上,我们分别采用了多种网络分析和可视化方法进行疾病关系模式的发现和阐释。为进一步分析疾病关系的分子依据,我们还通过整合疾病基因关系数据构建的共享基因疾病网络进行比较分析。研究结果:我们发现疾病网络具有显著的拓扑模式,如存在少量具有大量疾病关系的节点如癌症、心力衰竭、糖尿病和高血压等,且同类别的疾病是临床试验中纳入排除标准主要关注的疾病关系。进一步,我们通过二项式分布检验来比较基于疾病基因数据的疾病网络,发现两个网络具有140个共同的疾病对(p-value=5.17E-6),表明临床试验的疾病对具有显著的共享基因可能性。另外,我们也观察到了其他的相似之处,如他们都以肿瘤作为最大的疾病关系集群。以上分析结果表明,使用临床试验数据确实可以找到具有生物学依据的疾病关系。而且,从我们构建的疾病网络中发现的新的疾病关系,也在相应的文献中获得有效验证。研究结论:本文通过文本挖掘和网络构建进行临床试验疾病关系分析,发现了具有生物分子依据可靠性和新颖性的疾病关系,是研究疾病组学的一种有益探索。