论文部分内容阅读
复杂疾病是跨组学生物标记联合作用的结果,但也绝不是它们之间的简单叠加和堆积,这些不同层面的组学标记,往往有基因组→转录组→蛋白组→代谢组→表型组的生物信息流时间的先后顺序,研究需遵循该连续谱的顺序,连续谱间相互错综,交织成一个组学生物网络系统,正是这个网络系统控制着疾病的发生、发展和转归进程。复杂疾病的多层面组学标记具备“高维”、“网络性”特性,传统的组学标记筛选策略和方法多数忽略了这两个特性,势必损失信息,甚至导致错误结果的出现。同时,生物分子之间的关系呈现出不同的非线性模式,简单的线性相关不足以刻画。本研究在网络医学框架下,首先引入点互信息用于表征组学交互网络中的“边效应”,并借助二维核密度方法估计、度量点互信息的取值,进而构建融组学交互网络的“点效应”、“边效应”为一体的组学交互网络回归模型,即点互信息组学网络回归模型。统计模拟用于评价该模型在不同的样本含量、不同的“边效应”模式,及其不同网络结构下I类错误率的稳定性和检验效能,来自GEO数据库的187例吸烟者的基因表达数据用来进一步验证该模型的实用性。方法生物分子之间存在复杂的相互调控关系,统计学中常用的简单线性相关,难以刻画这种复杂的调控关系,点互信息不仅可以度量两个变量之间的线性相关关系,同时也可以度量出两变量间的非线性相关关系。本研究首先引入点互信息,来表征组学生物网络中不同网络节点之间的相关关系,即网络的“边效应”,并利用二维核密度估计的方法,来估计两个组学网络节点间的点互信息值。进一步在logistic回归模型框架下,构建基于点互信息的组学网络回归模型,来识别整个组学交互网络、网络某特定组学标记节点或网络节点生物分子间的相互关系,如基因表达网络中的调控关系等,检验它们与复杂疾病的发生是否有关。本研究设计了两个模拟方案用,以评价模型的有效性和科学性:1.组学交互网络的网络结构固定不变,即每次模拟时,样本间网络差异节点和差异边都是固定不变的;2.随机指定样本间网络差异节点和差异边。在每个模拟方案下分别考虑两种不同的模拟情景:(1)网络中节点间的相关性是简单线性相关;(2)网络中节点之间的相关性是非线性相关。进一步,在每个模拟情景下设置四种网络差异情况:①网络中只有节点存在差异;②网络中只有边存在差异;③网络中节点和边都有差异,且差异的边与差异节点相连;④网络中节点和边都有差异,但差异边与差异节点不相连。这一系列的模拟,可从多角度评估本研究所构建的基于点互信息的组学网络回归模型,与生物信息学中常用的基于积距项的网络回归模型相比,在I类错误率控制表现和检验效能方面的科学性和有效性。结果根据研究的模拟结果显示:1.在两节点间的关系为线性时,两模型在不同情形下都能较好地控制I类错误率,且稳定在所设定的0.05左右。在差异节点的识别上,点互信息组学网络回归模型与积距项组学网络回归模型具有类似的检验效能,但与积距项组学网络回归模型相比,点互信息组学网络回归模型在差异边的识别上相对较弱;2.在两节点间的相关性为非线性情况下,积距项组学网络回归模型在差异节点的识别上具有较低的效能,在差异边的识别上,积距项组学网络回归模型几乎无法识别出差异边,而点互信息组学网络回归模型能够较好的识别出差异边,且同样具有很好的I类错误率的控制表现。将两个模型应用于187例吸烟者的基因表达数据,点互信息组学网络回归模型识别出了三个基因位点(AKT2、BAD和JAK3),积距项组学网络回归模型识别出来的二个基因位点(BAD和JAK3)。与此同时,点互信息组学网络回归模型识别出了四条条差异边(RAF1-MAP2K1、ERBB2-TGFA、CASP9-AKT2、PIK3CD-EML4),积距项组学网络回归模型未能够识别出差异边。文献检索发现,这些识别出来的差异节点和差异边,具有很好的生物学解释,进一步说明本研究提出模型具有很强的实用性。结论点互信息能够较好的提取组学交互网络中不同模式的“边效应”,在不同的模拟情形设置之下,点互信息组学网络回归模型均具有很好的I类错误率控制表现,无论组学生物网络中节点间存在线性或者非线性相关关系,点互信息组学网络回归模型能够较好地识别出差异节点和差异边,且对于不同的网络结构,点互信息组学网络回归模型的识别能力稳健性较好。