论文部分内容阅读
疾病的发生和发展是一个复杂的生理病理过程,因为人体是一个有机的整体,在分子、细胞和器官等各层次存在复杂的相互作用,因此,疾病合并(指一个患者身上同时出现两种或多种疾病)是临床中常见的现象,具有重要的医学研究价值。近年来,国际上对疾病合并的研究掀起了广泛的热潮,但鉴于疾病病机的复杂性,人们对疾病合并的理解与认识仍有待进一步探索,而且由于环境、种族和社会环境等因素对疾病的影响,对于我国大规模人群的疾病合并研究是很有意义的,不仅可以对疾病有更深层次的了解,而且可以在治疗原发性疾病的同时预防合并疾病的产生。本文利用大规模病案首页数据,构建了较大规模的疾病合并网络,并整合疾病分子(基因、通路、证候)关系,进行疾病合并的宏、微观关联规律的探究,同时,结合患者就诊的不同时点数据,利用疾病之间的演变关系进行疾病的预测研究。主要研究结果包括以下三个方面:(1)利用中国中医科学院收集的453家医院的病案首页数据,采用相关性分析方法,构建了具有显著合并关系的疾病合并网络(包括5702个节点和258,535条边)。在此基础上,通过网络拓扑特性分析表明,此网络的度分布符合幂律分布,是一个无标度网络,表明不同疾病之间存在高度的异质性。例如,高血压有1926种合并疾病,在网络中处于中心位置,而如脉络膜疾病的合并关系很少。同时,我们发现该网络是一个具有显著社团结构的分层模块化网络(模块度为0.302)。(2)针对疾病合并关系的宏、微观关联问题,结合疾病相关的基因、通路、证候等数据,通过多种相似性计算方法与分析,发现疾病合并强度与疾病之间共享分子以及证候的相似性等都呈现显著的正相关,表明当疾病之间共享分子数量越多或疾病证候相似性越大的情况下,疾病之间构成合并关系的可能性越大。结合文献验证,我们重点分析了一些具有重要临床价值的疾病合并关系,例如,阿尔茨海默病与动脉硬化性心脏病(RR=2.585,Φ=0.0166,共享基因:ACE、APOE和NOS3)。(3)基于时点数据的疾病演变关系进行疾病预测的方法研究:即根据患者患病的先后顺序,预测当患者出现某些疾病时,后续会不会引发某种特定疾病。基于整理形成的高血压(20000个)和精神类疾病(7000个)的标准数据集,我们采用Logistic回归、支持向量机(SVM),随机森林和神经网络等分类模型,进行疾病的预测分析,初步发现了两种目标疾病的危险因素及保护因素。并通过比较实验分析,随机森林相比于其它模型效果较好,其在两个数据集上F1值分别达到0.6689和0.6802。其结果可以为目标疾病的早期诊断及优化诊断流程提供一定的依据。