论文部分内容阅读
目的:研究基于偏相关的连续贝叶斯网络结构学习算法,并与离散结构学习算法MMHC进行比较。针对连续变量的离散化可能导致信息丢失的问题,采用仿真数据来检验IPCB连续结构学习算法充分利用数据信息准确构建网络框架的能力;利用山西省2015年慢病调查数据,分别采用MMHC算法和IPCB算法建立尿酸及其相关因素的贝叶斯网络结构,从实例上再次验证IPCB算法可以充分利用连续变量数据提供的信息建立更完整的疾病相关因素的网络关系,可为慢性病影响因素网络分析提供新的思路。方法:在GeNIe2.4中选取测试网络,生成不同样本量的连续数据集和离散数据集,分别利用IPCB算法和MMHC算法进行贝叶斯网络结构学习,与原始网络结构比较,以错误边数作为比较算法性能的指标。利用山西省2015年慢性病与营养监测数据,选取可能与尿酸相关的连续变量构成的数据集进行分析,根据研究内容分为代谢指标数据集和膳调户指标数据集。首先对两个数据集进行简单的统计描述,然后在两个数据集中采用IPCB算法建立尿酸相关因素的连续变量贝叶斯网络,同时将变量离散化后采用MMHC算法建立相应的离散贝叶斯网络,并与连续贝叶斯网络做比较,比较两种算法建立的尿酸相关因素贝叶斯网络的合理性。结果:(1)通过ASIA和TANK两个仿真网络测试研究发现,基于变量离散化的MMHC算法学习贝叶斯网络可以获得一部分正确的边,但不论样本量大小,丢失边的情况都比较突出。而IPCB连续结构学习算法在测试中发现,不论样本量大小,IPCB算法均能获得正确完整的网络结构。(2)从2015年山西省慢性病与营养监测数据库中提取与尿酸相关的连续变量指标,根据研究内容将数据库分为代谢指标数据集和膳调户数据集两个数据集分析。代谢指标数据集选取尿酸、甘油三酯、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、空腹血糖、糖化血红蛋白和年龄共8个连续变量指标;膳调户数据集选取与尿酸相关的身体测量和饮食指标:舒张压、收缩压、BMI、腰围、肉类摄入量、水产品摄入量、食盐摄入量、食用油摄入量、酒精摄入量、蔬果摄入量,共11个连续变量指标。两个数据集所选取的指标均不服从正态分布。(3)IPCB算法在两个数据集上建立的连续贝叶斯网络均较MMHC算法所建立的离散贝叶斯网络完整,能发现更多与尿酸相关的指标。代谢指标数据集中,MMHC算法建立的离散贝叶斯网络发现9条边,其中仅发现甘油三酯与尿酸的直接关系;IPCB算法建立的连续贝叶斯网络发现13条边,其中发现年龄、甘油三酯、高密度脂蛋白、低密度脂蛋白4个指标与尿酸的关系。膳调户数据集中,离散贝叶斯网络共学习到9条边,其中仅发现BMI一个指标与尿酸直接相关,未发现饮食习惯指标与尿酸的关系;连续贝叶斯网络学习到14条边,发现了尿酸与BMI及肉类、食用油、食用盐和蔬果摄入量的直接关联。结论(1)模拟试验表明,IPCB算法能充分用数据提供的信息,构建连续贝叶斯网络框架的性能优于MMHC算法。(2)IPCB算法建立的尿酸相关因素贝叶斯网络发现,与尿酸直接相关的指标为年龄、甘油三酯、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、BMI、肉类食用量、蔬果摄入量、食用盐和食用油的摄入。相比于MMHC离散贝叶斯网络结构学习算法,IPCB算法学习到的网络关系更完整。(3)IPCB算法能有效地处理连续变量,在尿酸相关因素的研究中获得较满意的结果,可为慢性病相关因素的研究提供新的思路。