论文部分内容阅读
目的:研究贝叶斯网络混合结构学习算法——MMHC算法,并与禁忌搜索算法比较,探索该算法构建贝叶斯网络模型效果;建立糖尿病影响因素的贝叶斯网络模型,研究这些可能因素与糖尿病之间的关系,通过贝叶斯网络推理反映这些影响因素对糖尿病的作用强度,并为其它慢性病影响因素发现提供合理的方法。方法:首先选择标准贝叶斯网络模型生成仿真数据,分别用禁忌搜索算法和MMHC混合算法建立贝叶斯网络模型,与原始模型比较,通过丢失边、多余边的数量及其之和评价两种方法建立的贝叶斯网络模型效果;然后利用2013年山西省慢性病及其危险因素监测数据,通过建立糖尿病的贝叶斯网络模型,探究糖尿病的影响因素,并与logistic回归模型进行比较。结果:(1)利用标准贝叶斯网络随机生成不同样本量的数据集,然后分别用禁忌搜索算法和MMHC混合算法构建贝叶斯网络模型,结果发现无论节点数多少,数据样本量越大,所构建的贝叶斯网络结构与标准网络一致性越高。当网络中节点较少时,无论样本量多少,两种算法构建贝叶斯网络效果差别不大;对于节点较多的情况,样本量较小时,两种算法学习效果一致,样本量较大时,MMHC混合算法构建贝叶斯网络优于禁忌搜索算法。(2)将糖尿病的相关因素进行单因素分析,将P<0.05的变量进行多因素logistic回归分析,并建立贝叶斯网络结构。logistic回归结果显示最终进入回归模型的因素有年龄、地区、婚姻状况、医疗保险、BMI分组、中心性肥胖、高血压、高血脂和被动吸烟;其中高血压、高血脂、中心性肥胖是糖尿病的主要危险因素,患糖尿病的风险分别提高86.7%、44.8%、26.9%。而构建的贝叶斯网络提示,高血压和高血脂可能直接影响着糖尿病的发生;而年龄、中心性肥胖和BMI可能直接与高血压的发生有关,进而间接影响了糖尿病的发生;城乡高血脂检出率不同,间接影响糖尿病患病水平。其余变量间存在相关性,但与糖尿病的网络关系相隔较远。进行贝叶斯推理,对于未患有高血压和高血脂的人,患糖尿病的可能性降为0.104,若只患有高血压,患糖尿病的概率为0.176,若只患有高血脂,患糖尿病的概率为0.133,当同时患有高血压和高血脂时,患糖尿病的概率为0.272。与logistic回归相比,贝叶斯网络中各因素通过复杂的拓扑结构与糖尿病建立联系更能反映影响因素间及因素与疾病间复杂的关系,表达更准确和直观。结论:(1)对于节点数较多的网络,样本量较大时,MMHC算法搜索效果优于禁忌搜索算法;节点数较少的网络,两种算法搜索性能相近。(2)将MMHC混合算法应用于贝叶斯网络建立糖尿病贝叶斯网络模型,提示高血压和高血脂可能直接影响着糖尿病的发生,其余变量间接影响糖尿病的发生。通过网络拓扑结构发现影响因素与疾病间复杂的关系,同时发现各影响因素间依赖关系,为糖尿病影响因素发现提供合理的方法,能更好的对糖尿病进行预防。