论文部分内容阅读
目的:本研究立足我国老年龋病常见且多发的现状,且大量文献提示老年龋病引起的疼痛、咀嚼障碍往往会降低老年人的生活质量,还可以导致其他全身慢性系统疾病的患病几率增高,成为困扰其生活的主要问题。我国最近一次的全国口腔健康流行病学抽样调查报告指出,我国老年患龋率为98.0%,由此可见,我国老年龋病的防控和治疗工作迫在眉睫。因此,寻找老年龋病患病的相关危险因素和构建其有效的预测模型,以及在外推人群中进行其泛化能力的验证研究是十分必要的。本研究通过辽宁省城、乡老年龋数据库筛选出影响老年龋发生及发展的相关危险因素,构建基于人工神经网络技术的老年龋预测模型,并对新模型的预测性能进行比较与评估;再利用不同于前面部分的独立数据集,将基于人工神经网络技术构建的新预测模型分别带入东北三个省份地区老年人群数据库进行方法学比较的泛化能力验证,从而为老年龋病的早期诊断、早期筛查和防治提供科学的支撑依据。研究方法:1)收集辽宁省2015年5月-12月的老年龋现场抽样数据,根据纳入排除标准,随机抽取辽宁省城市地区和农村地区65-74岁的老年人各584例(男女各半)作为调查对象。对每位受检者进行口腔健康检查,并完成面对面口腔问卷调查。实际完成的总样本量为1168例,符合要求且回收有效问卷,最终计入结果为1144例。采用SPSS22.0软件包进行资料的统计分析。应用χ2检验进行患龋情况中的计数资料的按照城、乡分层做描述性分析。在影响龋病发生的因素分析中,先进行单因素分析(χ2检验)筛选出P<0.05的自变量,再将这些统计学上有意义的自变量全部纳入多因素Logistic回归模型。然后分别就容忍度和方差膨胀因子对多因素Logistic模型筛选出来的有统计学意义的变量进行多重共线性的诊断。2)将收集到的1144例老年龋观测数据随机抽取80%(共915例)作为训练总集,剩余20%(共229例)作为测试集用于建立非条件Logistic回归模型、GRNN广义回归神经网络预测模型和BPNN反向传播神经网络预测模型。采用前向法对纳入非条件多因素Logistic回归模型的训练总集中的老年龋样本进行逐步回归;其中,因变量为结局变量,即受检者是否患老年龋,自变量为单因素卡方检验结果中有统计学意义的筛选变量。采用Matlab 2012软件中的神经网络工具箱编程建立GRNN广义回归神经网络预警模型,将训练集中卡方检验有统计学意义的变量作为输入,结局变量作为输出。使用SPSS 22.0绘制模型预测结果的ROC曲线。将训练集中的约登指数最大值时对应的预测模型预测概率值作为最佳诊断值作为模型预测概率的判别标准,统计学显著性水平设置为0.05。BPNN反向传播神经网络的建立使用R软件RSNNS包完成。BPNN反向传播神经网络的隐含层选择为1层。本研究从3个隐含层神经元开始,每次增加1个,到20个神经元为止,以找到合适的隐含层神经元数量。将学习率设置为0.01;隐含层和输出层的激活函数选择sigmoid函数。最大迭代次数设置为1000次,当验证集的均方误差达到最小时为训练停止条件。使用标准误差反向传播算法进行模型的训练。将GRNN广义回归神经网络预警模型、BPNN反向传播神经网络模型,与非条件Logisitic回归预测模型的预测效果进行比较,在分类一致率、灵敏度、及特异度方面比较人工神经网络预测模型的应用优势,并进行ROC曲线下面积分析。3)利用不同于前面部分的独立数据集,运用已构建好的预测模型对中国东北地区辽宁省、吉林省、黑龙江省三个省份口腔健康抽样调查数据库中的老年龋的发生进行预测,研究申请获得了中国东北地区辽宁省、吉林省、黑龙江省三个省份口腔健康抽样调查数据库中的老年龋数据的使用权限(数据来自吉林大学口腔医院、中国医科大学口腔医学院及黑龙江省口腔病防治院),包含每位老年受检者的口腔健康检查资料及口腔问卷调查资料,最终计入结果为1236例。分别利用论文第二部分由软件Matlab2012中的神经网络工具箱已建立好的GRNN广义回归神经网络模型,及R软件RSNNS包已建立完成的BPNN反向传播神经网络模型对三个省份的老年龋数据库进行预测,将两种人工神经网络模型的预测结果,分别就分类一致率、特异度和灵敏度方面与非条件Logistic回归模型的预测结果相比较,并进行ROC曲线下面积分析,以验证多场景下的人工神经网络老年龋预测模型的泛化能力。结果:1)1144例老年人的患龋率达68.5﹪,患龋均数为2.43。危险因素分析中,Logistic回归结果显示在老年人群中,过去一年有牙痛史(OR=1.550,95%CI:1.164-2.063)、上颌义齿修复(OR=4.320,95%CI:2.647-7.051)、下颌义齿修复(OR=4.420,95%CI:2.477-7.885)、吸烟(OR=1.469,95%CI:1.084-1.992)、喝酒(OR=1.591,95%CI:1.130-2.240)是老年人易患龋的危险因素;而农村户口(OR=0.676,95%CI:0.503-0.908)、自我口腔卫生评价良好(OR=0.606,95%CI:0.423-0.868)是老年人患龋的保护因素。对多因素Logistic Regression模型筛选出来的有统计学意义的七个变量进行了多重共线性的诊断,所有变量的方差膨胀因子都小于2,可以认为该多因素Logistic Regression模型中不存在多重共线性的问题。2)采用Matlab2012软件编程建立GRNN广义回归神经网络预测模型。为了确定广义回归网络模型的最优光滑因子,从训练总集(共915例)中随机选取20%(183例)作为检验集。按照Sprecht提出的光滑因子法寻找光滑因子,最终确定为0.7。BPNN反向传播神经网络的建立使用R软件RSNNS包完成。以单因素卡方检验筛选出有统计学意义的15个变量作为BPNN反向传播神经网络的输入,输入神经元个数为15。以结局变量作为BPNN反向传播神经网络的输出,输出神经元个数为1(即是否患龋)。从3个隐含层神经元开始,每次增加1个,到20个神经元为止,当BPNN反向传播神经网络的隐含层神经元数为14时,验证集的均方误差达到最小值,因此本研究中隐含层神经元数设置为14。选择训练集中的约登指数最大值时所对应的模型预测概率值作为本研究的最佳诊断值。训练集中GRNN广义回归神经网络模型和Logistic回归模型的预测概率的ROC曲线下面积分别为0.896和0.733,对应基线的P值均<0.001。两个模型的AUC比较的统计学检验P值<0.001;训练集中BP模型和Logistic回归模型的预测概率的ROC曲线下面积分别为0.819和0.733,对应基线的P值均<0.001。两个模型的AUC比较的统计学检验P值为0.001。最终,Logistic回归模型预测概率的最佳诊断值为0.606,对应的约登指数为0.370;GRNN广义回归神经网络模型预测概率的最佳诊断值为0.680,对应的约登指数为0.638。BPNN反向传播神经网络模型预测概率的最佳诊断值为0.703,对应的约登指数为0.591。当选择最佳诊断值时,Logistic回归模型和GRNN广义回归神经网络模型ROC曲线下面积分别为0.578和0.777,对应的P值为0.056和<0.001。两个模型ROC曲线下面积比较的统计学检验P值为0.000;当选择最佳诊断值时,Logistic回归模型和BPNN反向传播神经网络模型ROC曲线下面积分别为0.578和0.721,和基线相比,对应的P值为0.056和<0.001。两个模型ROC曲线下面积比较的统计学检验P值为0.012。3)当用已经建立好的GRNN广义回归神经网络模型,及BPNN反向传播神经网络模型对东北三个省份老年龋数据库进行风险预测的外推验证研究时,结果显示,非条件多因素Logistic回归模型预测结果的特异度、分类一致率均低于两种人工神经网络预测模型。而GRNN广义回归神经网络和BPNN反向传播神经模型预测的的灵敏度结果在三省份间略有差异。吉林地区验证结果显示,其非条件多因素Logistic回归预测模型的ROC曲线下面积为0.608,95%可信区间为(0.544,0.673),P值为0.001;而BPNN反向传播神经网络模型的ROC曲线下面积为0.734,95%可信区间为(0.675,0.793),P值<0.001;GRNN广义回归神经网络模型的ROC曲线下面积为0.776,95%可信区间为(0.719,0.832),P值<0.001。辽宁省的非条件多因素Logistic回归模型的ROC曲线下面积为0.672,95%可信区间为(0.612,0.731),P值<0.001;而BPNN反向传播神经网络模型的ROC曲线下面积为0.816,95%可信区间为(0.767,0.864),P值<0.001;GRNN广义回归神经网络模型的ROC曲线下面积为0.855,95%可信区间为(0.809,0.900),P值<0.001。而黑龙江省的非条件多因素Logistic回归模型的ROC曲线下面积为0.665,95%可信区间为(0.607,0.722),P值<0.001;而BPNN反向传播神经网络模型的ROC曲线下面积为0.782,95%可信区间为(0.731,0.832),P值<0.001;GRNN广义回归神经网络模型的ROC曲线下面积为0.817,95%可信区间为(0.769,0.864),P值<0.001。和BPNN反向传播神经网络预测模型相比,GRNN广义回归神经网络具有较强的非线性映射能力和较高的预测精度。结论:辽宁省老年人(65-74岁)龋齿的患病率较高。居住城市、有上颌或下颌义齿修复、过去12个月内有牙痛史、有吸烟习惯、有饮酒习惯、自我口腔卫生评价不佳的老年居民更容易患上老年龋这种慢性疾病。GRNN广义回归神经网络和BPNN反向传播神经网络预测模型是准确和有意义的老年龋预测工具,可用于老年龋病的筛查、早期诊断和治疗计划,为老年龋病的预测及防控提供科学的支撑依据。