论文部分内容阅读
背景在全球范围内,乳腺癌是女性最常见的恶性肿瘤,到2030年全球乳腺癌的患病人数将超过2600万例。预计未来10-20年,乳腺癌的患病率和死亡率仍然会呈上升趋势。这不仅给医疗资源造成巨大压力,而且给整个社会带来沉重的疾病经济负担。乳腺癌是可防可治的。国内外有关于影响乳腺癌患病的危险因素风险评估预测模型,但不同地区人群在生活方式、饮食习惯、个人情况等方面存在差异。并且在方法学上不尽相同,无法运用统一的模型预测乳腺癌的发病风险,因此需要建立适用于本地区的风险评估预测模型。目的本文采用病例-对照研究,在社会、心理、环境危险因素等流行病学分析的基础上,筛选影响乳腺癌患病的潜在危险因素,建立河南豫东地区女性乳腺癌发病风险评估预测模型指标体系;然后分别运用人工神经网络与传统的Logistic回归两种方法,建立预测模型并进行比较验证;最后通过综合分析与评价,选出预测效果较优的模型,为该地区女性开展乳腺癌一级预防、高危人群筛选、疾病趋势预测、进一步降低发病率和维护健康提供支持。方法1.基于病例-对照研究设计,于2020年10月—2021年4月和2021年5月—7月,分两阶段(分别用于筛选影响因素,模型验证)收集河南豫东地区某两家三级甲等医院乳腺科病例资料:以临床病理诊断确诊的原发性乳腺癌女性患者为病例,同时依据年龄成组匹配原则,在同家医院的体检科等病区,收集无乳腺癌及其他恶性肿瘤病史和症状的正常女性作为对照。以面对面访谈形式完成统一的调查问卷,问卷内容包括人口学特征、婚育史、疾病史、心理和情绪、饮食情况、生活方式等。2.利用第一阶段收集的数据,运用IBM SPSS Statistics 25.0统计软件对可能影响乳腺癌患病的自变量开展单因素分析,然后将以上有统计学意义的变量一一纳入多因素Logistic回归整体进行分析(LR向后剔除法,纳入标准(49)=0.05,排除标准α=0.10),得出可能影响女性在未来患乳腺癌的危险因素,结合文献研究、专家建议及临床意义确定建立模型的指标体系。3.将两个阶段收集的数据整理合并,按3:1比例随机分为建模人群和验证人群。首先采用人工神经网络和Logistic回归两种方法建立乳腺癌发病风险评估预测模型,然后分别绘制基于两种模型所得的乳腺癌受试者的工作特征曲线(ROC曲线)图,运用区分度和校准度两个指标评价两种模型,比较两种模型的预测效果。结果1.数据收集:第一阶段收集病例151例,对照302例,第二阶段收集病例85例,对照216例,两个阶段共收集样本754例。随机按3:1的比例将所有样本分为建模人群565例,验证人群159例。2.预测模型指标体系建立:结合统计结果、文献研究、专家建议及临床意义,最终确定10个指标为模型的输入变量:初次分娩年龄(X1)、流产总次数(X2)、脾气暴躁(X3)、心情压抑(X4)、熬夜(X5)、室内吸烟情况(X6)、良性乳腺疾病(X7)、有害物质职业接触(X8)、海产品摄入情况(X9)、粗粮摄入情况(X10)。3.预测模型建立与验证:建模人群中,ANN模型AUC为0.9365,最佳切点处灵敏度96.21%,特异度85.79%,约登指数0.82;ANN模型H-L拟合优度检验:=4.9139,(49)=0.7667;Logistic回归模型为:P=1/(1+exp[-0.2524+0.823X1+0.3X2+0.3X5+0.146X4+0.177X7+0.129X6+0.108X3-0.009X8-0.337X10-0.337X9]),AUC可以达到0.9101,最佳切点处对应的灵敏度89.64%,特异度82.04%,约登指数0.7169。Logistic回归模型的H-L拟合优度检验:=-4.6837,(49)>0.1。ANN的预测效果明显较Logistic回归模型预测效果好。验证人群中,ANN模型AUC为0.8356,最佳切点处对应的灵敏度79.17%,特异度82.05%,约登指数0.6121;Logistic回归预测模型的AUC为0.8757,最佳切点处对应的灵敏度76.39%,特异度86.32%,约登指数0.6271。ANN模型H-L拟合优度检验:=0.1174,(49)>0.1,Logistic回归模型的H-L拟合优度检验:=8.4764,(49)>0.1。验证人群中,ANN的灵敏度高于Logistic回归预测模型。结论1.初次分娩年龄、流产总次数、良性乳腺疾病史、心情压抑、脾气暴躁、被动吸烟(室内吸烟情况)、熬夜、有毒有害物质职业接触史、粗粮摄入情况、海产品摄入情况,提示为河南豫东地区女性乳腺癌的危险因素。2.运用人工神经网络(ANN)建立河南豫东地区女性的乳腺癌发病风险预测模型较传统Logistic回归方法更精准,更稳定。