论文部分内容阅读
研究目的(1)使用贝叶斯网络方法构建乳腺癌病因网络模型,研究饮食、肥胖、遗传变异以及它们之间的交互作用与乳腺癌风险的关联,评价遗传背景与环境暴露在乳腺癌发生中的作用。(2)基于贝叶斯网络方法与其它机器学习方法构建乳腺癌风险预测模型,筛选出最优方法用于指导乳腺癌的干预与风险防控设计工作。(3)比较构建饮食模式的方法,研究饮食模式与乳腺癌风险的关联,认知与挖掘饮食模式在乳腺癌病因关系路径中的特征与作用。研究方法(1)采用以社区人群为基础的病例-对照研究设计,收集参与者饮食摄入,体重变化以及其它与乳腺癌风险相关的人口特征学信息(包括人口结构,生活方式,月经和生殖事件,疾病史以及与体育锻炼相关信息),同期按照标准方案完成人体学指标的测量与血液样本采集,使用Taqman分析法鉴定基因分型,分型的基因位点涉及17个肥胖表型相关基因的22个SNP位点,维生素D受体代谢关键酶CYP24A1上的8个SNP位点以及叶酸介导的一碳代谢通路上9个基因18个位点。(2)基于贝叶斯网络(BNs)构建乳腺癌危险因素的病因网络,参与构建网络节点包括环境暴露因素(体重变化,饮食模式),遗传因素(SNP及多基因风险评分)、协变量(已知的其它乳腺癌风险因素),以及结局变量(乳腺癌)。在BNs结构的学习过程中,使用了四种算法:增长-收缩(GS)、增量关联马尔科夫毯(IAMB)、爬山(HC)和最大-最小爬山(MMHC)算法;基础结构的参数学习采用无先验信息的狄利克雷(Dirichlet)分布,风险评估结构的参数学习基于先验信息与数据驱动。基于BNs识别出可充当工具变量的遗传变异,通过孟德尔随机化法(MR)进行表型-结局的因果推断。广义线性模型(GLM)将验证BNs中所有感兴趣的关键结构与效应大小。BNs、MR、GLM分析通过R软件实现。(3)使用参与构建乳腺癌病因网络的节点因素作为特征变量,构建乳腺癌风险预测模型,预测模型分别基于贝叶斯网络与8种机器学习监督方法(逻辑回归(Logistic Regression,LR),决策树(Decision Tree,DT),随机森林(Random Forest,RF),支持向量机(Support Vector Machine,SVM),朴素贝叶斯(Na?ve Bayes,NB),K最近邻(K-nearest neighbor,KNN),人工神经网络(Artificial Neural Network,ANN),梯度提升机(Gradient Boosting Machine,GBM)),数据以8∶2的比例随机划分为训练集和测试集,利用训练集的数据构建预测模型,测试集的数据评估预测性能,建模过程采用10折交叉验证。机器学习方法基于Python软件实现。(4)饮食模式基于“先验”方法与“后验”方法进行推导,“先验”方法通过饮食质量指数(DQI)评估地中海饮食模式的依从性;“后验”方法包括以“以人为中心”的潜在类别分析方法(LCA)与“以变量为中心”因子分析方法(FA),比较了不同方法推导的饮食模式特征,以及其与血浆脂质生物标志物、乳腺癌风险的关联。LCA与FA分析通过Mplus软件实现。研究结果(1)本次研究共纳入818例乳腺癌新发病例与935名健康对照,病例组的教育程度低于对照组,超重率,乳腺癌家族史和乳腺良性疾病史高于对照组(P<0.05),其余人口学特征与生殖特征(年龄,居住地,吸烟,体力活动,曾口服避孕药,曾雌激素替代治疗,初潮年龄,分娩数,首次月经年龄,母乳喂养,身高)在两组间分布没有显著统计学差异(P>0.05)。(2)成年期体重增加与绝经后乳腺癌风险显著相关(时期:18岁至诊断或面访前一年,体重每增加5kg,OR=1.23,95%CI=1.10,1.37),体重增加的时期对乳腺癌风险有不同影响,成年后期体重增加的风险(时期:绝经后至诊断或面访前一年,体重每增加5kg,OR=1.65,95%CI=1.28,2.14)高于成年早期(时期:18岁至绝经,每增加5kg,OR=1.14,95%CI=1.02,1.28)。成年期体重增加与中心性肥胖(腰围表征)显著相关(P<0.01),在中心性肥胖显著(腰围≥88cm)的女性中成年期体重增加与绝经后乳腺癌的风险关联显著(每增加5kg,OR=1.14,95%CI=1.00,1.31),未在中心性肥胖程度低(腰围<8 cm)的女性中发现显著关联(每增加5kg,OR=1.11,95%CI=0.88,1.39)。(3)地中海饮食模式的高依从性降低了绝经后乳腺癌的风险(地中海饮食模式评分最高四分位数vs.最低四分位数,OR=0.54,95%CI=0.38,0.78,P-趋势<0.01)。大豆类食品是唯一可以单独降低乳腺癌风险的食品成分(大豆类食品摄入量最高四分位数vs.最低四分位数,OR=0.52,95%CI=0.39,0.69;P-趋势<0.05),但地中海饮食模式对绝经后乳腺癌风险的保护作用不能用大豆类食品的单一效应来解释,在排除了大豆类食品的影响后,保护作用的估计值仅出现了有限的衰减(修订的地中海饮食评分最高四分位数vs.最低四分位数,OR=0.64,95%CI=0.43,0.93,P-趋势<0.05)。(4)一碳代谢通路相关基因的遗传变异与乳腺癌风险改变有直接关联,基于一碳代谢通路中8个关键基因的13个SNPs位点(MTHFD1(rs11627387,rs2281603,rs8003567),TYMS(rs10502289,rs2298582,rs11664283),MTRR(rs16879334,rs2287780),MAT2B(rs4869087),CDO1(rs34869),FOLR1(rs10501409),UNG2(rs231622),ADA(rs244072))计算出的遗传风险评分(PRS)表明,具有高累积遗传变异评分的女性罹患乳腺癌的风险更高(PRS最高四分位数vs.最低四分位数,OR=2.09,95%CI=1.54,2.85,P-趋势<0.01)。遗传风险变异与绝经前乳腺癌风险的关联(PRS最高四分位数vs.最低四分位数,OR=2.30,95%CI=1.31,4.03,P-趋势<0.01)强于绝经后乳腺癌(PRS最高四分位数vs.最低四分位数,OR=1.95,95%CI=1.32,2.87,P-趋势<0.01)。(5)地中海饮食模式与一碳代谢通路相关的遗传风险具有显著的交互作用(P<0.01),当地中海饮食模式依从性较低(地中海饮食模式评分<5)时,一碳代谢通路的遗传变异与绝经后乳腺癌风险显著关联(PRS最高四分位数vs.最低四分位数,OR=2.80,95%CI=1.36,4.13);当地中海饮食模式依从性较高(地中海饮食模式评分≥5)时,关联消失(PRS最高四分位数vs.最低四分位数,OR=1.57,95%CI=0.92,2.66)。尺度分析表明地中海饮食模式作为效应修饰因子,在乘法尺度上影响了一碳代谢遗传变异对绝经后乳腺癌风险的影响(OR主效应地中海饮食*OR主效应_一碳代谢遗传风险=OR联合效应)。(6)基因变异可作为肥胖风险表型BMI的工具变量,孟德尔随机化设计下,基于17个肥胖相关基因21个SNP位点(PPARG(rs4684847,rs1801282,rs709158,rs1175543),C9orf93(rs4740619),LPL(rs316),STXBP6(rs10132280),KCNK3(rs11126666),SBK1(rs2650492),PRKD1(rs12885454),KAT8(rs9925964),AGBL4(rs657452),LEPR(rs7602,rs1137101),HIP1(rs1167827),PON1(rs662,rs12026),HIF1AN(rs17094222),CADM1(rs12286929),TLR4(rs1928295),RASA2(rs16851483))的荟萃分析结果表明BMI每增加1kg/m~2,绝经后乳腺癌风险增加5%(OR=1.05,95%CI=1.01,1.15)。(7)基于暴露因素(成年期体重增加,地中海饮食模式),遗传因素(一碳代谢基因遗传风险评分,肥胖基因遗传风险评分),协变量(其他已知的乳腺癌15个风险因素)构建了绝经后乳腺癌病因关系网络,网络包含20个节点,66条弧,平均马尔科夫毯规模17.20,平均节点邻居6.60,平均分支系数3.30。敏感性分析表明与乳腺癌最相关的直接危险因素是乳腺癌家族史。地域,年龄以及教育程度是乳腺癌病因网络中的大多数节点的父节点。病因关系紧密的节点包括,“地域”→“受教育程度”;“年龄”→(“乳腺良性疾病”,“分娩数”);“受教育程度”→(“地中海饮食模式”,“初潮年龄”,“曾激素替代疗法”,“首次足月分娩年龄”,“分娩数”);“分娩数”→“母乳喂养”;“成年期体重增加”→“身体质量指数”。基于条件概率参数计算的暴露因素与结局的优势比与广义线性模型一致。(8)利用8种监督机器学习方法与贝叶斯网络方法构分别构建了绝经后乳腺癌风险预测模型,模型特征变量来自结果(7)的乳绝经后腺癌病因关系网络节点。在8种机器学习方法中,预测精度最优的为梯度提升机(GBM)模型,准确度为0.64(±0.05),ROC下的AUC面积为0.71,贝叶斯网络(BNs)模型的预测准确度为0.73(±0.02),ROC下的AUC面积为0.76。BNs在预测准确度与稳定性上均高于GBM,AUC值置换检验分析表明两个模型预测价值的差异存在显著统计学意义(Z=0.03,P<0.01)。(9)因子分析(FA)依据食物摄入之间的相关性总结出5种饮食组合,(“谨慎”,“西方”,“中国传统”,“挑食”,“糖”),潜在类别分析(LCA)根据受试者饮食消费的条件概率将将人群划分为4种不同饮食结构(“谨慎”,“西方”,“中国传统”,“挑食”),相同命名的饮食模式在因子载荷(FA)或条件概率(LCA)上具有相似特征。在研究饮食模式与血浆脂质生物标志物关联时,FA衍生的饮食模式在预测HDL胆固醇(P=0.04),三酰甘油(P=0.03),血糖(P=0.04),载脂蛋白A1(P=0.02),高敏感性C反应蛋白(P=0.02)时优于LCA。在研究饮食模式与乳腺癌风险关联时,LCA优于FA(P=0.03),LCA将人群划分为不同饮食结构的互斥亚组,以“审慎”饮食模式作为参照组(其饮食特征与地中海饮食模式最为接近),“挑食”饮食模式潜在类别人群的乳腺癌风险增高42%(OR=1.42,95%CI=1.06,1.90)。(10)使用LCA衍生的饮食模式替代了结果(7)中单一地中海饮食模式构建的乳腺癌病因关系网络,基于路径父子节点的条件概率,推断出“农村地域→“挑食”饮食模式→初潮年龄过早→绝经后乳腺癌风险”的潜在病因关系路径,通过更改整个网络的潜在基础分布完成反事实模拟,预测了潜在病因关系路径节点不同组合下发病风险概率,发现同时满足地域=“农村”,饮食模式=“挑食”,初潮年龄=“10-14”的条件下绝经后乳腺癌发病风险概率73%。最后将病因关系网络转化为预测模型后,预测精度提升1.8%(AUC面积)。研究结论(1)饮食、肥胖与乳腺癌风险的关联研究中,成年期的体重增加与绝经后乳腺癌风险相关,体重增加的时机与中心性肥胖对绝经后乳腺癌的作用更为显著;坚持地中海饮食模式可降低绝经后妇女罹患乳腺癌的风险,大豆类食品的典型消费可能是降低乳腺癌风险的潜在有益因子。(2)环境-基因的相互作用与乳腺癌风险的关联研究中,坚持地中海饮食模式会减弱一碳代谢通路累积遗传变异对绝经后乳腺癌风险的有害影响。孟德尔随机化研究推断出肥胖暴露表型BMI水平增加与绝经后乳腺癌风险存在因果关联。(3)乳腺癌风险预测模型研究中,梯度提升机(GBM)方法在8种监督机器学习方法中预测效果最优。贝叶斯网络方法在预测准确度与稳定性上优于GBM,同时可以清晰的识别风险因素和结局之间的因果关联,使预测结果具有可解释的流行病学意义。(4)“后验”方法推导的饮食模式研究中,因子分析(FA)方法适用于分析食物效应在生物标志物上的协同作用;潜在类别分析(LCA)方法适用于比较具有不同饮食结构人群之间的疾病风险;贝叶斯网络方法与LCA方法联合分析发现了农村地域、“挑食”潜在类别人群、初潮年龄过早等因素与绝经后乳腺癌风险之间的因果关联通路,可为复杂疾病系统的潜在病因通路研究提供方法借鉴。本次研究的创新点:(1)在乳腺癌病因网络研究中,应用贝叶斯网络与因果图(DAG)理论理清了饮食、肥胖、遗传变异以及它们的交互作用在乳腺癌发生中的作用,并通过广义线性模型与孟德尔随机化法进行了验证,评价了遗传背景与环境暴露在中国女性乳腺癌发病机制中的相对贡献,为复杂疾病系统中基因-环境交互作用的深入研究提供了新的思路与实践经验。(2)在乳腺癌风险预测模型研究中,利用贝叶斯网络与DAG图构建了路径清晰的风险预测模型,填补了机器学习方法在因果推断中的路径缺失,同时通过与多种机器学习方法的比较,确立了贝叶斯网络模型作为风险预测工具的可靠性与应用前景,为乳腺癌的风险预测和早期干预研究提供了依据与思路。(3)在饮食效应与乳腺癌风险的关联研究中,分别通过“先验”与“后验”方法将复杂的多维营养数据简化为有意义的饮食模式,并评价了不同方法推导的饮食模式特征,结合贝叶斯网络方法的联合使用发现了乳腺癌新的潜在病因路径,为乳腺癌相关病因路径及病因网络的分析提供了新的研究方向。