论文部分内容阅读
研究背景
胆石症是胆汁中胆固醇或胆色素等成分在胆囊或胆管中凝结析出结石的疾病。大多数胆石症患者是无症状的,但仍有部分患者因急慢性炎症而表现为胆道绞痛等症状,并可引起多种并发症,如急性胰腺炎、胆道穿孔、肝损伤、胆道系统恶性肿瘤等。除了增加医疗费用之外,还会危及患者的生命。由于环境和饮食习惯的差异,我国各个地区报告的胆石症患病率在2.4%-22.9%之间。
根据结石的所在部位,可将胆石症分为胆囊结石、胆管结石和胆囊结石合并胆管结石。80%-90%的胆囊结石通常为胆固醇结石或混合性结石,单纯的胆管结石多为胆色素结石,而胆囊结石合并胆管结石多是由胆囊结石发展而来。不同部位结石的发病机制不同,相应的临床实验室检查指标变化也不同。与胆石症患病有关的因素包括年龄、性别、高血压、糖尿病、胆红素、转肽酶、血红蛋白等。
大多数患者为无症状的胆石症患者,仅表现某些血象指标的升高,常在出现症状、体检或检查其他疾病时被发现,因此对于胆石症的早期识别尤为重要。腹部超声虽然简单易操作,无放射性危害,常作为胆道结石的首选检查方式,但由于结石的大小及所在部位不同、肠管内气体等,对于小结石或某些胆总管结石可能无法显影。CT和MRI对于胆石症诊断的准确率较高,但医疗费用较为昂贵,被检查者接受检查的时间较长,同时对于被检查者的配合性要求较高,局限性较大。而血清学检查操作简单,价格低廉,如果能够在生化指标和血常规指标中发现与胆石症有关的血清学指标,并结合患者的基本信息情况,构建胆石症的判别模型,将对胆石症的筛查有一定的辅助作用,指导人群尽早检查和诊断。
研究目的
通过成组设计病例对照研究,利用LASSO回归结合Logistic回归筛选并分析胆石症患病的相关因素,了解不同部位胆石症之间的临床实验室指标差异。通过无序多分类Logistic回归和随机森林算法构建胆石症的判别模型,以判别个体是否患有胆囊结石、胆管结石或胆囊结石合并胆管结石,并对两种模型进行评价和比较,以选出最优模型。
研究方法
本研究资料来源于2019年11月1日至2020年10月31日山东省立第三医院胆石症患者和体检人群的电子病历。根据研究对象纳入、排除标准,选取出院诊断为胆石症的患者作为病例组,在体检人群中选取无胆石症诊断且与病例组同年体检的人群作为对照组,进行基于医院的成组设计病例对照研究。利用医院的电子病历系统检索研究对象的电子病历,提取其基本信息情况(年龄、性别)、共患病情况(高血压、糖尿病、乙肝、肾结石)、生化指标以及血常规指标。
使用R4.0.4软件进行数据处理和统计分析。采用x2检验、t检验、Mann-WhitneyU检验等方法进行胆石症患者与体检人群的差异对比分析,利用LASSO回归筛选胆石症的相关因素,基于多因素Logistic回归分析胆石症患病的相关因素。采用方差分析、Kruskal-WallisH检验、Nemenyi检验等方法比较不同部位胆石症患者基本信息和临床实验室检查指标的差异。利用LASSO回归筛选胆石症的判别因子,基于无序多分类Logistic回归和随机森林算法分别构建胆石症的判别模型,并对两种模型进行评价和比较。
研究结果
在本病例对照研究中,胆石症患者组1167人,体检人群组1344人。胆石症患者组中胆囊结石545例,胆管结石135例,胆囊结石合并胆管结石487例。经LASSO回归分析,共筛选出23个变量,并对连续性变量进行分组。通过逐步回归纳入多因素Logistic回归模型,最终采用了年龄、有无高血压、肌酐和总蛋白等16个变量。相比于18-44岁组,年龄在45-64岁和65岁及以上与三种胆石症均呈正相关。患有高血压仅与胆囊结石呈正相关(OR=2.61,95%CI:1.67-4.07),而患有肾结石与胆囊结石(OR=5.90,95%CI:1.55-22.54)和胆管结石(OR=7.55,95%CI:1.32-43.25)均呈正相关。与指标正常组相比,直接胆红素、谷丙转氨酶、转肽酶偏高与三种胆石症均相关,总蛋白、白蛋白、淋巴细胞计数、血红蛋白和平均血小板体积偏低与三种胆石症均相关,而红细胞分布宽度偏高仅与胆管结石有关(OR=0.07,95%CI:0.01-0.75),血小板压积偏低仅与胆囊结石有关(OR=0.22,95%CI:0.09-0.57)。中性粒细胞计数与三种胆石症均无统计学意义上的关联。
比较胆石症的两种判别模型,无序多分类Logistic回归模型在测试集中的AUC值为0.793,准确度为0.748,宏平均精准度为0.593,宏平均召回率为0.538,宏平均F1分数为0.529。随机森林模型在测试集中的AUC值为0.755,准确度为0.728,宏平均精准度为0.492,宏平均召回率为0.501,宏平均F1分数为0.489。相比而言,无序多分类Logistic回归模型相对较优。
研究结论
1.本研究表明年龄是胆石症的危险因素,患有高血压与胆囊结石呈正相关,患有肾结石与胆囊结石和胆管结石呈正相关。
2.相比于指标正常组,直接胆红素、谷丙转氨酶、转肽酶偏高和总蛋白、白蛋白、淋巴细胞计数、血红蛋白和平均血小板体积偏低与三种胆石症均相关。红细胞分布宽度偏高仅与胆管结石有关,而血小板压积偏低仅与胆囊结石有关。
3.综合比较胆石症的无序多分类Logistic回归模型和随机森林模型,无序多分类Logistic回归判别模型的综合效能较好,对于胆石症的临床防治有一定的参考价值。
胆石症是胆汁中胆固醇或胆色素等成分在胆囊或胆管中凝结析出结石的疾病。大多数胆石症患者是无症状的,但仍有部分患者因急慢性炎症而表现为胆道绞痛等症状,并可引起多种并发症,如急性胰腺炎、胆道穿孔、肝损伤、胆道系统恶性肿瘤等。除了增加医疗费用之外,还会危及患者的生命。由于环境和饮食习惯的差异,我国各个地区报告的胆石症患病率在2.4%-22.9%之间。
根据结石的所在部位,可将胆石症分为胆囊结石、胆管结石和胆囊结石合并胆管结石。80%-90%的胆囊结石通常为胆固醇结石或混合性结石,单纯的胆管结石多为胆色素结石,而胆囊结石合并胆管结石多是由胆囊结石发展而来。不同部位结石的发病机制不同,相应的临床实验室检查指标变化也不同。与胆石症患病有关的因素包括年龄、性别、高血压、糖尿病、胆红素、转肽酶、血红蛋白等。
大多数患者为无症状的胆石症患者,仅表现某些血象指标的升高,常在出现症状、体检或检查其他疾病时被发现,因此对于胆石症的早期识别尤为重要。腹部超声虽然简单易操作,无放射性危害,常作为胆道结石的首选检查方式,但由于结石的大小及所在部位不同、肠管内气体等,对于小结石或某些胆总管结石可能无法显影。CT和MRI对于胆石症诊断的准确率较高,但医疗费用较为昂贵,被检查者接受检查的时间较长,同时对于被检查者的配合性要求较高,局限性较大。而血清学检查操作简单,价格低廉,如果能够在生化指标和血常规指标中发现与胆石症有关的血清学指标,并结合患者的基本信息情况,构建胆石症的判别模型,将对胆石症的筛查有一定的辅助作用,指导人群尽早检查和诊断。
研究目的
通过成组设计病例对照研究,利用LASSO回归结合Logistic回归筛选并分析胆石症患病的相关因素,了解不同部位胆石症之间的临床实验室指标差异。通过无序多分类Logistic回归和随机森林算法构建胆石症的判别模型,以判别个体是否患有胆囊结石、胆管结石或胆囊结石合并胆管结石,并对两种模型进行评价和比较,以选出最优模型。
研究方法
本研究资料来源于2019年11月1日至2020年10月31日山东省立第三医院胆石症患者和体检人群的电子病历。根据研究对象纳入、排除标准,选取出院诊断为胆石症的患者作为病例组,在体检人群中选取无胆石症诊断且与病例组同年体检的人群作为对照组,进行基于医院的成组设计病例对照研究。利用医院的电子病历系统检索研究对象的电子病历,提取其基本信息情况(年龄、性别)、共患病情况(高血压、糖尿病、乙肝、肾结石)、生化指标以及血常规指标。
使用R4.0.4软件进行数据处理和统计分析。采用x2检验、t检验、Mann-WhitneyU检验等方法进行胆石症患者与体检人群的差异对比分析,利用LASSO回归筛选胆石症的相关因素,基于多因素Logistic回归分析胆石症患病的相关因素。采用方差分析、Kruskal-WallisH检验、Nemenyi检验等方法比较不同部位胆石症患者基本信息和临床实验室检查指标的差异。利用LASSO回归筛选胆石症的判别因子,基于无序多分类Logistic回归和随机森林算法分别构建胆石症的判别模型,并对两种模型进行评价和比较。
研究结果
在本病例对照研究中,胆石症患者组1167人,体检人群组1344人。胆石症患者组中胆囊结石545例,胆管结石135例,胆囊结石合并胆管结石487例。经LASSO回归分析,共筛选出23个变量,并对连续性变量进行分组。通过逐步回归纳入多因素Logistic回归模型,最终采用了年龄、有无高血压、肌酐和总蛋白等16个变量。相比于18-44岁组,年龄在45-64岁和65岁及以上与三种胆石症均呈正相关。患有高血压仅与胆囊结石呈正相关(OR=2.61,95%CI:1.67-4.07),而患有肾结石与胆囊结石(OR=5.90,95%CI:1.55-22.54)和胆管结石(OR=7.55,95%CI:1.32-43.25)均呈正相关。与指标正常组相比,直接胆红素、谷丙转氨酶、转肽酶偏高与三种胆石症均相关,总蛋白、白蛋白、淋巴细胞计数、血红蛋白和平均血小板体积偏低与三种胆石症均相关,而红细胞分布宽度偏高仅与胆管结石有关(OR=0.07,95%CI:0.01-0.75),血小板压积偏低仅与胆囊结石有关(OR=0.22,95%CI:0.09-0.57)。中性粒细胞计数与三种胆石症均无统计学意义上的关联。
比较胆石症的两种判别模型,无序多分类Logistic回归模型在测试集中的AUC值为0.793,准确度为0.748,宏平均精准度为0.593,宏平均召回率为0.538,宏平均F1分数为0.529。随机森林模型在测试集中的AUC值为0.755,准确度为0.728,宏平均精准度为0.492,宏平均召回率为0.501,宏平均F1分数为0.489。相比而言,无序多分类Logistic回归模型相对较优。
研究结论
1.本研究表明年龄是胆石症的危险因素,患有高血压与胆囊结石呈正相关,患有肾结石与胆囊结石和胆管结石呈正相关。
2.相比于指标正常组,直接胆红素、谷丙转氨酶、转肽酶偏高和总蛋白、白蛋白、淋巴细胞计数、血红蛋白和平均血小板体积偏低与三种胆石症均相关。红细胞分布宽度偏高仅与胆管结石有关,而血小板压积偏低仅与胆囊结石有关。
3.综合比较胆石症的无序多分类Logistic回归模型和随机森林模型,无序多分类Logistic回归判别模型的综合效能较好,对于胆石症的临床防治有一定的参考价值。