论文部分内容阅读
近些年,随着医学信息数据库的不断建立和完善,人工智能+医疗健康成为当今医疗健康行业转型的重要方向,而计算机辅助医疗诊断逐渐成为人们关注的热点领域。本文利用机器学习方法对临床检验数据进行深入挖掘,基于临床需求建立稳健的计算机辅助医疗诊断系统去识别恶性疾病,从而辅助医生快速识别恶性疾病并及时采取应对措施。这套系统的成功构建不仅意味着能够发现本文研究的疾病和常规血液指标之间的深层关联,更有助于探索其他类型疾病和多组分血液指标之间的相关性。第一章,首先简单介绍了常规血液检测的临床现状、方法和意义,大致概括了医学大数据在实施精准医疗过程中发挥的重要作用,同时阐述了目前组织活检和液体活检在临床应用方面各自的不足之处,还对计算机辅助诊断的研究进展和优势进行了总结,最后详细介绍了本文主要涉及的机器学习算法——随机森林。第二章,利用随机森林算法对筛选出的19个常规血液指标进行复杂组合构建的模型可以从肺结核患者和健康人群中准确地识别出肺癌患者。这项研究总共收集了277名具有49项常规血液指标的患者,其中包括183名肺癌患者和94名非肺癌患者。经过10折交叉验证之后,该模型的敏感性、特异性和准确度分别达到0.9630、0.9497和0.9570,这在一定程度上揭示出传统的血液检测数据与肺癌之间有着本质的相关性。这种识别方法被称为RBLC模型,在测试集中也表现出稳定的预测性能,其敏感性、特异性和准确度都超过0.85,分别为0.8571、0.9000、0.8824。这些常规血液指标的组合有望成为一种有效的工具帮助临床医生快速地从肺结核患者中识别出肺癌样本。第三章,为了进一步验证机器学习与常规血液检测数据之间的内在关系,我们尝试从多种胃部疾病和各种癌症中识别高发的胃癌患者。这次研究纳入了更加多元化的数据,总共收集了含有58项常规血液指标的2951例样本,其中交叉验证集2629例,测试集322例。随机森林算法最终选取了17个排名靠前的血液指标作为胃癌预警系统的输入值,并且该模型经过10折交叉验证后,在交叉验证集上的敏感性、特异性、准确性和AUC分别达到了0.9067、0.9216、0.9138和0.9720。这个预警系统叫做GCdiscrimination,不仅为快速、实时地识别胃癌样本提供了一种新的思路,也揭示出胃癌与常规化验指标之间深远的相关性,有助于进一步了解这些指标与胃癌之间的潜在联系,为以后临床价值的研究奠定了基础。第四章,为了在其它类型的疾病筛查上拓展上述方法,我们这次尝试从潜伏性结核中识别易传染的活动性结核感染患者。这次研究总共纳入了478例样本,随机森林算法从其58项血液检测指标中挑选出了36项常规血液检测指标和两项特异性的T-SPOT.TB检测指标,通过对这些指标的复杂组合开发出一种检测活动性结核感染的识别方法。该方法具有很好的分类性能,在交叉验证集和外部验证集的AUC分别达到0.9256和0.8731。这项工作不仅首次提出了利用常规血液检测指标和T-SPOT.TB结果的结合识别活动性结核感染的创新策略,具有及时、高效和经济的优点,它还为全面了解结核病提供了有价值的信息,有助于深入探索结核感染与常规血液检测之间深远的联系。