论文部分内容阅读
宫颈癌是女性癌症死亡的第四大死因。尽管人们的健康意识、筛查意识有所提高,但整体来看,我国宫颈癌定期筛查的覆盖率仍然较低。高危型HPV的感染是导致宫颈癌发生的原因,但并不是感染了高危型HPV就一定会发展成宫颈癌,大多数人都可以通过自身免疫力将其清除,少数会发展成宫颈癌;同时,宫颈癌形成之前会经历漫长的癌前病变状态,如果能及时的发现宫颈病变,早诊断、早治疗,可以避免宫颈癌的发生。近年来,通过循证医学等方式为医生提供临床决策辅助支持发展迅速,但其仍然还存在一些问题。一方面:病例数据难收集、缺失值多和患病样本占比少的特点,使得在疾病预测方面产生较大困难,没有充足的数据进行训练可能会导致训练结果不准确,而且大量的缺失值填补可能会给病例数据造成的偏差,医学的不可试错性提醒本研究要关注这些难题;另一方面,医生就诊时会先检查患者的HPV感染情况,再决定是否进行活检来观测是否病变。临床越来越多病例发现,最初并没有检测到高危型HPV,但活检结果却显示已经达到高级病变阶段,这启示我们,如果单纯以HPV作为医生判断患者是否可能产生病变的唯一条件,那么可能会出现漏诊情况;如果让所有患者直接去进行活检,检出率比较低,不仅造成医疗资源浪费,还对患者身体造成一定程度上损害。如何设计出一种有效的宫颈病变预测方法,帮助医生充分分析患者情况,更加准确的提供决策依据是亟待需要解决的问题之一。本课题通过采用一种基于图(Graph Computing)的处理方式构建疾病风险因素关系结构,提出一种基于关键风险因素挖掘的疾病预测方法。首先,以宫颈癌医学文献数据为主体,构建风险因素关系图结构,基于常见风险因素,挖掘潜在关键风险因素。本课题利用相关医学文献,从中提取关键词以及词频特征,构建风险因素关系图结构;收集常见风险因素作为种子节点,并基于此图结构,使用子图挖掘和节点影响值计算方法挖掘潜在关键风险因素。通过图结构可以描述风险因素之间的关系,为挖掘潜在关键风险因素提供可能。其次,本课题提一种高风险患者识别方法,将患者感染高危型HPV的风险等级进行分类,并进行相应风险分类的随访周期制定。基于风险因素关系图结构,将患者病例信息,通过映射算法,映射到关键风险因素集合当中,再利用患者病例的全部关键风险因素映射结果,计算患者风险值并分类为高风险、中风险、低风险患者;统计所有患者的风险等级及随访周期情况,制定每种风险水平患者的相应随访周期。通过这种方法评估患者感染风险,能够避免仅靠检测高危型HPV来判断病变出现的漏诊情况。最后,本课题结合患者风险等级,使用患者表现异常的风险因素,对患者病变阶段进行预测。考虑不同病变阶段紧密风险因素的差异性,计算患者属于某个病变阶段的分类值,再综合考虑患者风险等级,进行分类预测。这一方法能够有效为医生提供临床决策支持,起到辅助决策作用。经过实验验证,本文利用图结构的计算优势以及更加契合疾病发生原理的特征选取方式,能够利用风险因素对患者的病例信息进行全面分析,用风险等级来描述患者情况,同时进行病变阶段预测,更加准确的把握患者病情,通过循证医学的手段,为医生决策提供准确的辅助支持。