论文部分内容阅读
华法林(warfarin)是一种口服抗凝血药物,广泛应用于心脏瓣膜置换、房颤等术后抗凝,也常用于多种血液栓塞性疾病的抗凝治疗。华法林在抗凝治疗过程中,存在治疗窗窄、副作用大、患者个体剂量差异大的问题,要求剂量必须精确。临床使用中必须对患者进行采血,依据血液中的国际标准化比值(International Normalized Ratio,简称INR)监测抗凝效果。患者必须要面对长期、频繁的采血,并根据血液监测结果调整华法林剂量,直到INR值达标同时剂量稳定。在此过程当中,患者会长时间面临着因剂量不足导致血栓形成的风险,同时也面临着因剂量过大导致的出血风险。临床上一般会通过已有的华法林剂量预测模型,根据患者自身的相关指标,计算出理想INR值范围内的华法林剂量,并将该剂量作为初始的治疗剂量,如果预测的初始剂量无限接近后期达到的稳定剂量,患者就可以一直使用最有效、最安全的剂量进行抗凝治疗,有效避免在治疗中出现不良反应。华法林剂量预测的研究,是将患者人口学、临床因素等作为模型的输入特征,通过回归算法形成剂量预测模型。国际公认的华法林剂量预测模型是国际华法林药物遗传学联合会(International Warfarin Pharmacogenetics Consortium,简称IWPC)基于线性回归算法建立的IWPC模型。IWPC在预测模型的研究中,发现细胞色素P4502C9(CYP2C9)和维生素K环氧化物还原酶复合物1(VKORC1)基因多态性,对华法林的治疗剂量有显著影响。由于基因型与剂量之间不存在线性关系,所以华法林剂量预测实际上是一个多元非线性回归任务。机器学习在完成非线性回归任务方面有一定的优势,通过机器学习建立的模型可以融合大量的输入特征,发现变量特征的非线性关系。目前国内外华法林剂量预测模型使用的算法,也由线性回归算法转为机器学习算法。在机器学习领域中,集成学习可以较大程度上提高算法的精确度,并增强算法的稳定性。本文基于IWPC提供的公开样本数据,利用特征选择和Stacking集成算法建立了华法林剂量预测模型。针对数据维度大同时存在冗余特征的情况,采用RRelief F算法计算特征权重并结合相关性检验的方法,共同完成特征选择过程并形成最优特征子集,经基学习器和Stacking集成模型验证,经过特征选择形成的最优特征子集,在预测性能上优于原始数据集,能够更好地解释IWPC数据集中所有特征对剂量的影响能力。本文对传统Stacking集成算法进行了改进,针对传统Stacking算法中K折交叉验证采用平均值形成测试集的环节,将平均值改进为RMSE倒数加权平均,并且将最优特征子集的特征关系输入到元学习器,结合基学习器的预测结果共同作为元学习器的特征输入,形成了改进Stacking算法。实验结果证明,最优特征子集结合改进Stacking算法建立的华法林剂量预测模型,各方面性能均优于基学习器和传统Stacking算法建立的模型。同时对比当前临床应用的IWPC公式和基于多元线性回归(MLR)建立的预测模型,各方面性能均有一定的提升。