论文部分内容阅读
妊娠期肝内胆汁淤积症(ICP)是妊娠期间严重危害母婴健康的特发性疾病,其发病率高达12%,能够造成一系列不良妊娠结局。由于ICP的病因尚不明确,早期诊断、及时干预、合理治疗仍然是对ICP最有效的措施。然而,目前临床上对ICP的诊治主要是基于胆汁酸等生化指标的筛查,其敏感度和特异性较低,无法及时发现ICP。因此,如能做到在妊娠早期发现ICP并进行合理干预治疗,对促进母婴健康具有重大意义。临床试验证实,GCA、ACOX1和棕榈酰肉碱三大生物标志物与ICP的发生密切相关,可以用于ICP的早期诊断模型研究。本文基于该发现,将ICP早期诊断分为标志物预测与ICP诊断两个步骤,运用机器学习方法构建妊娠早期三大生物标志物预测模型和ICP诊断模型。首先提出一种多元时间序列相似性度量方法,用于筛选具有相似生物标志物变化趋势的ICP样本合集,以提高标志物预测模型的准确率;然后提出一种ICP生物标志物预测模型,在每个样本集上分别训练预测模型,实现对妊娠中后期ICP生物标志物的准确预测;最后,构建ICP诊断模型,根据预测数据对ICP进行诊断。具体工作如下:(1)不同孕周ICP生物标志物含量呈多元时间序列形式,为了提高预测模型的精度,需筛选出具有相似标志物变化模式的样本合集。针对现有相似性度量方法不能有效地提取多元时间序列的特征模式并进行相似性度量的问题,提出一种基于多维分段和动态权重动态时间弯曲距离的多元时间序列相似性度量方法MS-DWDTW。首先对多元时间序列进行多维分段,提取分段的斜率、均值以及时间跨度作为分段特征表示,在降维的同时保留了变量之间的相关性及序列的形态与值特征。针对动态时间弯曲距离造成的畸形匹配问题,提出一种动态权重动态时间弯曲距离度量方法,该方法为每个序列点赋予权重,在求解过程中根据序列点匹配次数自适应地减小其权重。实验表明,基于MS-DWDTW方法的KNN算法在不同规模的数据集上都能取得较高的查找准确率。(2)提出一种基于双路LSTM和ARIMA的ICP生物标志物预测模型。直接在原始序列上构建的LSTM网络模型预测准确率不高,因此,本文基于多维分段的思想,提取序列的趋势特征得到趋势特征序列,并构建序列趋势特征的LSTM网络预测模型。根据预测误差采用CRITIC权重赋值方法将序列趋势预测结果与序列值预测结果相结合,得到基于LSTM网络的初步预测值。采用ARIMA模型拟合LSTM网络的预测残差,并利用模型预测LSTM网络的预测误差,用于修正LSTM的预测值。实验结果表明,趋势序列预测网络的加入相较于单一LSTM网络,在整体预测误差上有一定程度的降低,而ARIMA模型又能很好地修正双路LSTM网络的预测结果。与现有的预测方法相比,所提出的模型也能取得最小的预测误差,在ICP标志物预测上具有很大优势。(3)提出一种改进的代价敏感Adaboost集成方法。传统的Adaboost算法没有考虑将患者诊断为健康人的代价要大于将健康人诊断为患者的代价,即对代价不敏感,而代价敏感的AdaCost算法则需要人为提供难以确定的错分代价因子。对此,本文对Adaboost集成算法进行改进,将基分类器对患者的查全率引入到分类器集成的目标函数中,基于基分类器的加权错误率和加权查全率确定其集成权重,使得分类错误率低且查全率高的基分类器具有更高的权重系数,提高诊断模型对ICP患者的识别能力。实验表明,采用改进后的Adaboost方法集成SVM的诊断模型与其他集成诊断模型相比,虽然没有提升诊断准确率,但其将患者诊断为健康人的次数明显降低,能够满足ICP诊断的需求。