论文部分内容阅读
目的:分析急性胰腺炎(acute pancreatitis,AP)患者住院人数的发病特点和内在周期性、季节性等时间趋势规律,并构建自回归移动平均(autoregressive integrated moving average,ARIMA)模型、长短期记忆(long-short term memory,LSTM)神经网络模型及ARIMA-LSTM组合模型,探讨并比较三种模型在预测AP患者住院人数时间趋势中的应用效能。方法:基于我院AP患者大数据库,收集2014年1月至2019年12月(共72个月)AP住院患者的病例资料,使用Python语言软件对患者基本特征信息进行描述分析。再将前60个月的AP月度住院患者人数做为训练集,应用Python语言软件分别建立ARIMA模型、LSTM模型及ARIMA-LSTM组合模型,构建出的三种模型再对后12个月的AP患者住院人数进行预测做为测试集,最后观察并评估比较不同模型的拟合效果。结果:(1)我院2014年1月至2019年12月共计3939例AP住院患者,其中男性2292人,女性1647人,分别占总人数的58.2%和41.8%;AP最常见的原因是胆源性AP(1898例,48.2%),其次是高甘油三酯血症性AP(hypertriglyceridemic AP,HTG-AP)(1429例,36.3%),而酒精性AP占281例(7.1%),混合性AP占199例(5%),其他原因AP占132例(3.4%);AP发病年龄高峰为40~50岁。(2)时间序列分析显示我院AP患者住院人数承逐年增长趋势,且AP发病有季节性变化,每年2~3月为发病高峰,其次为9~11月,夏季发病相对较少。(3)ARIMA模型对测试集的预测值曲线与真实值曲线波动趋势相似,但波动幅度偏倚较大,该模型的精确度指标均方根误差(root mean squard error,RMSE)为13.7937,绝对误差(mean absolute error,MAE)为8.1659;LSTM神经网络模型的预测曲线与真实值曲线整体趋势、波动情况都大致同步,该模型的RMSE值为2.6943,MAE值为1.9921;ARIMA-LSTM组合模型的预测曲线与真实值曲线整体趋势和波动情况基本一致,该组合模型的RMSE值为1.46985,MAE值为1.0087。(4)三种不同思路构建的模型中,基于机器学习技术的LSTM模型较传统的ARIMA模型预测精确度更高,而ARIMA-LSTM组合模型的预测精确度最高,预测效果最好,即组合模型预测效果优于单一模型。结论:(1)AP住院患者人数呈逐年上升趋势,好发于中年患者,且以胆源性AP及HTG-AP较多见;AP发病存在季节性变化,2~3月为发病高峰,其次为9~11月,夏季发病相对较少。(2)ARIMA-LSTM组合模型对AP住院患者人数的预测精准度优于LSTM模型,且此二者的预测精准度显著优于ARIMA模型,即组合模型预测效果优于单一模型,单一模型中基于机器学习的LSTM模型优于传统的ARIMA模型。(3)ARIMA模型总体建模过程相对简单,可解读性好,但预测效果偏倚较大;而LSTM模型较ARIMA预测精准度更好,但建模过程相对复杂,且可解释性差;ARIMA-LSTM组合模型较单一模型的预测精准度最高,但也存在建模过程可解释性较差、参数众多等不足。