论文部分内容阅读
随着大数据时代的到来和人工智能技术的飞速发展,预测模型的研究已成为人工智能领域的一个重要分支,现已被广泛应用于智慧工业、智慧医疗、智慧金融等多个领域。近年来,基于机器学习算法的智能预测已开始应用于自然灾害监测、工业数据预警、医疗辅助诊断等领域,并取得了良好的效果。传统机器学习模型存在特征提取不充分、泛化能力不足等问题,从而导致模型的预测性能不佳。以深度学习算法为代表的深度神经网络凭借其高效的深层特征提取优势以及出色的泛化能力,在解决复杂预测问题时表现突出。本文从理论研究和实际应用角度出发,以稀疏自编码、长短时记忆等深度神经网络为理论基础,以一维滑坡数据和三维脑肿瘤医学数据作为研究对象,从多个维度提出了三种预测准确率高且泛化性能好的预测模型,并应用于滑坡易发性预测和脑肿瘤患者预后生存时间预测。本文主要的研究内容如下:(1)提出基于稀疏自编码网络和多分类器(Sparse Feature Extraction,SFE+)的预测模型。首先,构建一维数据的稀疏特征提取网络,在该网络输入层随机丢弃部分样本特征,使得网络不过度依赖于某些特征,缓解过拟合,从而提高模型的泛化性能。其次,在隐藏层中引入生命时间稀疏性,一定程度上解决数据非线性耦合问题,在众多随机特征中提取可用于预测的稀疏特征。最后,将提取出的稀疏特征通过支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression,LR)和随机梯度下降(Stochastic Gradient Descent,SGD)分类器,即:构建SFE-SVM、SFE-LR和SFE-SGD预测模型,实现一维信号预测。构建的模型统称为SFE+模型。将SFE+模型应用于实际采集的石城县地质数据,预测滑坡易发性。实验表明,本文提出的SFE+网络可以有效提升模型的预测性能。滑坡易发性预测精度和预测率曲线面积(Area Under Curve,AUC)分别为:SFESVM(74.52%,0.809)、SFE-LR(72.98%,0.819)、SFE-SGD(72.68%,0.808)。因此,本文提出的基于稀疏自编码网络和多分类器的预测模型能较好地解决数据耦合问题,有效提取出可用于预测的一维数据稀疏特征,提高预测准确率。(2)提出基于一维卷积和长短时记忆网络(One-Dimensional Convolution and Long Short-Term Memory Network,1DCNN-LSTM)的预测模型。首先,构建由2个卷积层,1个LSTM模块和3个全连接层构成的网络,可以充分关联数据间的相关性,提取一维预测特征。其次,使用交叉熵损失函数和Adam优化器进行网络的优化,加快模型的收敛速度。最后,通过Softmax函数完成二分类,实现预测。将1DCNN-LSTM模型应用于石城县的滑坡易发性预测。实验表明,1DCNNLSTM模型的预测精度为74.65%,AUC值为0.875,均明显高于SVM、LR和SGD模型,并略高于上一章提出的SFE-SVM模型。由此可见,本文提出的1DCNN-LSTM预测模型有较强的特征提取能力,收敛较快,预测性能比经典分类器有显著提升。(3)提出基于主成分分析降维的一维卷积和长短时记忆网络(OneDimensional Convolution and Long Short-Time Memory Network Based on Principal Component Analysis Dimension Reduction,PCA-1DCNN-LSTM)的预测模型。相比于前两章所处理的一维特征而言,图像具有更高维的特征,需要更为复杂的网络来获取可用于预测的有效特征。本文提出的针对图像的PCA-1DCNN-LSTM预测模型是在1DCNN-LSTM的基础上结合了主成分分析特征选择模块,其能有效的筛选出特征子集,从而避免了冗余信息对预测模型的影响。此外,在网络中增加L2正则化和dropout,提高了模型的泛化能力。将PCA-1DCNN-LSTM模型应用于多模态脑肿瘤分割竞赛Bra TS2020(Multimodal Brain Tumor Segmentation Challenge 2020,Bra TS2020)数据集。首先,分割出多模态医学影像数据的目标区域。其次,利用pyradiomics软件从分割出的区域中提取出278个特征。最后,将所提取的特征经过PCA-1DCNN-LSTM预测模型,实现脑肿瘤患者预后生存时间的预测。实验表明,本文所提出PCA-1DCNN-LSTM模型的预测准确率为52.78%,高于几种传统机器学习模型(KNN:44.44%、SVM:47.22%、LR:30.56%)。因此,本文提出的PCA-1DCNN-LSTM预测模型能对高维特征降维,充分提取预测信息,提高预测准确率,扩展预测模型的应用范围。综上所述,本文基于深度学习理论,针对不同的信号特征,提出了三种预测模型,并应用于滑坡预测和脑肿瘤患者预后生存时间的预测,获得了较高的客观指标。本文提出的SFE+预测模型可以较好的解决非线性数据耦合问题,有效提升分类器的预测性能;提出的1DCNN-LSTM预测模型有较强的特征提取能力,对一维滑坡预测性能有显著提升;提出的PCA-1DCNN-LSTM预测模型可以以图像作为输入,从高维的特征中提取预测特征实现预测。将本文提出的三种预测模型应用于实际采集的滑坡地质数据和脑肿瘤多模态影像数据集,均获得了高性能的滑坡易发性预测和脑肿瘤预后生存时间预测。因此,本文提出的预测模型具有一定的理论创新性,并且在防灾减灾、智慧医疗等领域有应用价值。