论文部分内容阅读
伴随着大数据时代的来临,序列性数据的使用日益广泛,在数据挖掘和人工智能领域也有大量的相关研究和开发尝试。序列性数据是一组有着前后顺序关系的观察的集合,可以在生活的方方面面见到,例如心电图(ECG),每日温度,每周销售总额以及基金和股票的价格等时序数据,氨基酸序列数据等。序列性数据最主要的性质就是连续性,序列数据以数值和连续性为特征,始终被视为一个整体,而不是单个数值字段。随着自然语言处理(NLP)技术的发展,序列性数据相关的前沿工作越来越多地开始借鉴NLP领域的思路与模型结构。序列性数据的相关研究虽然被越来越多的研究者所关注,但目前NLP领域外大部分涉及到序列性数据的研究与应用都把关注点放在序列性数据的结果预测上,比如股票走势预测,航班乘客预测等,关注点都在模型的输出,也就是预测目标具有序列性,而对于模型构建过程中,具有序列性的特征并没有给予足够的关注。针对上述问题,本文结合具体项目实例,迁移学习自然语言处理的方法,针对特征具有序列性的预测分类问题,提出了基于word2vec-LSTM的模型框架。并分别在拟合和分类两大类问题上使用项目实例进行具体应用说明和结果分析。针对具有序列性特征的拟合问题,本文提出一种基于Tem2vec-LSTM框架的燃气负荷预测模型。利用word2vec算法对燃气负荷预测问题中的时序性特征——温度进行Tem(temperature)2vec训练,将其映射为蕴含着更多潜在信息的高维稠密向量。并使用在处理时序数据方面具有优越性能的长短时记忆网络LSTM进行建模,充分利用同环期负荷,年月日信息等特征进行短期负荷预测。该框架对于能源公司后续的能源调配以及运营决策具有重要作用,并且补充了具有时序性特征拟合问题的研究思路。针对具有序列性特征的分类问题,本文提出一种基于AA2vec-GRU模型框架的新生抗原预测分类框架。将新生抗原预测分类问题中的序列性特征——氨基酸序列进行词向量AA(amino acid)2vec转换,并使用收敛速度更快的LSTM神经网络的简化版变种GRU(Gated Recurrent Unit)神经网络进行建模。并将结果与目前流行方法进行了性能对比。实验结果表明该模型在新生抗原分类问题上结果更好。本文提出的模型框架亮点在于(1)迁移学习自然语言处理的方法,对于具有时序性的特征的预测和分类问题,提出了基于word2vec-LSTM的模型框架,使神经网络能够深入发现与学习时序性特征的内在联系,提高模型输出准确性。(2)针对燃气负荷预测问题,提出了基于Tem2vec-LSTM的负荷预测模型,对该问题中时序性特征——温度进行词向量训练。通过对比,该模型的拟合结果更好,准确度更高。(3)针对新生抗原预测分类问题,考虑氨基酸序列特征的前后排列关系,提出了基于AA2vec-GRU的分类模型。(4)在模型搭建阶段,本文又引入了若干层DenseNet网络,该网络参数相对较少,计算更快,同时也有着出色的抗拟合性能,泛化能力较强,文章中LSTM层与DenseNet层的组合使得整体网络效率更高,更准确。