论文部分内容阅读
股票市场的变化是一个国家经济发展的“晴雨表”,中国股市的投资者大多以散户为主,依靠各种新闻报道、通过分析报告或者一些小道消息来分析和买卖股票,近年来随着网络技术的快速发展,越来越多的股民喜欢通过网络平台发表或获取相关股票的评论,作为股票投资的重要渠道。股市网络舆情在股票论坛中多以网络评论的形式存在,其中大约90%是文本数据,具有数据量大、非结构化、实时变化的特点,因此投资者如何利用网络上的碎片评论信息来预测股市的发展趋势,并以此来优化自己的投资决策是目前研究的一个热点也是难点。本文选取2016年东方财富股吧(http://guba.eastmoney.com)的上海证券交易所股票价格综合指数(Shanghai Stock Exchange,SSE)180股指的网络评论为研究对象,利用文本挖掘技术构建基于基于自适应噪声的完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition With Adaptive Noise,CEEMDAN)算法的AdaBoost-IWOA-Elman预测模型。文章具体工作如下:(1)股市信息的获取及规范化。首先利用Python Spyder网络爬虫抓取东方财富网2016年SSE180股指的评论信息,通过Python Jieba中文分词对评论信息分词,并利用多个停用词表去除高频率且无意义的停用词,通过词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)算法计算舆情特征词在整体舆情数据语料库中的重要程度,最后根据特征词权重的高低,利用向量空间模型(Vector Space Model,VSM)模型来表示量化后的数据集。(2)重要属性选择。首先通过Boruta算法初步筛选重要属性以减少属性集的复杂度,然后通过CEEMDAN算法在筛选的各属性中添加一定数量特定方差的白噪声,实现属性序列的分解与降噪,最后将分解后各属性值中相近的固有模态函数(Intrinsic Mode Function,IMF)分量及R余项合并,将合并后的分量及余项作为最后的建模属性集。(3)构建AdaBoost-IWOA-Elman预测模型。首先利用鲸鱼优化算法(Whale Optimization Algorithm,WOA)算法在迭代过程中不断优化Elman神经网络的初始权值和阈值,有效解决了Elman神经网络预测精度低的问题,同时为了增强鲸鱼优化算法的全局搜索能力和局部开采能力,引入自适应权重,以保证WOA算法在迭代过程中有合适的非线性权重,最后利用AdaBoost算法,通过连续迭代将5个弱IWOA-Elman预测器重新组合成一个强预测器,从而提高了预测精度。实验结果表明:组合预测模型AdaBoost-IWOA-Elman,比单独使用Elman神经网络,其平均绝对误差(Mean Absolute Error,MAE)从269.57降低至122.235,与未采用CEEMDAN算法的原始数据集相比,其平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)从4.9423%降低到1.671%,有效提高了预测精度,为股市网络舆情的预测提供了一种有效可行的试验方法。