论文部分内容阅读
互联网时代的到来,标志着我们生活方式的巨大改变。人们通过网络可以获取各种想要的信息。特别是伴随着Web技术由Web1.0向Web2.0逐渐过渡,金融领域信息开始在网络上进行集散,论坛、博客等等提供互动的领域不断地涌现。论坛作为众多互动平台之一,越来越多的股民在股票论坛中发表个人对当前股市的看法,产生了大量的具有极大研究价值的网络文本,这些信息中往往包含投资者对股市的相关评论以及今后可能的投资计划信息,由此通过这一类型的股票评论来了解投资者的未来的行为是一条行之有效的路径。目前,国内外已有部分学者尝试通过对社会网络的分析来预测短期股市行情。国外的工作主要关注的是较为成熟的欧美股市,其方法对不太成熟中国股市的描述能力尚待考证;国内已有的工作则主要是探索性工作,缺乏系统性和可量化预测工作。鉴于此,本文通过对国内股市相关的文本资源的抽取和建模并结合情感分析方法,构建了股市涨跌预测模型对短期股市行情进行预测。本文的主要研究工作和贡献如下:第一,互联网上大量存在的关于股市的文字评论有可能反映当前股市的行情,利用这些股票评论,对股市行情能做出一定的预测。本文提出了基于向量空间模型和词向量模型对股票评论文本建模的方法。在学习得到词向量之后,本文采用k-means聚类方法将文本聚类为k个类别。随后,本文提出从文本到词集的映射规则,通过文本和词集的映射规则将短文本映射到一个k维的向量空间中,最后完成对文本的建模。实验结果表明,在词向量建模方式下的最优准确率68%要显著高于在向量空间模型下的最优准确率63.8%,并且这两个准确度都要高于相关文献中给出的预测结果。第二,上述基于简单文本特征的预测方法只考虑了表层特征,对文本中蕴含的深层次信息描述能力有限。因此本文提出一种融合情感分析的股票预测方法。通过预先选取少量已标注情感极性的词汇作为种子词,计算未知情感极性词语与种子词汇的相关性,最终自动生成股票情感词典,并以此词典为基础来对文本进行深层次建模。实验结果表明,融合情感特征的方法比单独基于简单文本特征所得到的预测准确率明显要高。