基于社交网络文本分析的短期股市行情预测

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zmaozhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的到来,标志着我们生活方式的巨大改变。人们通过网络可以获取各种想要的信息。特别是伴随着Web技术由Web1.0向Web2.0逐渐过渡,金融领域信息开始在网络上进行集散,论坛、博客等等提供互动的领域不断地涌现。论坛作为众多互动平台之一,越来越多的股民在股票论坛中发表个人对当前股市的看法,产生了大量的具有极大研究价值的网络文本,这些信息中往往包含投资者对股市的相关评论以及今后可能的投资计划信息,由此通过这一类型的股票评论来了解投资者的未来的行为是一条行之有效的路径。目前,国内外已有部分学者尝试通过对社会网络的分析来预测短期股市行情。国外的工作主要关注的是较为成熟的欧美股市,其方法对不太成熟中国股市的描述能力尚待考证;国内已有的工作则主要是探索性工作,缺乏系统性和可量化预测工作。鉴于此,本文通过对国内股市相关的文本资源的抽取和建模并结合情感分析方法,构建了股市涨跌预测模型对短期股市行情进行预测。本文的主要研究工作和贡献如下:第一,互联网上大量存在的关于股市的文字评论有可能反映当前股市的行情,利用这些股票评论,对股市行情能做出一定的预测。本文提出了基于向量空间模型和词向量模型对股票评论文本建模的方法。在学习得到词向量之后,本文采用k-means聚类方法将文本聚类为k个类别。随后,本文提出从文本到词集的映射规则,通过文本和词集的映射规则将短文本映射到一个k维的向量空间中,最后完成对文本的建模。实验结果表明,在词向量建模方式下的最优准确率68%要显著高于在向量空间模型下的最优准确率63.8%,并且这两个准确度都要高于相关文献中给出的预测结果。第二,上述基于简单文本特征的预测方法只考虑了表层特征,对文本中蕴含的深层次信息描述能力有限。因此本文提出一种融合情感分析的股票预测方法。通过预先选取少量已标注情感极性的词汇作为种子词,计算未知情感极性词语与种子词汇的相关性,最终自动生成股票情感词典,并以此词典为基础来对文本进行深层次建模。实验结果表明,融合情感特征的方法比单独基于简单文本特征所得到的预测准确率明显要高。
其他文献
本论文主要研究基于图谱理论的群组队形的表示方法和基于图谱理论的群组在复杂场景的控制方法。本研究最终实现的关键技术能够改进现有基于图谱理论队形控制方法对于有障碍物
遗传算法(Genetic Algorithm,GA)是一种求解复杂全局优化问题的仿生型算法。它以达尔文自然进化论与Mendel遗传变异理论为基础,运算对象是问题的编码,在进化过程中不需要任何梯
无线技术的发展极大的促进了人类生活和交流的方式,无线传感器网络(WirelessSensorNetworks,WSN)能够应用于布线困难和人员不能到达的特殊区域,实时监测和采集物理数据,并通过无线
视频监控系统的应用越来越广泛,银行、小区、仓库、监狱等对安全性要求高的场合都有视频监控系统的应用。但目前大部分的视频监控系统还是依赖操作人员的操作,准确性、实时性等
目前,我国物流企业普遍呈现规模偏小、功能单一、各自为政的特点,缺乏规模效应,不能提供完整的物流链。第四方物流通过整合各种物流资源来为用户提供一体化的物流服务。随着
伴随着计算机技术以及互联网技术的迅速发展,计算机应用技术在我国农业发展中的作用越来越重要。长期以来,农药作为农业生产中使用最普遍和最广泛的病虫害防治手段,然而,农药
随着互联网与多媒体技术的飞速发展,视频信息给人们的生活带来了巨大的便利。然而,面对如此庞大的视频数据量,如何有效的组织、存储、检索与浏览视频已成为视频研究领域中的
多重数字图像水印技术使用相同或者不同的密钥,在同一幅图片中多次嵌入水印,其目的是保证版权认证信息的安全。多重数字图像水印较之普通水印更具有强壮性和安全性能,在对数字产
学位
XML已成为网络数据表示和信息交换的标准。随着XML在各个领域的广泛应用,其安全性也更多地受到人们的关注。   本文针对XML安全问题,分析了RSA密钥机制和XML自身的特点,将XML
学位
支持向量机因其坚实的理论基础与优越的学习性能已被广泛运用于大规模数据的学习中,但支持向量机优越性是建立在小样本的基础之上,在大规模样本的学习问题上它却并未表现出优势