论文部分内容阅读
股票一直是金融领域的热门话题之一,股价涨落可以影响投资者的心理。同时,股价也受市场参与者影响,导致资产定价产生波动。当股价发生变化时,股民用互联网分析股票走势,根据经济形势在论坛上发表意见或宣泄情感,股民与论坛在线群体的重叠度较高,股票走势与发帖群体之间产生很强的交互作用。因此,本文基于特定的股市环境,对网络论坛数据统计分析,研究论坛发帖群体的情绪和行为规律。在实验数据上,本文对网站内容是否允许获取进行了政策和技术上的可行性分析,使用爬虫技术获取的论坛数据包含两部分:一是2007年11月至2019年3月某网络论坛的1814500条分钟级的帖子发布时刻,二是2015年股市上涨和下跌时期的91328条发帖内容。实验基于这两部分数据,结合开市期间东方财富网的上证指数月线走势,从国泰安数据库中获取日收盘价,分别研究特定股市时期论坛发帖群体的情绪及行为。针对情绪方面的研究,本文提出了一种融合LDA(主题模型)的CNN(卷积神经网络)情感分类模型,该模型可以通过发帖信息,判断帖子情感的正负倾向性。首先,结合股民心理对实验数据集进行标注,将月线上升时期的论坛数据视为积极帖子,下降时期的视为消极帖子,接着将情感领域词汇融入数据集,并结合TF-IDF(词频-逆文档频率)等方法展开预处理工作,通过LDA主题模型筛选出帖子中有关股市、情感等特征词汇,传入LeNet-5卷积神经网络,并在此网络的基础上增加了卷积和池化操作,使得模型可以更好地学习特征,训练结果达到70%。此外,考虑到标注方式可以更精确,设计了一种新的打标签方式对数据集进行标注。通过SnowNLP技术对文本数据的情感值打分,划分出积极词汇和消极词汇的取值范围,对训练集进行极性判断。改变标注方式后传入上述情感分类模型,最终准确率达到了76.45%,训练出了融合LDA的CNN优化模型。最后,本文对提出的融合LDA的CNN情感分类模型进行评估,并将该模型和其它机器学习分类算法对比。传入论坛的数据集训练后可知,本文优化的神经网络模型分类效果优于这些算法。在行为方面进行了三个方面的研究。一是分析收盘价和发帖量的相关性探讨群体行为规律。对2010-2019十年的数据整体观察发现,发帖量随股市波动,两者的整体相关系数可达0.6,表明收盘价与发帖量呈中度相关。2015年的股市经历了一次快速上涨和快速下跌周期,成为研究其对论坛传播影响最有利的时间节点,随着收盘价的大幅涨跌,群体发帖量大幅升降。为了进一步探究二者的关系,在2014和2015年中划分出震荡、上涨、下跌三段时期,并计算两者的相关性。其中2015年6月12日至7月10日的收盘价和2015年7月10日至8月7日的周发帖量相关性最大,为0.841,表现出发帖行为延迟一段时间后与收盘价走势高度相关的特点。通过实验得知,股票大幅涨落对网络论坛股民的发帖行为有明确的影响,且有一段时间的延迟。二是统计分析网民发帖行为的时间间隔分布,研究群体行为规律。发帖量影响其时间间隔分布,在普通坐标系和双对数坐标系下分析可知,大多数发帖间隔时间较短,在股市涨跌和震荡两种情况下进行对比,发帖行为表现为两种状态,股市涨跌时期论坛网民发帖密集,短时间内发帖人数增多,表现出比平时更明显的肥尾效应。在线群体的行为与股市波动息息相关,股市变化使得更多投资者在论坛中传播信息交流情感。三是通过统计不同时期发帖数量研究群体行为。在划分出震荡、上涨和下跌时期的基础上,统计了一天和一周内不同时刻发帖量的变化,对三段时期的发贴数量进行比较,均是下跌时期最大,其次是上涨时期,最后是震荡时期。发帖量分布基本符合人们的日常活动规律,不管股市处于什么时期,开市期间,网民一天的发帖分布通常呈现“三峰状态”,闭市期间,晚上的发帖量会相对白天有小幅度上升。在不区分交易日的情况下,非交易日的发帖特征被覆盖,总体分布仍呈现三个高峰。一周内以天为单位的发帖数量先增加后减少,交易日对发帖行为影响明显。对于2015年的月发帖量,受股市影响较大,其它年份发帖稳定。