基于多源异构数据对于科技股的分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hejiashuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
股票市场在一个国家的国民经济中扮演着重要的角色,人们往往可以从一个国家的股票市场中粗略地看出它的的经济发展状况,对于股票市场波动的研究变得愈加具有现实意义。它不仅有助于了解国家的宏观经济情况,还可以帮助监管部门针对性地出台相关规范。随着上交所与深交所的相继成立,我国股票市场从无到有,逐渐发展为一套较为成熟的体系,这对于市场上金融资源的合理调配具有重要作用。有效市场理论认为,市场上的任何信息都会对股价的波动产生影响,所以在股票预测时需要尽可能多地融合不同来源的信息。一般来说,市场上的信息主要可以分为两类,股票的基本面信息,即股票的历史数据,以及媒体信息,包含新闻事件与股民评论。它们的信息来源不同,并且数据结构常常也是不同的。股票的基本面信息是结构化的数字形式,而媒体信息通常是非结构化的文本数据。往常的研究通常基于基本面信息与媒体信息中的一种来分析其与股市波动之间的关系,或者同时利用这两种信息,但是是以向量形式保存,忽略了不同来源数据之间的交互关系。如何有效的融合多源异构数据仍是一个难点。本文提出了一种基于多源异构数据的股市分析方法。首先利用二阶张量来存储股票的基本面信息以及媒体信息,与向量存储相比张量可以更好的捕捉两者之间的交互。然后利用一种事件驱动的卷积门限线性单元(Conv GRU),即在传统的卷积门限线性单元中加入了一个由新闻事件决定的事件驱动因子,从而增强新闻事件的影响力。媒体信息主要为新闻及评论数据,由于它们都是文本数据,无法直接处理,因此本文首先利用情感词典的方法来分析其情感极性,使用SO-PMI算法来扩充知网提出的“情感分析用词语集”,使得该词典更加契合网络文本的处理需求。此外,本文还利用CNN-LSTM混合模型,即在LSTM模型前使用卷积层与池化层提取特征,延展为向量之后再输入LSTM模型中,对新闻及评论数据进行情感分类,最后比较两者的分类效果。在实证分析部分,本文分别在上证指数和个股两个水平上进行实验。为了便于比较,采用控制变量的方法来测试张量存储方式与事件驱动机制的有效性。最后发现在股票预测领域,基于张量的改进GRU模型优于基于向量的模型,事件驱动机制也对股票涨跌的预测有积极作用。
其他文献
一次较大地震发生后,常常紧随着一系列的余震。强余震会造成建筑结构的二次损伤甚至倒塌,导致附加的人员伤亡及经济损失。准确的余震预测可指导后续救援及重建工作,有助于做
噬菌体有一个必需的基因装备确保它们的入侵、复制和生产。这些必需基因一部分是噬菌体基因组上的基因,另一部分来源于宿主菌的基因。本研究中,构建铜绿假单胞菌PAK-AR2的Tn5
本文中,我们主要考虑了如下板方程(?)解的长时间行为.在假设条件下,首先我们证明了解的存在性和唯一性;其次,我们采用了方程分解的方法,克服了临界非线性项f产生的困难,并建
由于全球气候变暖,青藏高原地区的气温以0.3?C/10a的速度增温。随着气温升高,大量分布在青藏高原地区的冻土逐渐融化,青藏高原多年冻土的面积在过去30年里减少了18.6%。青藏
半导体光电化学(Photoelectrochemical,PEC)分解水技术是利用太阳能资源解决能源问题和环境问题的潜在有效途径之一。在众多半导体材料中,硫化镉(CdS)有着良好的电子迁移率,
近年来,基础设施建设高速发展,尤其是在公路、铁路建设过程中,沿线形成了大量的路堑边坡,破坏地表原有植被,往往会诱发水土流失,引发坍塌、滑坡等地质灾害,不仅危害着人民财
大地震前几天至两个月内在距震中一定范围内可观测到ULF频段磁异常的概率较高,这使得ULF频段磁异常成为比较可靠的地震前兆信号。经地下衰减后的ULF频段的电磁波通常淹没在背
随着网络信息技术的迅猛发展,生活中涌现出大量的复杂系统,网络科学研究得到了快速的发展。链路预测作为复杂网络研究的重要分支之一,是用来预测网络中没有连边的节点间未来
传统化石燃料的大量消耗不仅引发了能源接近枯竭的问题,而且导致了严重的环境污染,因此寻求一种清洁、可再生的能源成为解决问题的关键。氢能由于其能量密度高、安全的副产物
随着我国农村人口不断向城市转移,农村青壮年劳动力越来越少,改革初期探索出的家庭联产承包责任制已失去其当初的优势,越来越多的农民涌向城市,从事第二、三产业,造成土地不