基于深度学习的财经新闻情感分析

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:iuxiaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据有效市场假说理论,股票市场价格是由所有可观测到的信息驱动的。投资者情绪会影响金融市场表现,因为投资者的羊群行为和投资者对金融信息的反应等因素,投资者的积极(消极)情绪往往做出乐观(悲观)的判断和决定。财经新闻专业性强,覆盖面广,其内容包括了国家的宏观经济方针,行业的经济政策,上市公司的发展状况以及企业内部管理等多方面信息。因而投资者可通过财经新闻获取信息做出决策从而对金融市场产生影响。近年来随着文本挖掘技术的不断发展,机器学习方法的广泛应用,我们从海量互联网数据中提取有效信息变得更加方便,传统研究中比较难以处理的非结构化文本数据可以得到更好地研究,以解决实际问题。自然语言处理中不断增强的文本表示能力使得计算机可以更准确地捕捉情感和语义。自然地,在金融舆情分析中引入自然语言处理的方法,将帮助决策者更高效的理解市场情绪,做出相应决策,缩短察觉时滞,从而获得更大的经济效益。本文通过研究相关领域国内外文献,发现目前的深度学习研究大多使用基于循环神经网络的算法来提取文本信息,这类算法的缺点第一是因为新闻文本较长,其处理长文本时效果不好,信息提取准确率不高;第二是难以并行处理大规模的文本信息,而且计算效率低;第三是机器学习和深度学习的神经网络模型缺乏一定的可解释性,不易于金融行业研究人员分析。本文通过大数据爬虫技术从东方财经网上获取了股票新闻,经过数据预处理构建了股票新闻数据集。然后提出了基于BERT的财经新闻情感信息量化分析方法,借助特定领域迁移学习的思想用有监督学习的方法将财经类的信息融入到词向量表征中,训练出财经新闻情感量化模型。结果表明此模型情感分类效果在AUC、准确率等评价指标中都超过了支持向量机和循环神经网络等传统方法。随后本文借助此模型对股票新闻数据集进行情感量化,进行财经新闻情感和股价的相关性分析,发现财经新闻情感与股票收盘价相关性显著。为了进一步探究财经新闻情感波动和股市收益率的因果关系,本文以山西汾酒股票数据作为研究对象,将新闻情感变化和对数收益率进行建模,构建向量自回归模型,对新闻情感变化和股价对数收益率的相互影响情况进行时间序列分析。实验结果显示财经新闻情感变化显著影响股票收益率,财经新闻情感对股票市场表现有预测作用。在股票预测结果中,借助VAR模型的回归参数预测方法比支持向量回归和长短期记忆网络算法的预测效果更好。
其他文献
<正>近年来,随着欧洲对美国“回归”热情退潮,德法等国强化“战略自主”呼声渐高,美欧在经贸领域的“结构性分歧”日益凸显,尤其是围绕产业竞争、市场争夺、规则制定、政策协调等方面的矛盾和争端呈现出不断加深的态势。综合分析,考虑到历史纠葛和现实利益等原因,美欧经贸领域“结构性矛盾”短期内得到实质性改善的可能性并不大。
期刊
蒸发(Evaporation)过程直接或间接影响着气候变化和农业生产。农业生产主要依赖于对现有水资源的有效利用,特别是易干旱、干旱、半湿润和半干旱等缺水地区。蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。蒸发皿蒸发量(Pan Evaporation)是衡量蒸发量大小的重要指标,是有时序特征的数据对象,有特定的时间间隔,具有数据量大且数据结构复杂的
学位
为进一步实现绿色节能的运营理念,国内已有多家运营单位对新车选型、既有线车辆改造工作选用永磁牵引系统代替传统异步牵引系统。以哈尔滨地铁2号线车辆永磁牵引系统为例,对永磁与异步牵引系统的控制原理、选型配置、牵引性能等方面进行介绍,并结合牵引能耗、再生能耗的运营数据,对哈尔滨地铁2号线车辆永磁和异步牵引系统能耗情况进行对比分析,并阐述永磁牵引系统的技术优势、经济效益及未来的发展趋势,以期为同类型系统选型
期刊
量子导引作为一种不同于量子纠缠、量子关联的量子特性,被广泛地应用于各种量子计算、量子信息任务当中,例如量子信道鉴别、量子密钥分发等等。作为一种重要的物理资源,该量子特性一直被人们所广泛深入地进行研究,其中一个重要的研究内容就是如何判定任意量子态的量子可导引性。对于任意量子态的量子可导引性判定目前主要的处理方法是利用理论定义式进行判定,该方法强烈依赖于测量方式以及测量个数的选择,致使该方法判定过程复
学位
随着互联网的发展和普及,网络媒体平台已经成为人们快速获取和共享信息的重要渠道。然而,媒体平台在给人民生活带来便利的同时也成为虚假信息产生与传播的重灾区。网络虚假信息具有种类繁多、数据量大、迷惑性强等特点,单纯依靠人工检测效率极低。因此,如何在信息发布早期准确、快速的检测虚假信息是亟待解决的关键问题。目前虚假信息检测的相关工作主要以信息文本、传播结构和用户画像作为研究对象。其中,基于传播结构和用户画
学位
基因组高通量测序(genome high-throughput sequencing)技术的快速发展,使得研究者们对于人类遗传变异的研究逐渐向分子水平扩展。基因组结构变异(Genome Structural Variation,GSV)便是其中的一种。拷贝数变异(Copy Number Variations,CNVs)是GSV的重要形式之一,这种变异占据人类基因组总长度的大约12%左右。越来越多的
学位
<正>"绿水青山就是金山银山。"绿色发展是我国调整优化经济结构、转变经济发展方式的重要动力,是推动中国走向富强的有力支撑。如何让绿水青山既是自然财富,又是社会财富、经济财富,关键在人,关键在思路。在脱贫攻坚事业中,如何实现贫困地区全面小康,确保脱贫有实效、可持续,
期刊
膜性肾病是慢性肾病中常见的一种病理类型,其发病率呈现持续上升趋势。肾脏穿刺活检标本检测是确定膜性肾病的重要医学手段,其常用的一种医学评估工具是直接免疫荧光病理学。在直接免疫荧光图像中,免疫球蛋白在肾小球上的沉积外观和沉积位置涉及肾小球肾炎的免疫病理学特征,因此可以用来辅助识别膜性肾病。然而,一方面,直接免疫荧光图像因为环境和设备等问题使得观察图像中存在组织噪声、沉积模式混合等现状,致使进行人工分类
学位
现生鼢鼠是分布于东亚的一类典型地下啮齿动物,中国西部是其多个种的模式产地和主要分布区域。该类动物分布广、数量多,经济和生态意义重要,有关其控制和管理问题长期存有困扰。有效的物种管理离不开分类及生态学知识,但学界对该类群的分类地位与系统发育关系等至今仍有争议。随着分子系统学等现代科学技术的发展,其系统发育和分类地位等产生了许多新的研究结果。本文对近年来鼢鼠现存种系统学方面取得的研究进展进行了梳理,综
期刊
随着互联网和应用端等设备的快速发展与完善,通过网络社交和获取信息已经逐渐融入人们的日常生活中。每天,数以亿计的用户在社交媒体平台上发布最新信息或者分享他们对各种信息的看法。与此同时,大量未经验证的信息、甚或虚假信息在平台上广泛传播,造成恐慌等负面影响。因此,虚假信息识别成为当前维护网络空间信息可信与安全的一项重要研究内容。在社交媒体平台,用户经常会对看到的信息进行点赞、转发、评论等,其中往往蕴含着
学位