引入金融文本分析的股价预测及量化策略研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:gongwen_2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
股价预测在金融市场研究中有着非常重要的意义,想要准确预测股价的变化是非常困难的。随着经济和科技的发展,金融市场也变得更为复杂,每天生产着数以亿计的交易信息,由此而产生了大量的低价值数据,由于这些数据具有高噪声、非线性、波动性强等特点,所以这些数据已不适合通过传统计量模型来处理。根据行为金融学理论,股票的内在价值只是决定股票价格的因素之一,投资者的行为也深刻影响着股票价格。投资者在投资决策中容易受到如新闻信息以及其他投资者言论等多方面因素的影响,这些信息会在投资者中相互传递,引起链式反应,最终影响投资者的决策,股票价格受到影响,如何利用这些信息来帮助预测股价,是目前面临的一个巨大挑战。为了提高在量化投资中对股价预测的准确率,更好地决策股票的买卖点,本文进行了以下工作:首先,本文提出了一个结合股票时间序列中量价信息、技术指标、文本信息的深度学习模型来预测股价的涨跌趋势,其次,本文将这个模型应用在实际的股票交易中,辅助股票的择时决策,验证模型在实际应用中的效果。该模型通过BERT结合Bi LSTM进行金融文本量化、卷积神经网络(CNN)进行特征抽取、长短期记忆网络(LSTM)结合注意力机制进行涨跌预测,并且为了探究影响模型预测准确率的因素,分别对时间步长大小、个股股权集中度方面进行探究。该模型主要由文本处理、特征提取、股价预测3部分组成。核心过程如下:(1)处理关于某只股票的每日新闻信息提取出新闻量化指数,(2)处理某只股票的每日股民评论信息,获得投资者情绪量化指数,(3)构建股价技术指标,(4)将新闻量化指数、投资者情绪量化指数、股价信息、股价技术指标一起作为CNN-LSTM-Attention模型的输入,利用前T个交易日的信息来判断第T+1个交易日收盘价的涨跌。在10只股票上的实验结果显示,该模型平均预测准确率优于对比模型。使用该模型的预测结果结合双均线策略来模拟交易,在10只股票上进行回测,年化收益率相比普通双均线最高提升11.01%,最大回撤最高降低17.72%。本文实验结果表明,将新闻、投资者评论等金融文本信息引入股价预测模型中,可以有效提高股价预测的准确率,在股权集中度较低的个股上提升尤其明显;结合股价预测的交易策略具有一定的可行性,可以有效提高盈利、降低风险,具有一定的应用价值。
其他文献
随着日常生活中电子设备和社交媒体的广泛应用,新闻、商品评论等文本类型的数据大量增长,快速提取和分析文本信息的需求显著上升。主题分析可以帮助我们快速确定想要了解内容,自然语言处理中的主题模型能从大量的文档中提取出有意义的词语、能够有效的将多个文档表示为主题,因此研究主题模型是十分必要和有意义的。主题模型是自然语言处理任务中一种典型的无监督任务,缺乏有标注的监督数据。在单语言的情境下,其他任务上表现良
学位
风格迁移算法是当前计算机视觉领域的热点研究方向之一。当下神经风格迁移的技术路线可分为:基于图像迭代的风格迁移和基于模型迭代的风格迁移。其中,基于图像迭代的风格迁移算法,通过不断迭代噪声图像的像素来生成风格化图像,具有合成图像质量高、可控性好、易于调参、无需训练数据的优点。而基于模型迭代的风格迁移技术,借助生成对抗网络(GAN)强大的生成能力,通过预训练生成模型来实现快速风格化。该方法具有计算速度快
学位
共享这类现阶段较为普遍的消费模式,很早就出现在人们生活中,它被理解为按需相互输出但不过度追求输入的一类商品,通常发生在较为亲密的社会关系间。过去十年,社会经济不断发展、大众对于商品的期望值变高、商品归属权认知的变化等推动了共享经济行业的飞速发展,而其首要实践领域则为旅游及住宿行业,共享经济与其彼此融合,便成就了共享住宿。共享住宿平台Airbnb现已成为极受欢迎的住宿选择,预计会对酒店行业造成一定冲
学位
近年来,随着深度学习的飞速发展,视觉问答领域已经取得了重大进步。视觉问答作为计算机视觉与自然语言处理的交叉领域,其基本任务是观察图像并在此基础上回答文本问题。现有的方法大多是通过预训练的自上而下的注意力机制对图像特征进行表示,然后使用单层门控循环单元(GRU)对文本问题进行编码,最后联合这两种特征得到预测答案。目前,虽然视觉问答系统在准确率上体现出了强大的性能,但无法提供模型决策的过程以及理由,这
学位
数据市场是目前研究的热点话题,在提出数据要素化的政策之后,国内各类数据交易平台迅速发展起来,针对数据市场的研究也越来越多。在2021年,北京成立了国际大数据交易所,同年,上海大数据交易所也宣布成立,这更加激发了对数据交易市场的研究热潮,同时也标志着我国数据要素市场的正处于蓬勃发展阶段。在数据交易市场的相关领域中,对数据定价体系的研究更是重中之重。现有的研究大多是从传统商品的定价方案进行迁移,但是数
学位
在计算机相关技术飞速发展的时代下,计算机技术辅助教学成为热门趋势。在老师的教学和学生的学习过程中,收集习题都是一个必可不可少的工作。然而,手工摘抄习题非常费时费力。利用计算机视觉技术,对拍照获得的习题图像进行文本检测和识别,使得将纸质习题自动变成电子文档成为一种可能。另一方面,文本检测和识别技术一直以来都是计算机视觉研究的热点问题。现有的研究主要面向自然场景和印刷体识别,鲜有针对习题检测和识别的研
学位
研究目的和内容:9号染色体长臂的C-ABL基因移位至22号染色体上长臂断裂点集中区基因(BCR)产生致癌的BCR-ABL融合基因,有95%的慢性粒细胞性白血病(Chronic Myelogenous Leukemia,CML)患者被检测有此染色体易位,该融合基因编码的BCR-ABL融合蛋白(BCR-ABL fusion protein)具有很强的酪氨酸蛋白激酶活性,是CML发病的分子生物学基础。基
学位
电商异常订单检测是近年来异常检测在电商供应链领域中最为热门的任务之一。早期的异常订单检测任务通常是采用个别算法构筑模型,并利用调参手段尽力逼近模型精度上限。但在实际情况中,异常订单的起因多种多样,尽管统一被标注为异常订单,但其样本特征与标签间的映射关联不同,也就是说,基于单一假设的单模型仅擅长识别符合假设的异常订单,而对背离假设的异常订单识别能力有所欠缺,造成单模型难以胜任检测任务。随着组织和个人
学位
据国家统计信息中心统计,2021年1月至10期间,全国总诊疗人次达到54.4亿人次,同比增长23.4%,医疗服务体量巨大。然而,我国人口基数大,人均医疗资源相对较少,且部分地区医疗资源仍存在短缺情况。在保证完成大体量医疗服务的同时,借助用药辅助系统提高医疗服务质量与服务效率是缓解医疗资源短缺的有效方法之一。用药辅助系统可以为医生用药提供辅助决策信息,在医疗资源短缺、医疗服务需求量大的情况下,不仅可
学位
我国拥有十几亿人口,土地面积居世界第三,人口密度较高。特别是一线城市,存在着诸多公共场合,如机场、火车站、影剧院、球场等,不仅人口聚积密度高,而且形成了人流极大的场景。在这类场景下,由于人们素质参差不齐、心中目的目标各异,各种摩擦、冲突时有发生,既增加了突发事件出现的概率,给公共管理带来了巨大挑战,也极大地提高了管理的难度和成本。针对对突发公共安全事件频发态势,国家出台了相对严柯的管控措施,但收效
学位