基于多模态融合的股价预测模型

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lfh8686806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融市场是一个国家经济的重要组成部分,在工业和商业的发展具有多方面功能。投资者都希望可以精准预测股价以期望获得高额收益回报,但是股票的价格受到诸多因素影响,使得对股价的预测往往不尽人意。目前机器学习和深度学习算法已经成功应用于股票价格预测,但是这些方法一般仅使用单一的股票价格数据。除了这类数据之外,与股票市场有关的文本数据也是一种丰富的信息来源。根据行为金融学的观点,这类信息也会对投资者的行为产生影响,从而影响市场的总体趋势。融合股票文本信息和股价数据这两种不同模态之间的信息,给研究股票有关的关键指标提供了一种新的思路,有助于预测股票价格。考虑到时域卷积网络,拥有灵活的视野域和稳定的梯度,更适合长时间序列数据的建模,因此考虑基于TCN网络的多模态信息融合的股价预测模型。首先基于BERT模型对社交媒体的评论文本以及财经软件给出的研报进行文本特征提取;然后以开盘价、最高价、最低价、收盘价、成交量和换手率作为模型输入,利用Causal-CNN网络与LSTM相结合,从原始股票价格数据中提取重要特征,输出高质量股票价格特征信息;最后将两部分信息融合后送入模型来完成对每日收盘价的预测,并使用平均绝对误差、均方根误差、平均绝对误差百分比和R~2对模型的好坏进行评价。实证分析结果表明,股票文本信息确实会对股票的价格产生一定影响,融入了股票文本信息的TCNT预测模型在不同股票数据集上的表现均比仅使用历史价格特征的模型要好,其误差更低,泛化性能更好。
其他文献
近年来互联网发展迅猛,但在发展过程中也出现了泄露隐私等安全问题。针对这一问题,各国出台了法律约束企业行为,因此数据库变成了一座座数据孤岛。本文主要讨论,在法律的约束下,各参与方通过纵向联邦学习,保护数据安全的同时打破数据孤岛的限制,并且提升自身的模型性能。纵向联邦学习的参与方是半诚实的,因此在联合学习过程中会遇到壁垒和攻击,本文主要介绍了三种攻击:病毒式攻击、拜占庭攻击、女巫式攻击。为保障数据的安
学位
本研究以江西省鹰潭地区特香型白酒中高温和高温大曲为研究对象,采用高通量测序技术对真菌多样性进行分析。结果表明,大曲中的真菌属以曲霉属(Aspergillus,18.40%)、干霉菌属(Xeromyces,18.16%)、根霉菌属(Rhizopus,11.33%)和横梗霉属(Lichtheimia,10.01%)等为主。多样性分析显示中高温大曲中真菌的多样性和丰富度均显著高于高温大曲(P<0.05)
期刊
期权是一种金融工具。权利金的价格在期权交易和期权风险管理中十分重要,期权定价也是一个被广泛研究的课题。期权定价模型最早由Black和Scholes提出。Black-Scholes(B-S)模型的成立需要满足一系列的假设:如标的资产价格行为服从对数正态分布,股票波动率为常数等。然而这些假设在实际应用中往往并不存在,这就导致了B-S模型的定价和实际价格之间会存在着系统性偏差。而利用深度学习神经网络方法
学位
高维数据频繁产生于医药、金融、工业等领域,一个研究对象可能对应着几十甚至上百个变量,如何从众多变量中选择出合适数量的变量进行分析,线性惩罚回归方法在高维数据分析中起到了重要的作用。线性惩罚回归是在线性回归的基础上,增加一项含一范数的惩罚函数,可以起到变量选择的效果。本文研究的高维数据来自二手车交易平台,该数据集是以价格为研究对象,伴随着20个以上的变量,将分类型变量进行独热编码后,变量个数将达到上
学位
近年来PHM举办了15次的剩余寿命和故障诊断比赛,受此驱动,本文以工业设备与用具为研究对象,预测设备的剩余寿命,对C-MAPSS和PHM2010两个数据集展开研究.本文研究内容如下:在第一章中介绍当前剩余寿命的研究背景,不足,及本文的研究方向.在第二章中介绍本文所需的理论基础.在第三章中针对C-MAPSS数据集,该数据集包含4个在不同工作条件下模拟收集得到的数据集.极少学者对工作条件复杂的运行条件
学位
随着车险在整个保险业的占比越来越大,建立精确的车险索赔频率预测模型有着重要的意义。本文旨在将机器学习算法运用在车险索赔频率预测这一问题上,并且将神经网络与传统预测模型有效结合,以增强单一模型的预测效果。本文基于某一美国保险公司真实的车险数据进行研究。首先,对原始数据集进行描述性统计,再对不同类型的变量进行特征工程处理。其次,使用dummy编码转换分类变量的形式,将广义线性模型和广义可加模型应用于处
学位
<正>在阅读教学中,进行阅读策略的指导可以促进学生阅读理解能力的提升。统编教材从三年级开始编排了阅读策略单元,用意就在于引导学生通过阅读策略的学习,掌握解决问题的方法,并且能在读懂课文的同时,知道"如何读懂文章",进而学会关注自己的阅读过程,实现独立阅读,成为积极的阅读者。本文以统编教材四年级上册第二单元为例,在教学活动中探索实施路径。
期刊
随着单细胞RNA测序技术的发展,大量的单细胞RNA测序数据集产生。细胞识别是单细胞测序的主要任务之一,如何利用已经标注的细胞去识别未被标注的细胞变得越来越重要。目前已经有很多基于传统的或者基于机器学习的细胞识别研究。但是大多数的单细胞识别研究面向的都是闭集场景,即带标注的数据集和未带标注的数据集的数据标签一致。但是实际情况是细胞识别面向的是一个开放场景,即待识别的数据中存在着未知的细胞类型。如何解
学位
精准地时序预测对社会发展与进步十分重要。从气象学到金融学、从交通分析到市场分析,时序预测在社会各行各业都有实际应用场景。自上世纪初,ARIMA、GARCH等传统统计学模型被陆续提出,为时序预测提供了坚实的理论基础。但传统统计学模型结构单一、表达能力有限。随着人工智能的迅速发展,有学者陆续将SVR、XGBoost等机器学习模型应用到时序预测中,但机器学习模型的效果严重依赖特征工程,这就有很强的主观成
学位
随着信息技术的高速发展,各种各样的社交网络数据也随之出现,同时,社交网络的规模也变得越来越庞大,使得社交网络拓扑结构变得越来越复杂。在如此的大数据时代背景下,传统的社团检测算法从全局特征出发,算法复杂度随着社交网络规模的大型化而变得极其庞大,显然不再适用于现阶段的大部分社交网络。因此,本文考虑从局部特征出发,去探索社交网络中比较显著的社团结构。本文在基于相似度的社团检测算法基础上,对传统相似度度量
学位