基于投资者情绪的股票价格预测——以安踏体育为例

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:wwt74105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国资本市场中个人投资者数量很多,这使得股票价格的变动很容易受到投资者情绪的影响.投资者情绪是股民将国家政策、市场环境、公司盈利状况等一系列信息进行综合分析后得到的情感态度.投资者的决策会随着投资者情绪变化而变化,进而影响股票价格.安踏体育作为国产体育品牌的龙头,在国内的体育股票中占据重要的地位.本文致力于将投资者情绪纳入股票价格预测指标,并利用现代机器学习算法对安踏体育的股票价格进行预测.首先,本文通过R语言的网页信息爬取技术,对东方财富网站及同花顺ifind中安踏体育2019-2021年共计741个交易日的股票数据进行爬取.提取的指标包括开盘价、涨跌率、乖离率、能量潮等十四个指标.同时,从东方财富股吧对安踏体育2019-2021年每个交易日的股民发言进行爬取,爬取了 1321条股吧文本数据.文本数据包含的指标有阅读量、评论数、评论内容、作者和时间.然后,本文对提取到的数据进行处理.对于数值型数据,为了摆脱量纲对于预测结果的的影响,对数据进行了标准化处理,并利用主成分分析法进行降维,提取四个主成分来代表原始数据中的股票价格信息.对于文本型数据,为了更好地提取投资者情绪,本文利用7种基本机器学习分类器进行原创文本分类,将股民的原创文本与资讯、公告等非原创文本分离开来,再将非原创文本剔除.接着对原创文本进行正则化、分词处理,并绘制词云图来直观展现出股民正面、负面情感词的分布情况.通过匹配情感词典,将原创文本与情感词典的匹配结果横向加总,得出每个交易日股民的情感得分,从而完成对投资者情绪的提取和量化.最后,本文利用现代机器学习方法对股价进行预测.将提取出的投资者情绪作为影响股票价格的因素纳入分析模型,分别使用了 PCA-SVR模型、PCA-RF模型和PCA-XGBoost模型进行建模.三种模型参数调优后的R2值分别为93.8%、92.6%和95.2%,MSE值分别为0.28、0.29和0.20,结合模型的数据回代对比图可以说明三种模型均可以比较准确地预测股票价格,证明了模型的有效性.另外,将三种算法的预测效果进行对比可以发现PCA-XGBoost模型的预测效果是最好的,这是由于其代价函数中加入正则项能够降低模型的方差,有效避免了过拟合.而且PCA-XGBoost模型的运行速度较快.所以综合来看,针对安踏体育的股价预测,PCA-XGBoost模型是一种比较优秀的模型.值得注意的是,三种模型在纳入投资者情绪指标后,R2的值均明显提高,同时MSE的值降低,进一步验证了投资者情绪是股票价格预测中不容忽视的影响因素.
其他文献
过敏性鼻炎是一种过敏性疾病,由过敏原引起的鼻粘膜炎症引发。临床上这种过敏性疾病治疗困难,由于个体体质差异,患病程度有所不同,严重时可能影响患者的日常生活。中医对体质的认识基于《黄帝内经》一书,体质是疾病发生和发展的关键内因。中医认为体质是可以调节的,矫正患者失衡的体质对疾病的诊断、治疗和预后有积极作用。因此,本文以“中医体质学说”为基础,将治疗过敏性鼻炎的突破点放在运用中医体质进行个体化治疗上,探
期刊
空气,作为我们每个人生存所必不可少的“生命气体”,它的质量状况时刻关系着我们每个人的身体健康与生活水平.山东省作为一个燃煤大省和拥有多个工业发展城市的省份,长久以来以煤炭为主的能源消费结构连同其工业污染排放一起造成了省内严重的大气污染,不仅影响着人们的身体健康,而且制约了山东省各城市经济的可持续发展.虽然政府近几年来出台的一系列污染防治措施在一定程度上改善了山东省整体的空气质量,但是每年重污染以及
学位
随机序是概率论中的重要工具,被广泛地应用于保险精算学、生存分析、运筹学、经济学等相关领域,近年来受到越来越多学者和相关从业人士的关注.随机序是定义在一族随机变量上的偏序关系,用以描述随机变量之间的大小关系或比较随机变量的离散程度,从而为变量之间的比较和选择提供理论依据.本文将随机序应用到两类非对称分布中,证明了这两类分布的位置参数、尺度参数、斜度参数与随机序间存在的充分和必要条件.本文所研究的分布
学位
20世纪70年代以来,情绪一直是二语习得领域研究的热点。但绝大多数研究都集中在外语学习的负面情绪上,其中外语焦虑(Foreign Language Anxiety,FLA)是四十多年来研究最多的情绪。直到Mac Intyre&Mercer(2014)将积极心理学明确引入二语习得领域,外语愉悦(Foreign Language Enjoyment,FLE)等积极情绪才开始引起研究者的关注。研究表明外
学位
本文是一篇英译汉翻译实践报告。原文出自整体心理学家Nicole Le Pera博士2021年出版的著作《如何才能认识自我,治愈自我,创造自我》(How to Do the Work:Recognize Your Patterns,Heal from Your Past,and Create Your Self-Harper Wave)。本书属于信息型文本,旨在介绍整体心理学。这一心理学突破了传统心
学位
百年大计,教育为本;教育大计,教师为本。教师是教育发展的第一资源,教书育人是其根本职责,使人成人是教师教育教学实践活动的最终旨向。教师实践活动的道德性要求教师要有高尚的道德品质,能够自主自觉地践履道德行为,在促进学生明德向善的同时,塑造自身完美人格、实现自身生命价值追求。就此而言,呼唤道德高尚的教师、促进教师道德发展是教师队伍建设之关键。依现实层面来看,教师道德规范的理论阐释、制度准则的外在规约已
学位
在保险精算学中,保险公司的盈余过程通常用Cramér-Lundberg风险模型来描述,该模型的提出为风险理论的发展奠定了重要的基础.为了使理论研究更接近现实,学者们对Cramér-Lundberg风险模型进行了各种各样的改造,Lévy过程就是该模型的一种推广.分红问题是保险精算领域的重要研究课题.起初,学者们研究连续型分红,如障碍分红和阈值分红.然而,在现实中,保险公司往往定期检查公司的盈余来做出
学位
关于传统养老金计划随机控制的研究已有不少成果,但随着养老金缺口压力不断上升,传统养老金计划已不能更好解决实际需求.目前,有学者结合传统养老金计划的特点,提出混合型养老金计划.其中目标收益型养老金计划能提供足够福利、维持稳定、尊重代际公平,有效解决养老金缺口问题.基于此,本文对目标收益型养老金计划的最优投资和收益支付问题进行了研究,主要工作如下:第一,研究连续时间下目标收益型养老金计划的最优投资问题
学位
随着社会物质生活水平的不断提高,人民不再只满足于眼前的吃饱喝足穿暖,而是希望未来拥有更稳定更有保障的生活.因此在经济蓬勃发展的当下,保险行业的发展也将行稳致远.在此经济环境下,保险公司的有序运营和长久发展是行业关注的重点.一方面为避免因巨额赔付导致公司破产,保险公司可以购买再保险,将其承保的一部分风险转移给再保险公司以达到分散风险的效果,同时再保险公司通过收取再保险保费获取一定收益.另一方面公司可
学位
近年来,随着互联网信息技术的迅速发展,网络上中文短文本信息呈现指数增长的趋势,这些短文本数据信息具有字数少,上下语义不明确,歧异多以及信息内容不规范等诸多特点.针对这些特点,如何从大量的短文本数据中提取有价值的信息,成为我们迫切要解决的问题.短文本分类就是在给定的分类模型下,让计算机根据文本的内容,将其判别为起初确定的某一类别的过程.它在文本过滤,检索,构建索引等方面都有着极其重要的作用,可以使得
学位