基于股评情感与货币政策强度指数的股市预测能力分析

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:dangerwind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据处理技术的飞速发展,自然语言处理(NLP)技术在文本挖掘和智能分析领域应用越来越广泛,并且与计量金融相结合,延伸扩展到金融领域。本文基于python语言,收集相关文本,扩充构建了金融领域、货币领域词典;建立了货币政策强度、上证指数月收益率及个股股评情感序列;基于计量金融软件Eviews和R语言,分析了货币政策和股评情感对股市收益率的影响,并评价了相关模型的预测能力;主要完成以下内容:本文收集并阅读了近5年的关于文本挖掘、投资情绪、货币政策与股市关系的文献,梳理了相关研究方法,提出了具体的研究思路与方法;利用Python语言编写程序,爬取了部分股评,并实证分析了Snownlp、基于词典匹配分析、机器学习、深度学习等文本情感分类方法的优劣;其中深度学习的识别准确率最高,可以达到88%以上,其次是基于词典匹配分析方法,识别准确率达到81%,但是深度学习方法需要一定数量和满足一定条件的标注样本;爬取并整理了30多万字的股评,利用jieba工具进行分词,基于词频、tf-idf、词向量等模型,选取专业代表性、时效性较强的词汇或者短语作为种子词,以种子词为样本,利用wordexpansion自动构建大规模的金融领域词典;结合股票涨跌幅度和句法结构,更新了部分词汇的权重,补充到原有的CFSD金融词典中。其次,本文以央行发布的季度货币政策执行报告和月度的专业货币政策评论文献作为样本,进行分词处理,基于tf-idf模型提取出关键短语,构建了货币领域词典,并通过统计近两年来每个短语每月出现的次数,乘以该月对应的权重,计算该短语的强度值;利用构建的金融领域、货币领域词典,建立了货币政策强度、上证股评情感序列及个股股评情感序列;上证指数受宏观政策的影响较大,专业机构对宏观政策的理解较为一致,因此上证指数评论强度序列能较好地体现指数月度收益率;基于Eviews软件,建立多变量的VAR模型,分析了上证指数月收益率和货币政策强度之间的关系,发现广义货币M2增长的变化构成了对上证指数变动的格兰杰因果关系;选取样本内数据进行预测能力检验,发现多变量的VAR模型对上证指数月度收益率趋势预测较为精准。最后,基于多变量的VAR模型分析了个股日收益率与发帖数量、股评情感强度和成交量之间的关系,发现个股日收益率变化构成了对发帖数量、股评情感强度和成交量变动的格兰杰因果关系;选取样本内数据进行预测能力检验,发现多变量的VAR模型对个股日收益率趋势和情感强度预测精度不高,预测值的震荡幅度偏大;对成交量和发帖数量的变化趋势预测较为精准;基于改进的Garch模型,将个股股评情感序列作为外生变量引入到方差方程,对比传统的Garch模型,发现方差方程引入情感序列后,条件方差的峰值略微有所增大,但是不是很明显,预测的平均绝对误差率由0.018799降至0.01879;基于R语言,考虑货币政策、股评情绪因素的影响,分别建立了单因素、多因素的GARCH-MIDAS模型,分析了货币政策、股评情感对上证指数月收益率和个股收益率的影响;预测了2021年4月上证指数月收益率和次日个股的收益率。
其他文献
近年来,“互联网+”在我国已上升为国家战略,自2015年政府工作报告定调,到2017年十九大报告进一步推进网络行动计划,均意在促进新兴网络技术融入传统产业,推动中国物联网建设、移动网络购物、线上网络平台健康发展,提升国际竞争力。当前中国“互联网+”发展日新月异,企业互联网化转型即是指企业立足于互联网平台,充分发挥互联网的数据集成、信息传递和打破时空约束的作用,实现资源要素的最优配置和整合,将互联网
学位
随着互联网技术的发展以及移动设备的普及,社交网络已经成为用户在线获取以及分享信息最便捷的服务之一。在各类社交网络中,用户评论社交网络,例如Yelp、亚马逊和大众点评等网站,已经成为用户进行信息分享和商品推荐的热门平台,用户可以在这些平台上便捷地发布或获取商户的各类信息以及他人的评价。这些评论信息通常可以为用户带来帮助,并被社交网络推荐给其他用户加以参考,例如大众点评上的优质评论等,然而这些评论的真
学位
随着互联网技术的飞速发展,数据量也与日俱增,推荐系统可以解决信息过载的问题,有效建立用户和数据之间的连接,提升了生产者和用户的效率。推荐系统根据每个用户的个性化偏好自动地推荐可能感兴趣的产品,节约了时间和成本。作为推荐系统中重要的研究课题,序列推荐(session-based recommendation)近年来受到越来越多的关注。序列推荐试图从用户的历史交互序列中学习和理解用户的行为,建模用户的
学位
实体识别与实体链接是NLP领域的两个基础任务。在实际应用中,对不同类型的实体进行识别和链接往往需要大量的人工标注数据。人工标注的时间与金钱成本过高且标注人员的水平参差不齐,使得高质量的训练数据很难获取。同时,对于许多NLP问题,使用无需训练数据的简单方法通常性能较差且很难继续优化,而性能较好的机器学习(深度学习)模型则依赖于训练数据的数量,在训练数据较少时亦表现较差。因此本文希望在无或少人工标注数
学位
国内美妆行业受益于消费升级、美妆社交平台发展等因素增长迅速,包括护肤、彩妆、香水和个人护理在内的美妆市场销售总额从2015年的4110亿元增长到2020年的8620亿元,六年复合增长率达到16.0%。2019年我国美妆产品人均消费为50美元,而同期英国为253美元,美国为283美元,日本为308美元。可见,我国人均美妆支出有五至六倍的提升空间,行业发展潜力依旧巨大。随着美妆行业的发展,各大品牌开始
学位
随着我国股票发行注册制的全面铺开,对直接融资的大力推进,IPO市场作为直接融资的重要渠道越来越受到实务届和学术届的广泛关注。其中保荐代表人制度作为中国特有的证券市场发行监管制度,保荐代表人在证券市场中发挥着重要的推荐和担保义务,是资金需求方和资金供给方以及其他利益相关者之间信息沟通的重要桥梁。对IPO公司的事前筛选、尽调过程中对IPO公司风险的识别以及协助公司对不规范行为的合规性整改发挥了保荐代表
学位
<正>俄乌冲突以来,美国太空探索技术公司(SpaceX)已向乌克兰各地运送近5000台“星链”(Starlink)终端,提供战时网络服务。乌克兰数字化转型部长费多罗夫多次表示,“星链”恢复了乌克兰的通信并提高了紧急救援服务质量。美国太空司令部(USSPACECOM)司令詹姆斯·迪金森在美国参议院武装部队委员会(SASC)听证会上称,“星链”已在乌克兰地区展示出强大的战时冗余通信能力。当前,以“星链
期刊
我国的经济已经进入高质量发展阶段,在经济体量越来越大的同时,对经济质量的要求也日益提高,自愿、随意的环境信息披露已经不能和新发展阶段相适应,强制性环境信息披露成为必然趋势。2015年,新版《中华人民共和国环境保护法》和《企业事业单位环境信息公开办法》相继施行,对重点排污单位必须披露的环境信息做出了强制性规定;2016年,证监会发布《公开发行证券的公司信息披露内容与格式准则第2号》,要求重点排污单位
学位
零售电商日益火爆的今天,鞋服行业作为网上销售的主力行业,每年销售额高达数千亿。一个鞋服品牌零售电商仓,单仓一天的发货量就需要高达几十万单。集合鞋服行业单量大、商品种类多、每个订单购买量小且购买商品极度分散等特点,使得鞋服电商仓出库作业成本高、难度大。在不改变仓库布局和增加自动化设备投入的情况下,如何保障鞋服电商仓的发货效率,是现实中面临的重要问题,也是非常具有研究意义的。本文在学习总结以往研究及不
学位
非实用性文本的生成,例如小说、剧本的自动生成,通常停留在学术探索层面,少有落实到实践的成果。文本生成模型即便能够生成表面符合常识,格式上符合要求的文本,也常常存在缺乏逻辑,难以理解,上下文不连贯的缺点,无法实际运用在工作中。本研究立足于实践,尝试使用深度学习技术和剧本写作理论相互配合的思路,解决上面提到的问题。本研究的出发点为游戏剧本写作。剧本写作是移动游戏开发中的重要一环。在游戏的实际开发中,每
学位