基于半马尔可夫过程的Q学习及其在量化投资中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ydy611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,利用强化学习方法进行程序化投资管理是金融投资领域的一个热门研究方向。本文结合半马尔可夫过程(SMP)理论和强化学习方法构建一种程序化股票交易模型,以指导投资者的投资实践。首先,本文阐述模型构建的理论基础,包括马尔可夫决策过程(MDP)的Q学习、SMP的Q学习,以及K-means算法在内的相关理论。其中K-means算法用于构建离散的环境状态,特别的,相比MDP的Q学习,SMP的Q学习不仅考虑环境当前状态,还考虑状态的居留时间。其次,本文构建基于SMP的Q学习模型的关键包括环境状态设置、动作设置和奖励设置,随机选取20支新能源股票进行训练和回测,将结果同基于MDP的Q学习模型和买入持有模型进行比较,使用累计收益率、年化收益率、夏普比率等度量模型性能。实证结果表明,当K-means聚3类时,两种Q学习模型在个股市场上都取得了稳健收益,并且抗风险能力远超过买入持有策略,基于SMP的Q学习模型的平均累计收益率(116.54%)、平均年化收益率(30.17%)和平均夏普比率(66.65%)均超过了基于MDP的Q学习模型的平均累计收益率(47.62%)、平均年化收益率(14.37%)和平均夏普比率(42.25%),说明承担相同风险,基于SMP的Q学习模型能够获得更高回报。当K-means聚6类和聚9类时得到相同结论,其中聚9类时,基于SMP的Q学习模型的平均累计收益率、平均年化收益率和平均夏普比率最大,模型效果最好。最后,为了提高SMP的Q学习模型的累计收益,在聚9类的基础上,从包含财务指标、技术指标和宏观经济指标的共10个特征中进行特征筛选,根据累计收益最大化原则以及各个特征组合的排序结果,得出最优特征组合为交易指标中的V(日交易量变化率)、财务指标中的PE(市盈率)、技术指标中的MACD(收敛-发散移动平均线)和ADO(积累/分布振荡器)、宏观经济指标中的IBO007(利率)。实证结果表明,基于这5项特征的组合,模型在收益和稳定性方面都有提高。因此本文构建的基于SMP的Q学习模型对于机构或个体投资者制定程序化投资管理方案具有一定的参考价值。
其他文献
随着医学与生物技术的进步和提高,人们在有效治疗和防御疾病的同时,也要应对非法人体试验、操纵基因、滥用生殖技术等伦理挑战。这不仅需要有效掌握高新技术领域的走向,还要为健康事业制定适宜的保险政策,并为之提供道德基础,生命伦理学就是在这个意义上广泛发展起来的。西方生命伦理学从上个世纪以来对各种涉及医疗问题的技术、实验、政策等方面进行了一系列伦理评估,使其成为一门囊括学理性指向与实践性指向的学科。当代生命
学位
时间问题是一个既深邃又神秘的问题,探讨时间的问题就如同探讨人的起源问题一样,具有很大的探索与解释性空间。然而时间问题本身之所以表现为一个问题的形式,势必要去自然中的人的身上找缘由。时间先于人类的存在,但却注定成为一个人关注的问题而被解释,被阐述,被变革。随着科学技术的蓬勃发展,人的生活世界也发生了天翻地覆的变化,带来需要人解决的问题也在随之增加,时间问题,就是问题中典型的一个。本文力图探求时间的道
学位
在哲学史上,几乎所有哲学家都建立了一种独特的思维方式,然而,一种真正深刻和完整的哲学思想却并不会满足于此。柏格森通过“绵延”这一重要概念,从衡量意识的真实状态开始,将思考层层深入,最终还原或者重构了我们的真实的、完整的意义世界是如何建立起来的。柏格森认为,“绵延”就是意识这种性质式的众多体的真实形态,也是真实的时间,这种性质式的众多性不同于数量式的众多性。既然意识在真实的时间之流中不断地运动,那么
学位
随着国家经济的高速发展和城镇化的不断向前推进,原传统农村被拆迁。在拆迁的农村初中出现了很多初中学困生,这些学困生最主要的特征是知识的断层,其中原因是社会、家庭、学生等多因素的叠加。在寄宿制公立学校中,学生一周五天都在学校,除去必要的上课、吃饭和睡觉的时间,一天中的时间就剩下中午静校和晚自习时间是由学生自由支配,由于老师的精力有限,学生的预习、复习、作业、练习等学习产生的基本环节基本上是在学生自由支
学位
近几年,“她综艺”热度居高不下,女性综艺节目已成为展现女性思想、表达女性态度的重要言说平台,对女性群体及社会现实都具有重要影响。立足于该背景,论文尝试对女性综艺节目中女性话语的内容与功能进行探索。《送一百位女孩回家》是搜狐视频出品的一档女性情感观察真人秀,通过观察者对女性嘉宾的观察、交流、记录,给观众带来视觉上的多层次观看体验和关于女性群体的多维度思考。本文主要以《送一百位女孩回家》完整的四季全部
学位
行为金融学理论认为,投资者并非是完全理性的,市场上存在着一些情绪投资者,使得资产的实际价格经常受到投资者情绪的影响。相对于股票、债券、基金等传统投资工具,比特币是一种对投资者情绪更为敏感的资产,比特币市场发展至今,比特币投资者们经历了4次价格上的暴涨暴跌,这在一定程度上突出了比特币投资者的非理性程度。学术界目前对于比特币收益率影响因素的研究更多地倾向于新闻情绪、传统金融工具、投资者情绪对比特币收益
学位
鉴于化石燃料火电厂排放大量温室气体和污染物对环境问题带来的不利影响,可再生能源发电(RGs,renewablegenerations)的大量普及和插电式电动汽车(PEV,plug-inelectricityvehicle)的大规模使用为人类应对气候变化挑战起到了积极作用。然而PEV和RGs的大规模集成直接影响电网供需平衡,给电力系统的安全经济运行带来挑战。一方面,由于PEV用户充电行为具有很大的随
学位
21世纪伴随着科学技术的突飞猛进和人类对未知领域探索的无限好奇,人工智能技术的迅猛发展已经成为当今世界最前沿的科学技术之一。纵观人工智能技术发展的历程,伦理问题一直伴随着这项备受瞩目的新科技,越来越多的哲学家和伦理学家开始探索人工智能技术中的伦理边界,即在伦理视阈中重新审视人工智能技术的发展,这毋庸置疑是人工智能技术发展不可或缺的一环。人工智能技术带来的高效便捷的生活方式已经成为人类的生活必备,在
学位
载波模块作为智能电表的关键组成部分,主要用于采集用户的用电信息,实现远程抄表。载波模块在智能电表中的安装采用接插式设计,如果模块接口内的插针出现倾斜或缺失,会影响到模块与基座的接插以及模块的正常使用。而外观铭牌作为模块信息的媒介,如果存在印刷缺陷问题,将严重影响到用户的使用体验,所以在载波模块出厂前需对其进行外观检测。传统的人工目视检测成本高、效率低且漏检率高,不利于实现大批量的自动化检定。基于此
学位
近年来人工智能在量化投资中扮演着越来越重要的角色,强化学习算法也被广泛地应用其中。为进一步探讨强化学习在量化投资中的应用,本文基于隐马尔可夫模型和强化学习算法对医药板块的量化投资策略展开研究,为投资者在进行交易决策时提供指导意见。首先本文随机抽取了十家医药板块的上市公司,使用其14个指标进行分析建模,根据高斯-隐马尔可夫模型对每支股票的市场状态进行离散化,由此来确定市场环境;同时根据AIC/BIC
学位