论文部分内容阅读
本文主要使用强化学习对三支股票进行资产组合,并与传统的投资组合理论进行比较。实验结果表明,基于强化学习的方法,可以对资产进行有效的配置,在特定的情况下优于传统的投资组合理论。
1.背景
强化学习是人工智能中最有趣的分支之一,在众多的问题中已经显示出其力量,震惊世界,包括击败世界象棋冠军,围棋冠军,甚至在游戏 DotA 2中胜出 [1]。使用强化学习进行股票交易,一直被数据科学家认为是一个“圣杯”。
使用机器学习进行股票交易有多种方式。一种方法是使用预测模型对股价的波动进行建模,然后使用基于启发式的机器人根據预测值进行操作。另外一种方法是建造一个机器人,这个机器人可以直接根据股票的波动进行操作,包括买、卖、不操作。这是一种十分适合强化学习的环境,因为我们只有当交易结束的时候才知道我们操作的累积结果。
2.问题描述
我们可以将问题描述为:给定三支不同的股票的历史数据,我们应该如何将固定总量的资金分配到这些股票上,使得最终收益最大。随着时间的改变,策略需要根据最新的信息重新构建投资组合,做出最优的分配。
我们的解决方案就是构造出一个强化学习模型,然后智能体在每一个时刻根据每个股票的指标值进行资金分配。我们将基于强化学习的策略与马科维茨 (Markowitz) 的有效边界理论作对比——对于大部分的基金经理都是使用马科维茨的理论以及各种直觉做出资产配置的 [2]。
3.强化学习
强化学习的主要任务是设计出一个“智能体”,然后这个“智能体”不断地与“环境”交互,通过系统性地试错,得出最终的“行动方案”。“环境”可以是游戏,如象棋或者围棋,也可以是更加具体的任务,如走出迷宫,或者拿到一个物品。“智能体”就是执行动作的机器人。
通过与环境交互,“智能体”将得到“奖励”。智能体不断学习各种“行动”,期望能从环境中得到更多的“奖励”。如果智能体得到的累积奖励超过一定的阈值,则我们认为它已经很好地适应了环境。
我们将设计出一个智能体,使用某种策略与交易环境进行交互,以达到最大的投资组合收益。对于我们的问题,就是要决定投资组合的维持比例,如:30%股票A,40%股票B,20%股票C,10%现金,然后智能体就会得到一个正的或者负的反馈。通过反复的尝试,智能体将不断迭代策略,直到得出在给定的环境状态下的最佳行动方案。
4.环境设置
为了模拟真实的交易环境,智能体可以与环境进行以下的交互:
步骤 1:环境提供三支股票的当前状态的指标;
步骤 2: 智能体对环境做出一个动作。这个动作就是资产组合的分配。例如:10%现金,40%股票 1,35%股票 2,15%股票
步骤 3:环境状态更改,前进一个时刻点,返回新的状态,并且得到之前资产组合的奖励。
步骤 1 到步骤 3 不断重复直到一次实验的结束。每一步骤得到的奖励累积起来就是总的奖励。我们的目标就是要最大化每次实验的总的奖励。
每次环境重置都会从全体数据库中抽取出不同的片段。每次的环境都不相同,这能够避免智能体记住了环境。更进一步,智能体的训练和评价,都是在不同的环境下进行的。因此,智能体从数据中的一部分中学习策略,从另一部分数据中进行评估。我们评价强化学习模型和马科维茨模型都是使用相同的步骤。
5.马科维茨有效边界模型
马科维茨的有效边界模型是评价资产组合的风险与收益的框架模型。投资组合的收益是投资组合每一个时间点的收益的均值。风险是每日收益的标准差,用于评价股票的波动率。基金经理根据每一种投资组合的风险与收益,画出有效边界然后做出决策。有效边界上的每一个点都显示了在给定风险组合的情况下得到的最高收益。在我们的实验中,我们设计了一种智能体,能根据之前 30 个时刻的投资组合表现,构造出一个中等风险高收益的组合。
6.实验结果比较
对于强化学习,我们使用了未经调优的 Actor Critic 模型,运行了 100 次的环境实验,平均收益为 +20%。对于马科维茨模型,其实验结果为-1%。有效边界模型的表现并不好,也许是因为我们所挑选股票的高波动性。当所有的股票价格下降时,基于强化学习的模型会卖出股票增加手里的现金。并且,强化学习模型可以捉住每一次价格的波动并利用起来。因此,基于强化学习的资产组合配置,其表现优于传统的马科维茨模型。
参考文献
[1] https://www.geeksforgeeks.org/what-is-reinforcement-learning/
[2] https://zhuanlan.zhihu.com/p/166163706
作者简介:罗晓牧(出生年月1980-),性别:男,广东省广州市(籍贯),现职称:副教授,学历:工科博士研究生毕业,研究方向:机器学习,无线传感器网络,生物信息获取.广州中医药大学医学信息工程学院.
1.背景
强化学习是人工智能中最有趣的分支之一,在众多的问题中已经显示出其力量,震惊世界,包括击败世界象棋冠军,围棋冠军,甚至在游戏 DotA 2中胜出 [1]。使用强化学习进行股票交易,一直被数据科学家认为是一个“圣杯”。
使用机器学习进行股票交易有多种方式。一种方法是使用预测模型对股价的波动进行建模,然后使用基于启发式的机器人根據预测值进行操作。另外一种方法是建造一个机器人,这个机器人可以直接根据股票的波动进行操作,包括买、卖、不操作。这是一种十分适合强化学习的环境,因为我们只有当交易结束的时候才知道我们操作的累积结果。
2.问题描述
我们可以将问题描述为:给定三支不同的股票的历史数据,我们应该如何将固定总量的资金分配到这些股票上,使得最终收益最大。随着时间的改变,策略需要根据最新的信息重新构建投资组合,做出最优的分配。
我们的解决方案就是构造出一个强化学习模型,然后智能体在每一个时刻根据每个股票的指标值进行资金分配。我们将基于强化学习的策略与马科维茨 (Markowitz) 的有效边界理论作对比——对于大部分的基金经理都是使用马科维茨的理论以及各种直觉做出资产配置的 [2]。
3.强化学习
强化学习的主要任务是设计出一个“智能体”,然后这个“智能体”不断地与“环境”交互,通过系统性地试错,得出最终的“行动方案”。“环境”可以是游戏,如象棋或者围棋,也可以是更加具体的任务,如走出迷宫,或者拿到一个物品。“智能体”就是执行动作的机器人。
通过与环境交互,“智能体”将得到“奖励”。智能体不断学习各种“行动”,期望能从环境中得到更多的“奖励”。如果智能体得到的累积奖励超过一定的阈值,则我们认为它已经很好地适应了环境。
我们将设计出一个智能体,使用某种策略与交易环境进行交互,以达到最大的投资组合收益。对于我们的问题,就是要决定投资组合的维持比例,如:30%股票A,40%股票B,20%股票C,10%现金,然后智能体就会得到一个正的或者负的反馈。通过反复的尝试,智能体将不断迭代策略,直到得出在给定的环境状态下的最佳行动方案。
4.环境设置
为了模拟真实的交易环境,智能体可以与环境进行以下的交互:
步骤 1:环境提供三支股票的当前状态的指标;
步骤 2: 智能体对环境做出一个动作。这个动作就是资产组合的分配。例如:10%现金,40%股票 1,35%股票 2,15%股票
步骤 3:环境状态更改,前进一个时刻点,返回新的状态,并且得到之前资产组合的奖励。
步骤 1 到步骤 3 不断重复直到一次实验的结束。每一步骤得到的奖励累积起来就是总的奖励。我们的目标就是要最大化每次实验的总的奖励。
每次环境重置都会从全体数据库中抽取出不同的片段。每次的环境都不相同,这能够避免智能体记住了环境。更进一步,智能体的训练和评价,都是在不同的环境下进行的。因此,智能体从数据中的一部分中学习策略,从另一部分数据中进行评估。我们评价强化学习模型和马科维茨模型都是使用相同的步骤。
5.马科维茨有效边界模型
马科维茨的有效边界模型是评价资产组合的风险与收益的框架模型。投资组合的收益是投资组合每一个时间点的收益的均值。风险是每日收益的标准差,用于评价股票的波动率。基金经理根据每一种投资组合的风险与收益,画出有效边界然后做出决策。有效边界上的每一个点都显示了在给定风险组合的情况下得到的最高收益。在我们的实验中,我们设计了一种智能体,能根据之前 30 个时刻的投资组合表现,构造出一个中等风险高收益的组合。
6.实验结果比较
对于强化学习,我们使用了未经调优的 Actor Critic 模型,运行了 100 次的环境实验,平均收益为 +20%。对于马科维茨模型,其实验结果为-1%。有效边界模型的表现并不好,也许是因为我们所挑选股票的高波动性。当所有的股票价格下降时,基于强化学习的模型会卖出股票增加手里的现金。并且,强化学习模型可以捉住每一次价格的波动并利用起来。因此,基于强化学习的资产组合配置,其表现优于传统的马科维茨模型。
参考文献
[1] https://www.geeksforgeeks.org/what-is-reinforcement-learning/
[2] https://zhuanlan.zhihu.com/p/166163706
作者简介:罗晓牧(出生年月1980-),性别:男,广东省广州市(籍贯),现职称:副教授,学历:工科博士研究生毕业,研究方向:机器学习,无线传感器网络,生物信息获取.广州中医药大学医学信息工程学院.