论文部分内容阅读
为了提高服务组合适应动态环境的能力,将强化学习技术引入到Web服务组合。目前常用的强化学习方法有三种:蒙特卡罗、时序差分和Q-Learning,为了发现最适合于服务组合的强化学习方法,对这三种方法进行了对比研究。首先将Web服务组合建模为马尔科夫决策过程,然后介绍了这三种强化学习方法并分析了它们的异同,同时,提出了Web服务组合领域的奖赏值确定方法。最后,通过实验比较了这三种强化学习方法的学习效果,实验结果显示,在Web服务组合应用中,Q-Learning比另外两种方法收敛速度更快,因此更适合执行服