论文部分内容阅读
随着病态建筑综合症的出现,人们开始意识到封闭的室内环境对室内人员的健康会产生不利的影响,对建筑室内环境的舒适度给予了极大的关注,此外由于化石能源消耗日益加剧、社会用电需求不断增加,基于建筑运营中电力能源消耗较大的特点,如何在保证舒适度的情况下减少能耗成为了相关领域研究的一个重要方向。本文以建筑室内环境控制问题为场景,结合强化学习解决控制最优化问题,着重针对强化学习中的奖赏函数设定问题进行研究。针对复杂的室内环境下奖赏函数难以人为设定的问题,本文通过逆强化学习中学徒学习的方法对奖赏函数进行设定并求得最优策略,同时将算法应用于现实的空调系统,针对建模过程中存在的小样本问题,引入元学习的概念,通过相对熵概率模型对奖赏函数进行建模并求解,并将提出的算法应用于空调系统的自动控制,从而实现对室内环境的调控的目的。其主要研究内容如下:(1)针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型,对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提出的算法应用于经典的Gridworld和Object World问题,实验表明,该算法在目标任务专家演示稀疏以及缺少状态转移概率信息的情况下仍能较好的求解奖赏函数。(2)针对室内环境控制任务MDP中奖赏函数难以人为设定的问题,提出了一种基于学徒学习的室内环境控制方法,通过采集人类专家的控制序列构建专家样本,结合学徒学习方法对奖赏函数进行求解,随着奖赏函数参数的不断迭代求解出接近人类专家策略的最优控制策略,并将提出的方法应用于模拟出的室内环境模型进行仿真实验,实验结果表明,该方法以一种数据驱动的方式有效地解决了室内环境控制任务MDP中的奖赏函数设定问题,并进一步对室内环境进行自适应控制。(3)将逆强化学习应用于现实中的空调系统自动控制,针对建模过程中存在的样本数不足的问题,结合人工神经网络和第三章基于相对熵的元逆强化学习方法构建空调智能控制方法,并研究了不同奖赏函数情况下系统性能的变化。通过Energyplus软件仿真实验验证了所提出的方法,实验结果表明,该方法在小样本情况下仍能较好的实现AC系统的自动控制。并且通过提供不同用户的控制样本,最终将得到满足不同用户偏好设置的控制系统,有一定的现实意义。