基于强化学习的网络节能控制

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:huanguo12819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
AlphaGo的成功证明了深度强化学习在智能决策任务上具有的巨大潜力。利用机器学习理论做智能决策的方法在各个工程领域中开始受到重视。网络中存在大量的动态数据可供机器学习,例如链路时延、队列长度、丢包率、流量变化情况等,这些数据侧面反应着网络的状况,可以用来指导网络管理者作出调控决策。然而将现有机器学习理论应用于网络智能决策中存在以下困难,一是难以实时、有效地收集数据,二是难以标定数据质量,如果采取无监督学习,则难以直接面向智能决策,所以半监督性质的强化学习成为值得探究的路径之一。目前已有的关于网络决策的相关研究,一般是基于启发式算法得到较优的解法,往往需要复杂的设计、测试、实验,如果问题背景迁移,约束条件发生变化,又需要重复进行设计。本文借鉴强化学习理论中的经典框架来进行这一类决策,并根据网络控制问题的特点对已有框架进行改进,设计一个以深度神经网络为决策体的模型,通过对网络的拥塞程度、耗电量等指标的建模作为从环境中观察到的状态,以对网络中路由节点的开关作为决策的动作集,通过不断下发决策来收集状态的变化数据作为反馈信息,使机器自行学习什么样的决策适用于特定的网络状况,主要研究内容分为两块,一是将强化学习理论应用于实际场景,尤其是网络控制这种包含大量动态数据、需要大量决策、存在多种变量因素的场景,与目前已成熟应用的领域(如围棋、游戏)相比存在哪些区别,有哪些需要攻克的技术难点,二是如何因地制宜地改进强化学习框架,使其能够处理实际的网络控制问题。本文搭建了基于软件定义网络技术的仿真平台,真实模拟了一张流量不断变化的通信网络,并在此基础上实现和验证本设计方案的有效性,最终形成一个能在毫秒级时间内产生、下发决策,决策效果接近于启发式算法的网络节能控制系统。
其他文献
企业文化是企业软实力的重要内容,如何让企业文化由"抽象"变"形象"、由"无形"变"有形",是企业文化发挥作用的关键。本文结合中国石油辽宁营口销售分公司开展企业文化建设的实
<正> 在我国,1980年以前,投资几乎都属国家或政府行为。改革开放以后,随着生产发展和人民生活水平提高,老百姓在衣食不愁之余,开始拥有居民金融资产,于是民间投资开始出现。
<正> 一、药物组成:苍术、白术、地榆各等分。二、用法:上药研极细末,香油适量调成糊敷患处,每日1次,一般用2~3次即愈。经治10例带状疱疹病人,敷药2次即愈合者6例,敷药3次即愈
物流是指产品实体从供应者向需求者流动的过程。本文首先分析了电子商务下的物流模式,其次分析了电子商务环境下第三方物流企业的前景和策略,最后提出了发展电子商务物流的对
大气颗粒物中重金属对人体健康危害较大,本研究在西安城区选取五处典型地段为采样点采集PM2.5和PM10样品,有效样品共计256个,并采集了6场雨水径流样品,采用电感耦合等离子体
良好的美育能够陶冶学生情操、开发学生智力,培养学生的想象力和创造力;能够塑造学生健康的人格,提升学生的学习境界,对促进学生全面发展具有不可替代的作用。
本文对中国铁路"走出去"面临的机遇和挑战进行了分析,提出了中国铁路"走出去"的指导思想、基本原则和战略目标。针对周边国家、"一带一路"沿线国家、非洲和拉美地区、欧美发
推进海南国际旅游岛建设,应站在国家发展战略全局的高度,跳出海南看国际旅游岛,跳出旅游看国际旅游岛,跳出短期看长期,谋求海南自身区域发展定位和中长期发展,争当新时期我国改革开
报纸
通过热力学计算,发现在碳热还原氧化钛和氧化硼的过程中,氧化钛的还原过程是分步进行的,但不会生成金属钛,氧化硼的还原是一步生成单质硼,且是整个过程的控制步骤。在单质硼的参与
本文描述了我国居民平均消费倾向的现状,分析了影响我国居民平均消费倾向的主要因素,在此基础上,利用我国1978-2007年的相关统计数据,运用协整分析和格兰杰因果检验等方法,对