【摘 要】
:
综合考虑再励学习的两个重要子问题 :连续空间及语言评价问题 ,提出了一种新的学习方法 ,即面向语言评价的 Takagi-Sugeno(T-S)模糊再励学习。该学习智能体构建在 Q-学习方法
【机 构】
:
清华大学计算机科学与技术系,智能技术与系统国家重点实验室,清华大学计算机科学与技术系,智能技术与系统国家重点实验室,清华大学计算机科学与技术系,智能技术与系统国家重点实验室 北京100084,北京10
论文部分内容阅读
综合考虑再励学习的两个重要子问题 :连续空间及语言评价问题 ,提出了一种新的学习方法 ,即面向语言评价的 Takagi-Sugeno(T-S)模糊再励学习。该学习智能体构建在 Q-学习方法和 Takagi-Sugeno模糊推理系统的基础上 ,适于处理连续域的复杂学习任务 ,亦可用于设计 Takagi-Sugeno模糊逻辑控制器。以二级倒立摆控制系统为例 ,仿真研究验证了学习算法的有效性
Considering two important sub-problems of re-energizing learning, such as continuous space and language evaluation, a new learning method is proposed, namely Takagi-Sugeno (T-S) fuzzy re-learning for linguistic assessment. Based on the Q-learning method and the Takagi-Sugeno fuzzy reasoning system, this learning agent is suitable for the complicated learning tasks in continuous domains and also for designing Takagi-Sugeno fuzzy logic controllers. Take the two inverted pendulum control system as an example, the simulation study verifies the effectiveness of the learning algorithm
其他文献
在核工程抗震计算中 ,普遍还是采用线弹性模型进行动力计算 ,但一般结构物在强震中有可能进入弹塑性变形阶段。该文的主要目的是考察结构物在线弹性模型和弹塑性模型下地震响
目的:探讨电针对大鼠脑缺血再灌注损伤后血清TNF-α及TGF-β1的影响.方法:将健康雄性SD大鼠随机分为假手术组、模型组、电针治疗组.采用改良线栓法制备局灶型脑缺血再灌注损
该文主要讨论多载波CDMA蜂窝系统在下行信道中的同信道干扰问题,理论分析了同信道干扰的解析表达式,并通过计算机仿真得出了在一定的传播损耗下多载波CDMA蜂窝系统下行信道的
在激光辐照或退火作用下 ,As2 S3非晶半导体薄膜的光学吸收边出现红移现象 ,并且随着激光功率的增大和辐照时间的延长 ,红移值增大 ,并最后达到饱和。这种红移在先经过退火处
用计算机仿真模拟了高强度飞秒激光抽运下的光参量放大(OPA)过程,着重讨论了高阶非线性效应对参量转化效率和波形的影响.为了抑制高阶非线性效应对放大信号光波形的调制,改善
目的:建立桂杞如意散中阿魏酸含量的测定方法。方法:采用高效液相色谱法,以DiamonsilC18(5μm,200mm×4.6mm)为色谱柱,以甲醇-0.5%冰醋酸溶液(27∶73)为流动相;流速为1.0mL/m
采用渐变应变有源区结构 ,制备出偏振不灵敏半导体光学放大器 ,工作电流在 6 0~ 16 0mA范围内 ,其 3dB带宽范围不小于 35nm ,偏振不灵敏度小于 0 35dB ,自发发射出光功率为 0
分析了制约继电保护整定计算及管理软件推广应用的主要原因.从继电保护整定计算所涉及的数据、内容和过程出发,研究了继电保护整定计算的数据表示、数据处理、定值计算方法等
1 双回线相继速动保护双回线相继速动保护原理如图1所示,两条线路中的Ⅲ段距离元件动作或其他保护跳闸时,输出FXL信号,分别闭锁另一回线Ⅱ段距离相继速跳距离元件.
耦合空间广泛地存在于各类建筑中,具有复杂的声场特性.关于耦合空间已有的研究多是建立在扩散声场的基础上,应用统计理论给出近似的分析.本研究从波动声学出发,从简正频率的