【摘 要】
:
近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性
【机 构】
:
计算机软件新技术国家重点实验室(南京大学),江苏南京 210023;苏州大学计算机科学与技术学院,江苏苏州 215006
论文部分内容阅读
近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性来合理分配规划时间,广义值迭代网络中的每一轮迭代都需要在整个状态空间的所有状态上同步执行.当状态空间较大
其他文献
夏季是蚊蝇、野猪活动频繁时期,也是山区非洲猪瘟等动物疫病高发期.一旦防控措施滞后,将会引发动物疫情发生和传播,给群众生产生活带来严重损失,造成疫病发生流行,给生产发展带来安全隐患.为了保障畜牧产业健康稳定发展,巩固非洲猪瘟防控总体平稳态势,确保不发生区域性重大动物疫情和公共卫生安全事件.笔者针对夏季重大疫病防控提出以下措施,重点提高服务、预防、预警“三个”能力.
为进一步规范抽水蓄能机组检修标准化作业工艺及工序,提出了一种基于虚拟现实的抽水蓄能机组检修标准化作业仿真方法.首先融合多源检修信息,根据多级编码规则对检修工序进行编码,其次基于空间拓扑关系重构三维数字化模型,最后仿真模拟检修工艺,形成抽水蓄能机组检修标准化作业体系.将该方法应用于某抽水蓄能电站实际检修过程,实践证明,本文所提方法能够提高作业效率与质量,具有较好的工程应用价值.
目的 探讨慢性阻塞性肺疾病(COPD)患者血清白介素33(IL-33)、可溶性生长刺激表达基因2蛋白(sST2)、C反应蛋白(CRP)与病情严重程度的相关性.方法 收集南通市第二人民医院呼吸内科2019年1月-2020年10月期间COPD患者146例,检测并比较患者血清IL-33、sST2和CRP的变化,测定并计算COPD患者的FEV1占预计值百分比(FEV1%预计值),分析CRP、sST2、sST2/IL-33比值与FEV1%预计值的相关性.结果 COPD急性加重期(AECOPD)患者血清CRP、sST
《民法典》第99条规定了农村集体经济组织特别法人地位,这是一项具有中国特色的重大制度创新.它的制定在一定程度上促进了法律的本土化、解决了集体财产流失的问题.但众所周知农村集体经济组织自身具有高度特殊性,在资产管理的过程中可能会面临着主体模糊、成员资格认定不明等困境.文章通过从制定农村集体经济的立法价值出发,分析其背后的法律问题,并结合我国法律的实际,对农村集体经济组织提出合理建议.
目的 探讨非小细胞肺癌(NSCLC)患者的MicroRNA-133a(miR-133a)表达水平,及其与患者临床病理特征和预后的关系.方法 收集南通市第一人民医院2017年1月-2019年10月的NSCLC患者82例为研究对象.使用定量实时PCR分析方法检测并分析miR-13a在研究对象肺癌组织和邻近正常肺组织中的表达.使用ROC曲线分析miR-133a对NSCLC及病理特点的预测价值.使用生存曲线分析miR-133a对NSCLC患者生存时间的影响.结果 NSCLC组织的miR-133a表达降低(NSCL
目的 分析肝硬化食管胃静脉曲张老年患者的临床特点.方法 回顾性分析2017年1月至2020年1月中国人民解放军总医院第一医学中心消化内科医学部诊疗的168例65岁以上肝硬化食管胃静脉曲张老年患者的一般资料、临床表现、内镜下表现及治疗情况等.结果 纳入研究的168名老年患者的平均年龄为70.8岁,其中男性74例,占44.0%;女性94例,占56.0%.全部老年患者病因的前3位是乙肝肝硬化(26.8%),酒精性肝硬化(14.9%)和原发性胆汁性肝硬化(12.5%).老年患者合并各类基础疾病较多,如合并各类心血
目的 评估光学相干断层扫描血管成像技术(OCTA)对原发性开角型青光眼(POAG)早期诊断的有效性.方法 本研究纳入POAG患者48例62眼为实验组,年龄性别与之相匹配的正常人21例26眼为对照组,OCTA测量所有入组人员的黄斑区和视盘区视网膜血流密度(VD),并分析VD与视功能参数的相关性以及对POAG的诊断效能.结果 视盘整体VD与视野指数(VFI)呈正相关(r=0.73,P<0.05),视盘旁VD与VFI呈正相关(r=0.64,P<0.05),黄斑浅层VD与VFI呈正相关(r=0.61,P<0.05
目的 探讨与抗磷脂综合征(APS)相关的抗心磷脂抗体(ACA)和抗β2糖蛋白Ⅰ抗体(A-β2 GPⅠ)各3种分型抗体以及与系统性红斑狼疮(SLE)相关的抗dsDNA抗体和抗C1 q抗体在复发性流产(RM)诊断中的价值分析.方法 试验分为RM实验组和健康对照组两组研究对象,通过运用SPSS23.0软件统计分析比较两组研究对象的ACA、A-β2 GPⅠ、抗dsDNA抗体、抗C1 q抗体的均值和阳性率;采用ROC曲线分析AUC数值,并探讨几种诊断指标的诊断价值;并采用人工方法通过计算公式分别统计计算各指标的敏感
山东省莒南县是传统的畜牧业大县.近年来,莒南县严格贯彻落实国家、省市关于促进饲料产业高质量发展一系列意见要求,立足新发展阶段,贯彻新发展理念,融入新发展格局,加快推进饲料产业转型升级,有力推动了饲料产业高质量发展.
深度神经网络在许多计算机视觉任务中都取得了优异的结果,并在不同领域中得到了广泛应用.然而研究发现,在面临对抗样本攻击时,深度神经网络表现得较为脆弱,严重威胁着各类系统的安全性.在现有的对抗样本攻击中,由于黑盒攻击具有模型不可知性质和查询限制等约束,更接近实际的攻击场景.但现有的黑盒攻击方法存在攻击效率较低与隐蔽性弱的缺陷,因此提出了一种基于进化策略的黑盒对抗攻击方法.该方法充分考虑了攻击过程中梯度更新方向的分布关系,自适应学习较优的搜索路径,提升攻击的效率.在成功攻击的基础上,结合注意力机制,基于类间激活