基于强化学习的学习路径推荐技术研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:coolyl1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学习路径推荐是智能导学系统中的重要组成部分。优秀的智能导学系统能够根据不同用户的不同学习需求与学习能力为用户提供个性化的教育资源,帮助用户在学习较少内容的前提下,掌握目标知识技能。强化学习算法善于解决序列决策问题,因此被广泛应用于学习路径推荐场景中。基于强化学习的推荐技术将推荐问题建模为序列决策问题。相较于将推荐问题建模为分类问题和预测问题的传统方法,强化学习不仅考虑到用户的及时反馈,而且能够考虑到用户的长期粘度。然而,与其它诸如电商、电影和广告等推荐场景不同的是,学习路径推荐场景中的智能体往往不会在每步推荐动作后收获到一个即时的反馈,如点击、购买和跳过等,而是在整段推荐过程结束后,通过考试等方式对整个推荐的学习路径进行评估。这导致基于强化学习的学习路径推荐技术中存在奖励稀疏和延迟奖励的问题。在学习路径较长的情况下,奖励稀疏和延迟奖励使得强化学习智能体的学习效率不高,很难给出有效的推荐策略。此外,在学习路径推荐的场景下,强化学习智能体的探索空间较大,智能体推荐的内容难以符合认知逻辑,甚至使用户感到认知断层。受到基于课程学习的强化学习算法的启发,本文提出将协作学习的双智能体——教师-学生智能体应用于学习路径推荐场景中来应对以上挑战,主要工作内容如下:(1)本文将学习路径推荐场景划分为知识点推荐和习题推荐两个层次,采用教师-学生智能体协作学习的模式。在知识点推荐层次中,教师智能体为用户提供学习大纲;在习题推荐层次中,学生智能体根据学习大纲为用户提供适合的习题。(2)在知识点推荐层面,本文引入知识点结构来引导教师智能体为用户提供符合认知逻辑的学习大纲。教师智能体遵循知识点结构,为用户推荐当前适合学习的知识点,使得推荐路径遵循知识点之间的先序关系。此外,该方法能减少教师智能体无意义的探索,起到加速收敛的作用。(3)在习题推荐层面,本文引入应用在强化学习领域的课程学习方法,以提高学生智能体在奖励稀疏情况下的学习效率。学生智能体将事后经验回放与离线学习相结合,使得学生智能体能够从以往失败的经验中进行策略学习。在智能体学习的过程中,根据不同的学习阶段设置相应的学习伪目标,这些伪目标的设置以一种隐式课程的形式指导学生智能体进行学习,起到加速学习和提升学习效果的作用。(4)为有效地利用离线数据对本文提出的教师-学生智能体协作学习模型进行训练和评估,本文构建学习路径推荐场景下的环境模拟器。为验证模型的有效性和收敛性,在Junyi academy和ASSISTments2014-2015“skill builder”两个数据集上进行消融实验和对比实验,并将用户在学习过程中的学习效率作为对学习路径的评价指标。实验结果表明,引入知识点结构和课程指导的教师-学生智能体协作模型能够在奖励稀疏的场景下有效地进行策略学习。与其他传统模型相比,本文提出的模型能够使用户达到较高的学习效率,并且对于较长的学习路径表现得更好。
其他文献
随着5G、WiFi等网络技术的发展和智能移动设备的普及,基于位置的社交网络(LBSN,Location-based Social Network)已成为人们关注的焦点。兴趣点(Point-of-Interest,POI)推荐作为LBSN领域的一个研究热点,它通过对海量的签到数据进行分析和挖掘,为用户提供个性化的兴趣点推荐。这不仅让POI服务商更加充分理解目标受众,而且为用户自主出行提供更为便利的信
随着互联网的兴起,越来越多的学习者选择通过在线教育平台进行学习。不同于传统的课堂教育由教师主导学习者的学习进程与学习活动,在线教育平台提倡因材施教,即根据学习者的知识水平为学习者提供个性化的教学内容与学习路线,然而学习者的知识掌握程度随学习进度不断变化,因此实时追踪学习者知识掌握程度变化尤为重要。知识追踪任务旨在根据学习者历史学习行为实时追踪学习者知识水平变化,并且预测学习者在未来学习表现。知识追
随着互联网的不断发展,越来越多的网民将社交媒体作为获取信息的主要途径,人们在网络空间中快速、自由地发布信息、社交互动、情感交流。微博作为网络信息传播最具代表性的应用之一,越来越多的网民通过微博来发布、获取和传播信息。微博上蕴含着个人观点的实时评论具有潜在的舆论导向,由此形成网络舆情。然而,网络舆情事件往往是突发的、难以预知的。近年来,对于舆情事件的相关研究层出不穷,现有算法无法高效对网民情感及舆情
直觉模糊知识测度在不确定性问题中有着重要作用,由于直觉模糊集的结构特性,知识测度能够有效弥补直觉模糊熵的不足,更加全面地反映不确定性问题研究过程中产生的模糊性与犹豫性。本文以提高知识测度对复杂问题的解决能力为目标,提出改进HammingHausdorff距离,与理想解法(technique for order preference by similarity to ideal solution,T
随着信息传输及数据存储技术的深度发展,时间序列相关的应用领域不断拓宽,金融、医疗、气象、销售等诸多领域时刻产生着各种类型的时间序列数据,数据规模大且无标签。从这些海量数据里挖掘出具有重大潜在价值的信息,在推动信息技术融合应用与信息产业高速增长、促进数字经济健康有序发展等方面具有广泛而深远的意义。聚类作为一种无监督学习方法,比逻辑回归、决策树、支持向量机等监督学习方法更适合对无标签数据的挖掘分析,因
目前很多依赖递归神经网络的对话系统,基本上都是需要大量密集并且标注完成的数据来进行模型的训练。混合编码网络模型(HCN)是一种面向任务通信的对话系统。HCN让开发者可以通过软件和模板操作来传达自己所学领域的知识,与现有的端到端方法相比,HCN可以在一定范围内提高对话系统训练的实用性和训练效率,但也存在一定的局限性,如由于特定领域的小众与独特性,不具有大量的训练样本,传统的混合编码网络模型在小样本数
知识图谱能提供可以被计算机理解的结构化信息,为人工智能的发展打下坚实的基础。虽然目前已构建许多规模较大的知识图谱,但由于互联网数据量过于庞大,以及数据产生速度之快,导致知识图谱所存储的知识信息是远远不完备的。因此,为了提高知识图谱的完整度,知识图谱补全工作势在必行。近年来有研究者提出知识表示学习,它可以更有效地利用到各种补全信息,极大地提高补全工作的效率,且性能表现优异。但是,目前的知识表示模型也
随着互联网时代的到来,人工智能行业成为了国家经济和科技的引领行业,其中通过面部情绪的人工智能识别已经成为当前社会的一个研究热点。根据现阶段的研究发现,用户在相互交流的过程中,绝大多数信息都是借助表情这个媒介进行传达的,用户在进行表述的同时,面部表情也会发生相应的变化,因此,可以利用用户的面部表情变化进而来识别用户的情感变化趋势。情绪可以用肉眼看不见的许多不同形式表示。使用正确的工具,可以检测和识别
随着互联网和人工智能的迅速发展,图像描述任务在人机交互和儿童教育等领域越来越受到重视。图像描述是通过结合计算机视觉中的特征提取与自然语言处理中的序列输出,将图像内容利用计算机生成自然语言描述,从而完成从视觉到语言的形态转换。不同于目标检测、图像识别等图像理解任务,图像描述不仅要识别出图像中包含的物体对象,还需要准确识别出图像中的背景、对象之间的关系等信息。近年来,研究人员对基于深度学习的图像描述方