PBL课堂中的学生发言行为检测算法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sgaini1532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于问题的教学法(Problem Based Learning,PBL)是一种以学生分享讨论为主的教学方法,该方法正被广泛应用于医学教育领域。PBL课堂教学中,教师需要提问引导、反馈并通过记录学生课堂发言情况给出评价。为保证评价客观性,教师需在课堂上记录很多内容,这对教师的要求很高。根据PBL课堂的需求,研究这类多人同屏场景下的发言行为检测问题,能自动统计学生的发言,辅助教师开展教学评价。发言行为检测实际是检测视频或音频中某时刻的发言者。现有的研究多围绕实验室、电影以及多视角拍摄的会议等场景开展。而PBL教学环境属于复杂的多人同屏场景,其同屏人数通常为10人,远多于主流数据集的同屏人数(不超过3人),因此,针对该场景下的数据集和发言行为检测研究都相当缺乏。为了解决这个问题,本论文开展了如下研究工作:(1)以鱼眼摄像头和麦克风阵列为工具,采集了41小时的PBL线下教学视频和音频,构建了该场景下的发言行为数据集PBLSpeaker,丰富了线下PBL课堂这类多人同屏场景的数据集。(2)将声纹识别特征x-vector应用于发言行为检测任务中,该特征的区分能力更强、信息更丰富能更好地帮助后续分类网络提升预测精度。(3)利用注意力机制建立候选发言者上下文信息特征提取网络,作为发言状态判别网络的一部分。该网络在PBL的多人同屏讨论场景下,较为精细地计算同一时刻所有同屏候选者的相互信息,并以此来提高发言状态的预测精度。最后,本文的发言行为检测算法在自建PBLSpeaker数据集上的发言者检测测试精度达到92.3%,发言者分割测试错误率达到18.84%,均优于现有的开源方法。本文利用鱼眼摄像机实现了PBL教学环境中发言行为检测的功能,它能够辅助教师开展客观PBL教学评价,相应的解决方案也能够适用于多人同屏环境中发言行为检测的通用问题。
其他文献
多模态医学图像分割在临床诊断中发挥着重要作用。多模态数据已被证明可以从不同层面提供有关解剖结构的互补信息。有效结合多模态数据可以提高医学图像分割性能。近年来,基于深度学习的多模态分割方法取得了显著的进展。然而,现有方法通常简单地结合不同模态的特征,难以充分建模复杂的模态间依赖关系,且忽略了噪声和模态间差异的影响,使得多模态互补信息没有得到很好的利用。本文在配对多模态图像和不成对多模态图像两种场景下
学位
弱监督图像分割是计算机视觉中的一个重要任务,它能够有效的减少分割任务中标注工作量和标注成本。机器学习中弱监督的定义可进一步细分为不确切监督、不完全监督及带有噪声的监督。图像分割任务中的弱监督通常只包含少许像素的监督信息,本文核心研究思路是将这些稀疏的监督信息传递给图像中其它像素以实现准确的弱监督图像分割,并完成了如下工作:(1)针对弱监督图像语义分割中初始语义图监督信息稀疏问题,本文提出了深度图割
学位
三维场景理解是自动驾驶、智能机器人等人工智能技术应用的核心需求。本文主要研究三维场景理解中的两个重要三维信息的估计方法,即表征三维场景结构的深度估计和表征三维场景动态信息的三维动态目标分割。由于三维信息在不同时刻下的观测具有时序一致性,如何利用时序上的运动信息(光流、场景流或者位姿)辅助三维信息的估计成为当前研究的热点方向。本文分别基于相机传感器和激光雷达传感器进行研究,设计三维信息与运动信息的联
学位
近年来,随着立体视频等应用的兴起,视频信号的数据量越来越大,给存储和传输带来了沉重负担。在存储或传输之前,视频信号通常会被压缩。主流的视频压缩算法,在变换与量化等模块中引入失真,压缩数据的同时也影响压缩后视频的质量。如何在尽可能降低数据量的同时保持尽可能好的视频质量是视频编码的永恒话题。为此,视频质量增强算法被研究者们引入到视频编码中,其中基于神经网络的方法近年来成为了智能编码优化的研究重点,目的
学位
自动驾驶系统是新一代工业革命的关键技术之一,道路分割在其中扮演了重要角色,它能保障智能汽车的安全行驶,具有极大的研究意义和应用价值。研究者们提出了大量的道路分割方法,这些方法取得了较好的分割准确性,但是存在计算量过大的问题,而智能汽车搭载的平台算力十分有限,无法做到实时运算,因此难以为下游的决策模块提供及时的反馈。本文深入探索了道路分割中的关键问题,设计了兼顾准确性和实时性的道路分割算法,主要工作
学位
屏幕视频主要由文本区域、计算机图形和其他计算机生成的内容组成。相比于相机拍摄的自然场景视频,具有独特的特征:在空域上,其具有更高的色彩纯度、更高的边缘强度;在时域上,场景切换更为频繁,且相邻帧之间的运动更加集中、剧烈。在屏幕视频的压缩与传输过程中,需要在尽可能不降低视频主观质量的前提下提升压缩率。针对这一需求,本文分析了屏幕视频的视觉感知特性,建立了屏幕视频的视觉感知模型。具体而言,这一模型包括空
学位
基于多视图的三维重建旨在从物体的多视角图片中恢复出物体的3D形状。随着深度学习的发展,基于深度学习的三维重建工作方兴未艾,但仍然存在以下两点挑战。首先,多视图之间存在一致性和互补性,如何建模多视图的一致性和互补性关系,是基于多视图三维重建工作的关键。其次,现有工作通常构建深层次的网络结构来提取更具辨识性的高阶特征,但是深层网络中几何信息逐渐丢失,导致物体的精细结构难以准确重建。针对上述挑战,本文基
学位
近年来行人轨迹预测的研究受到广泛关注,在诸如自动驾驶、智慧城市、智能监控等计算机视觉应用中起到了关键作用。在行人轨迹预测中,行人之间以及行人和场景之间的交互都会影响行人轨迹。交互的最优构建方式也会随着环境的变化而变化,从而造成预测轨迹的不确定性。因此,如何依据环境变化建模最优交互关系是行人轨迹预测的难点。针对这一难点,目前还面临以下三个问题:一是建模对象,即建模哪些交互;二是模型结构,即在确定建模
学位
经过数十年发展,冷冻电镜已成为研究蛋白质生化性质最有效的手段之一。通过冷冻电镜密度图构建蛋白质三维结构是该技术的最后一环。然而,该步骤目前大多由结构生物学家手动完成。为节省人力物力,本文以冷冻电镜密度图为研究对象,提出了一种基于深度学习的蛋白质三维结构预测算法。该算法主要包含三个子模块,分别是Cα原子目标检测、氨基酸目标检测和蛋白质骨架构建,具体内容如下:(1)设计了一个基于Retina Net的
学位
场景识别是计算机视觉领域的一个经典研究问题,其中室内场景的准确识别有助于室内机器人和增强现实等应用的发展。然而室内场景通常存在空间布局多样、光照复杂以及物体相互遮挡等问题,给室内场景识别带来挑战。提供场景空间信息的深度(Depth)数据结合可以提供颜色和纹理等信息的RGB数据,为室内场景识别带来新的研究契机。因此,近年来基于RGB-D的室内场景识别得到了广泛的关注。针对基于RGB-D的室内场景识别
学位