面向在线教育的音视频超分辨率研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xt100q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新冠肺炎(COVID-19)疫情期间在线教育使用者激增,庞大的音视频流量给网络基础设施带来了巨大冲击。如何在有限的带宽条件下提升音视频流畅度具有重要意义。针对此,本文研究基于超分辨率技术的低码率音视频重建方法,通过超分辨率方法将低采样率音视频重建为高采样率音视频。由于现有的重建方法难以满足高质量在线教育音视频的需求,本文使用外部参考引导的方式使重建音视频更加真实。在视频超分辨率方面,为了满足低时延的需求,本文基于逐帧处理的框架提出了一种参考图引导的图像超分辨率方法,利用在线教育视频的前几帧对重建过程进行引导。在语音超分辨率方面,本文提出了一种语音信号时域超分辨率方法,并引入当前讲者的身份特征进行引导。本论文的工作成果与创新点如下:1.提出了一种参考图引导的图像超分辨率方法。本文使用幻灯片图像模拟在线教育视频,将同一组幻灯片的前几帧高分辨率图像作为参考图像,辅助恢复剩余的幻灯片图像。首先利用编码器提取多幅参考图像与低分辨率图像的多层特征,然后根据其深层特征的相似性融合多幅参考图的有用信息。最后,将融合信息输入解码器重建当前帧。另外,为了扩大适用范围,提出了一种全局配准与局部配准相结合的图像配准方法。当参考图像与目标图像存在较大视角差异时,通过所提方法将参考图像校正到与目标图像同一视角,然后利用所提出的编码-解码网络进行超分辨率重建。实验结果表明,所提方法在在线教育数据集与地标数据集上均优于目前先进的单图像超分辨率、参考图引导的超分辨率与视频超分辨率方法。2.提出了一种语音信号时域超分辨率方法。本文方法将时域语音信号作为输入,避免了频域处理中短时傅里叶变换带来的信息延迟,相比现有的网络具有更大的感受野。为了重建更真实的高频信息,本文提出了时域与频域联合损失函数,在获得丰富频谱的前提下重建更加准确的相位信息。另外,本文利用身份特征信息引导时域超分辨率网络,使网络能够根据不同讲者的身份特征自适应地调整。实验结果表明,本文所提出的方法在VCTK数据集各类评价指标上均优于现有的语音超分辨率方法。
其他文献
听力障碍是广东省占比最大的残障类型,为了改善听障儿童的康复情况,减轻家庭购买人工耳蜗产品的负担,广东省自“十一五”时期因应国家政策推行人工耳蜗康复救助项目,广东省听障儿童人工耳蜗康复救助政策(以下简称为“人工耳蜗康复救助政策”)发展至今已步入第十年。广东省不仅拥有着长期的人工耳蜗康复救助政策执行经验,而且广东省的残障服务支撑指数也位于全国前列。然而,广东省在残障服务领域的优势,仍然未能充分满足听障
学位
近年来,四旋翼无人机凭借其结构简单、机动性好以及可垂直起降等优势被广泛地应用于各个领域。在无人机执行巡检等任务的过程中,无人机需要在特定环境下进行自主导航与自主着陆。目前,实现无人机自主导航主要使用SLAM(Simultaneous Localization and Mapping)方法,但随着机器学习技术的发展,基于学习算法的导航技术逐渐受到了研究人员的关注。无人机在自主着陆过程中,无人机旋翼产
学位
在素质教育理念不断推进与发展的今天,高中历史学科在高中课堂上的教学地位越来越重要,同时在学习案这一教学模式的指引下,学生们对于历史的学习已不再局限于"重复昨天的故事",而是随着知识的不断积累,使学生在了解历史的同时,可以感悟历史,以史鉴今。就此,本文主要从学习案的内涵价值和学习案在高中历史教学中的应用优势两方面入手,就学习案引领下的高中历史分层教学策略展开相关研究与探析。
期刊
报纸
<正>福建省作为全国第三批高考综合改革试点的省份,从2018年秋季入学的高中一年级学生开始推行选课走班制新高考改革。在选课走班制教学模式下,学生根据自己的意愿与兴趣对科目自主选择学习,有利于学生的个性发展。如何在选课走班模式下,引导学生顺利完成合格性考试与等级性考试,为学生进入更好的高校平台搭建桥梁,这是历史教师当前要解决的问题。
期刊
复杂系统广泛存在于日常生活和科学研究中,包括金融系统、交通系统、社交网络等,这些系统的共性是无法通过数学解析方法进行精确描述,需要借助观测得到的多元时间序列为中介,间接地实现对复杂系统规律的把控。近年来,深度学习方法在图像分割、无人驾驶、机器翻译等领域取得了重大突破,其中,卷积神经网络通过权值共享和局部感受的结构设计,获得的强大分析处理能力为多元时间序列的研究提供了极大助力。本课题以气液两相流电导
学位
航天器发射升空后全天时运行,由于恶劣未知的空间环境及星上元器件的老化等原因,难以避免会发生故障,如果不及时对故障进行处理,有可能导致航天任务执行的滞后。因此,研究航天器的故障检测技术,根据故障的特征及早实现故障检测,不仅能够保证航天器的安全可靠运行,对其服务寿命的延长也具有十分重要的意义。航天器显著故障多由微小故障发展演变而来,处于早期的微小故障对航天器的正常运行影响很小,故而难以发现故障征兆,然
学位
全方位移动机械臂由于其高度的机动性和操作灵活性被广泛应用。但是由于系统的复杂程度高、不确定性强,且建模过程对先验知识有较高的要求,精确建模难以实现。基于Koopman算子理论的建模方法能够在完全数据驱动条件下为复杂非线性动力学系统建立高维线性动力学模型的显性表达式而无需任何系统先验知识,且该模型适用于基于模型的控制器设计。本文以一台轮式全方位移动机械臂为研究对象,基于Koopman算子理论完成系统
学位
深度脑刺激(Deep brain stimulation,DBS)是目前治疗帕金森、特发性震颤等运动障碍疾病的有效手段,其通过向病灶区施加高频脉冲刺激来缓解症状。影响DBS效果的主要因素是刺激的波形、频率、幅值及个体差异等,构建闭环DBS是解决上述问题的最优策略。为此,本文开发了一种兼容开闭环设定、多波形发生的多模式DBS装置,实现刺激波形优化及闭环调节。同时,搭建基于模型的DBS实验系统,模拟在
学位
多相永磁同步电机因其具有低压大功率输出能力、可靠性高和转矩脉动小等优点,在工业领域中应用越来越广泛。在多种电机控制策略中,有限集模型预测控制由于具有多约束处理能力、脉冲输出方式简单、动态响应快等优点,成为多相永磁同步电机驱动系统控制策略的研究热点之一。但是相较于三相永磁同步电机,多相永磁同步电机相数增多,模型更加复杂,导致有限集模型预测控制存在计算量大,复杂度高的问题。针对以上两个问题,本文以双三
学位