蒙古语AI合成主播的设计与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:luck_chiachang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智媒时代来临,媒体智能化已逐渐成为媒体发展的主导性趋势,新闻媒体的业态版图正处于不断升级和改写的革新历程中,以AI合成主播为代表的人工智能技术被运用于新闻内容生产和传播,给新闻生产领域带来重构和优化。但是内蒙古地区蒙汉媒体与人工智能技术相结合起步较晚,AI合成主播研究仍处于初级阶段。本文研究的蒙古语AI合成主播,将提高蒙古语新闻的生产效率,降低新闻的生产成本,推动蒙汉新媒体技术的发展,加强蒙古族与各族人民的文化交流。本文研究内容如下:1.建立了蒙古语视频语料库和基于ObamaNet的蒙古语AI合成主播基线系统,制定了AI合成主播的主观评测标准。本文选取一位内蒙古电视台男主播作为蒙古语AI合成主播的主播形象,通过录制其播报蒙古语新闻稿件的方式收集数据,共建立约3.5小时的蒙古语视频语料库。基线系统基于ObamaNet建立,使用时延LSTM(Time-delayed Long Short-Term Memory)网络由语音生成嘴部关键点,再根据嘴部特征重构人脸图像合成视频。2.针对基线模型存在嘴部关键点预测误差较大并且重构速度较慢的问题,本文提出了基于嘴型分类的蒙古语AI合成主播。与基线方法的区别在于此方法把不同的嘴型归类为若干典型嘴型,使用Bi-LSTM(Bidirectional Long Short-Term Memory)模型和DNN(Deep Neural Networks)模型分别训练嘴型同步模型,由语音生成嘴型标签序列,并提前合成了嘴型标签对应的人像(候选帧),从而大幅提升视频合成速度。实验结果表明,该方法在嘴型同步度、人像逼真度方面均优于基线系统。3.基于Wav2Lip模型搭建了蒙古语新闻AI合成主播制作平台。通过预训练嘴型同步判别器,在训练视频合成器的过程中加入嘴型同步判别机制,并加入对比实验引入GAN(Generative Adversarial Networks)来提高人脸合成质量,在流程最后添加高清细节修复模块,实现了更加逼真、高清的蒙古语AI主播合成方法。实验结果表明,该方法不再局限于单一人物形象和声音,并在嘴型同步度、人像逼真度、视频流畅度三个方面均明显优于前两个方法。最后,本文采用B/S架构基于此模型设计并搭建了蒙古语新闻AI合成主播制作平台,包括工作台、用户管理模块。
其他文献
目前,事业单位思想政治工作虽然取得了一定成效,但随着时代的进步与社会的发展,事业单位需要加快思想政治工作改革与创新步伐,改善内部结构,注重思想政治工作的改革与创新,使事业单位发展符合时代需求。在新时代,事业单位需要进一步增强对思想政治工作的引导,分析不同时期存在的问题,并提出相应的解决措施,助推事业单位高质量发展。
期刊
近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知
学位
场景文本识别(Scene Text Recognition,STR)是指识别自然场景图像中的文本。印刷文本大多经过排版,其背景单一、清晰度高。相较于印刷文本,识别各类场景中的文字,其难度更具挑战。目前,场景文本识别研究存在以下问题:第一,使用较为广泛的编-解码器结构的识别模型,大多以LSTM(Long Short-Term Memory)作为解码器。由于LSTM是多个重复模块串联组成的链式结构,只
学位
“强基计划”是回应国家战略需要、在反思自主招生基础上探索拔尖创新人才选拔与培养相衔接的人才培养模式。由于“强基计划”自身的制度障碍、家长和考生认识不到位等原因,高校“强基计划”战略“遇冷”。在分析“遇冷”基础上,提出一系列改进举措,包括:高校要制定多元化录取方案,改革考试评价体系;强化衔接教育,贯通人才培养模式;健全保障机制,助力政策落实;完善监督举报机制,提升政策执行效能等实施路径。
期刊
在新医改背景下,如何在公立医院自身发展中构建夯实基础的地基,如何进一步提升公立医院人力资源管理机制的长久性,可持续性发展问题,成为公立医院亟须解决的重要课题。人力资源管理的长久性、稳定性、可持续性,在一定程度上影响着公立医院内部结构整体布局及外部影响力,影响着公立医院今后的发展方向及医疗质量服务水平。激励机制作为公立医院重要的“资产”组成部分,在人力资源管理中如何将激励机制有效应用于公立医院发展实
期刊
在自然语言文本中存在着大量的因果关系,因果关系挖掘任务在信息抽取、关系推理以及事件预测等研究领域都起着至关重要的作用。随着深度学习的崛起,因果关系研究已从传统的模板匹配和机器学习方法,发展为训练神经网络实现抽取,不仅可以识别因果语句,还可以通过序列标注方法获取文本中的因果关系对,并且深度学习技术训练的神经网络模型可以显著地提升抽取准确率。同时,通过序列标注得到的因果关系可以更好地用于构建因果关系网
学位
水平基因转移是基因在亲缘关系较远或无亲缘关系的物种之间的横向移动,是物种进化中经常出现的一种网状进化现象。系统发生网络是一种网状结构,可用于表示物种间的网状进化关系。构建系统发生网络是识别水平基因转移事件的重要方法之一。本文重点研究了基于系统发生网络的水平基因转移事件的识别方法,具体工作如下:(1)深入研究了系统发生网络构建过程中使用的最大简约准则。现有的最大简约准则(Maximum Parsim
学位
在线公交车乘客数信息不仅可以提升城市公共交通的服务质量,还可以优化乘客的出行计划。WiFi嗅探以非侵入的方式收集移动设备发出的探测请求帧,所以可以被用来监测公交车乘客数。与其它基于非WiFi嗅探的方法相比,基于WiFi嗅探的方法具有干扰小、覆盖范围大、成本低和计算简单等优点。近几年以来,研究人员提出了一些离线场景下的基于WiFi嗅探的估计方法对公交车乘客数和源点终点(Origin-Destinat
学位
面部表情包含着丰富的情感信息,是人与计算机交互的重要途径,具有十分广阔的应用前景。人脸表情识别(facial expression recognition,FER)随着深度学习在人工智能领域的快速发展,也获得了显著的进步。目前人脸表情识别的研究主要集中在数据集的收集整理,网络模型和损失函数的改进三个方面。大多数人脸表情识别研究都面临表情识别数据集中广泛存在的标注不一致问题。原因是不同的标注者的主观
学位
传统的显著性目标检测方式依赖领域专家提供先验知识人工提取特征,基于深度学习的显著性目标检测方式相较于传统检测方式可以自动学习多尺度特征,具有省时省力的特点。但是在受限存储设备下仍存在模型过大导致部署不便,模型训练周期较长、检测的实时性有待提高,复杂背景下模型对于显著性目标的定位不准确、边缘模糊等问题。因此如何以更低的时间和空间复杂度,高效且准确的定位分割出显著性目标物体成为显著性检测研究中极具挑战
学位