基于DTW与CNN的汉语舌超声视频转换技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:csuzqc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语普通话是中国的通用语言。据统计,截止到2018年,世界上已有超过一亿六千万的外国人正在学习汉语并且将汉语作为其生活和工作必备的一项技能。与此相比,从事于相关方向的专业的汉语老师数量的增长幅度已经远远不能满足国际社会对这一岗位的需求。另一方面,全世界也有大量的语言障碍者,在常人看来简单的对话对于他们来说却十分艰难,其中一大部分是由于舌运动障碍等原因导致发音不标准,不能正常发音等,如何在计算机的辅助下,更好的为以上人群提供服务,是一个很有意义而且前景广泛的课题。针对以上问题,本课题提出了一种基于舌超声的舌运动合成方法,借助建立好的舌超声数据库可视化用户在汉语发音时口腔内部的舌运动状态。本方法以麦克风记录发音或者已录取好的音频文件作为输入,通过一系列算法,包括语音预处理,语义识别,片段切割,语义片段匹配对齐,生成平滑超声图像,超声视频合成,最终生成连贯可视化的舌运动超声视频。本文主要工作包括:设计语料库,录取汉语发音的舌超声图像数据,通过半自动化的语音数据的切割标定和超声图像标记,为汉字建立了舌运动与语音特征的映射关系。基于超声图像特性,使用动态时间规整法(DTW)生成超声图像并将卷积神经网络(CNN)应用于舌运动超声视频平滑处理中。为汉语的舌运动超声图像的视频合成系统提供可行的解决方案和思路,从而可以辅助用户进行汉语发音的学习,对舌头运动的纠正等,还可以为后续研究如合成虚拟说话头、类人机器人的汉语发音等提供舌运动的指导。在拟人机器人发音时提供实时的舌头运动模拟数据,提高机器人的交互性与真实感等。
其他文献
利用复杂网络分析方法,对复杂系统中的关系结构及属性进行分析,识别网络中社团结构具有重要研究意义。课题组构建了基于复杂网络算法进行人、物、组织及相互关系的感知、理解、预测的情报分析框架IAF,从基于社会/物理/网络空间中人类电子足迹的大规模社交关联网络(复杂网络)中进行社团检测,是智能情报分析框架中理解模块中的关键功能。本文提出融合网络结构和节点属性的社团检测方法,并进行了实证。首先,提出了结合属性
细粒度图像识别,是一个著名的计算机视觉任务,其目标是识别子类下的辨别性特征,由于不同类别内部具有很大的差异性,不同类别之间具有很大的相似性,这使细粒度图像识别任务增加了难度。现有的方法主要通过视觉的标注信息和基于视觉局部区域定位方法来提取特征,但是这些方法不但对图像数据有大量的标注需求,而且仅仅使用单一视觉模态信息对数据的表示能力有限,无法全面表征物体。因此,为改进上述现有问题,本篇论文提出了利用
随着信息技术的发展,现代社会的正常运转越来越依赖于计算机和互联网,保护计算机系统和网络的安全至关重要。一直以来,恶意代码都是计算机安全的巨大威胁,它常见于各种形式的网络攻击,威胁到个人的隐私和财产安全,甚至危害到国家的安全。因此对恶意代码的检测至关重要。传统的恶意软件检测技术基于恶意代码的签名,这种的方法依靠恶意代码分析人员人工分析并提取出指纹。随着诸如加密、变形和多态等混淆技术的兴起,已有的恶意
社会上不同群体对某个事件的意见可能有所不同,这些意见随着事件的发展而互相影响。探究网络上不同群体意见流的变化与新闻媒体或政府机构对大众的影响力对于政府机构、新闻媒体、大型企业等管理者了解舆情传播影响具有重要的意义。我们提出了一个主题流动模型来理解社会群体内部或跨社会群体间的意见流。首先利用动态主题模型对单个群体的意见流进行分析。然后用余弦相似度从时间相关性与内容相关性两个方面构建多群体间的意见相关
接警日志同时包含时间、空间和案件描述信息,属于典型的非结构时空数据。与时空社交媒体相比,接警日志的数据项之间存在较少的联系,没有形成复杂的网络关系为挖掘数据模式提供有价值的线索,因此,其分析更加依赖对其中丰富语义的挖掘和语义时空模式的探索。实现大规模非结构时空数据的交互探索是一项挑战,主要体现在以下方面:1.非结构化的文本数据处理时间较长,准确率低。2.数据中包含多个维度,同时对多维数据处理耗时长
Meltdown漏洞利用现代处理器体系架构提供的乱序执行(Out-of-Order Execution)技术,打破进程用户空间和内核空间隔离,获取计算机中的隐私数据。为了避免微体系架构水平上的数据泄露,Intel紧急推出了KPTI(Kernel Page Table Isolation,内核页表隔离)补丁,在用户态将用户页表和内核页表隔离成两个页表,保护内核数据。此方法增加了进程在用户空间和内核空
图像区块是指图像特征点附近的像素区块,可以反映图像的本质特征。图像区块匹配的应用范围广泛,包括图像拼接、物体识别、三维重建、增强现实等,在计算机视觉任务中有着十分重要的作用。本次课题的主要目标是探究深度学习在图像区块匹配中的应用,并提升图像区块匹配的准确率。对于图像区块匹配的早期研究是基于特征工程的,例如SIFT等,是由研究员手工设计的。然而,随着带标签的训练数据越来越多,计算机的计算资源逐步增加
基于Map Reduce计算模式以及内存的数据处理框架(例如Apache Spark)使得大数据分析变得格外简单和高效。但是,“落后者”任务,即执行时间远远超过其他并行的子任务,显著降低了整体作业性能。在硬件资源层或者应用层方面存在许多可以导致落后者问题的因素,例如,硬件异构性、计算干扰、数据本地性,以及数据倾斜。现在最前沿的落后者任务缓解方法已经给出了基于数据倾斜和数据本地性的部分解决方案,文中
大量软件服务不断涌现,在人们的工作和生活中发挥着愈来愈重要的作用,这些服务已经形成了一个服务生态系统。为了给用户提供良好的体验,在新需求出现或性能改进等动态演化的环境下,服务及服务生态系统会不断变化。由于服务间的变化会互相影响,可能造成竞争不充分的现象。因此,对演化机制进行研究以改善和调控生态系统,具有重要意义。本文提出了一个基于价值分析的服务生态系统演化模型。首先,针对软件服务生态系统的特点,给
从人们开始接触可视化领域,便知道,在可视化研究中,一个重要的目的便是为了将数据通过各种可视的方法展现出来,以便让人们更好地去理解和分析数据。在文本数据的可视化研究中,词云作为一种高效并且必要的方法经常被人们使用。在许多实际生活的应用中,一种常用的手段是用词云去表示一篇文档的语义以达到降低人们理解的难度,快速掌握中心思想并减少花费的时间的目的。所以,很多研究人员投入了大量的时间和精力,去研究词云,包