连续汉语普通话声调错误检测

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:r9kobe24
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,在计算机辅助语言学习(CALL)方面的研究已经取得了不少的成绩,其中,发音评估起到了非常重要的作用。然而,在汉语普通话发音的评估方面的研究还还相知甚少,而且他们大多数都基于边界打分的(segmental goodness)的基础上的。由于汉语是声调语言,在现实的交流中发音正确非常重要,所以在汉语的CALL系统正确检测声调的错误是当务之急。在本论文中,我们提出了能够描述声调变化的基于上下文的声调模型(Context Dependent Tone Model-CDTM)模型,并通过计算最佳期望CDTM模型和最接近实际发音的CDTM模型(由实际发音通过CDTM识别得到的语音)进行比较来检测发音错误。在已有研究工作中,张丽等使用了对数后验概率(log-posterior probability)来评估声调发音的正确性。在孤立词的语料库上,他们在允许4%的错误接受率的基础上获得了90%的正确率。Si Wei使用了相同的方法,但是他们的基频通过CDF-matching的F0作为特征值来检测声调的错误。他们的自动语音识别系统与专家们的相关系数达到了0.79。但是这些工作都是使用三音子的隐马尔科夫(Hidden Markov Models-HMM)在孤立词的识别上取得的成绩。在本论文,我们致力研究连续汉语普通话的声调错误的检错,并提出了使用基于上下文的隐马尔科夫模型来进行声调建模。对于连续语音,我们建立两个CDTM序列,一个从相应的阅读文本中获得,我们称为最佳期望发音的CDTM序列,另一个序列,通过实践发音在CDTM识别得到,我们称为最接近实际发音的CDTM序列,我们比较这两个序列中相应的模型之间的相对熵(Kullback-LeiblerDivergence-KLD)来检测声调发音的好坏。在评估阶段,发音的好坏是通过期望模型序列和最接近实际发音模型序列的相应模型之间的KLD来评估的,我们通过ROC曲线事先设定一个阈值,当两个模型之间的KLD值大于实现设定的阈值,我们认为其发音有错,在ROC曲线上,我们获得相等的错误率为2.6%。
其他文献
先进的多媒体与网络技术应用于现代远程教育,这些应用打破了传统教学模式,在不断的摸索中寻求全新的改革。为了支持上海信息安全公共服务平台面向高校及全社会提供信息安全远
期刊
光网络虚拟借助基础设施即服务的概念提供了一种准许多个逻辑光网络共享物理基础设施的解决方案。本文中,我们集中考虑跨数据中心弹性光网络环境下的透明虚拟网络映射问题。
GSM-R系统是应用在铁路上的专用移动通信系统,对其可靠性的要求非常高。我国正处于大规模建设GSM-R网络的前期,在这个阶段GSM-R网络的通信质量和可靠性将对全国的GSM-R网络的
随着电子战和信息战技术的发展,非合作通信条件下扩频信号盲解扩成为扩频通信领域的研究热点,扩频信号伪码周期的盲检测和盲估计是实现盲解扩的前提。本文分别采用经典谱估计
随着网络技术的迅速发展,基于内容的图像检索已经成为信息领域的一个研究热点。但由于受到目前图像理解技术的局限,图像的视觉底层特征和高层语义之间存在着著名的“语义鸿沟
本文根据电视-指令引导总控系统的要求,分析和研制了其计算机系统组件。基于对电视-指令计算机系统控制和既定算法处理的不同需求考虑,设计了FPGA和ARM协同处理的计算机系统
本文通过对小高层住宅楼的结构类型、抗震能力以及经济适用性进行分析,发现钢筋混凝土剪力墙已经成为小高层设计的主要应用类型。小高层住宅楼的结构优化不仅仅局限在对结构本
本文以精确模拟各类水声信号的特征为标准,初步完成了一个较完善的多传感器水声阵列信号仿真系统的实现。 第一章,将仿真系统划分为多个功能模块,并说明了各个功能模块的相互
无线个域网(WPAN)可以提供短距离(1米—10米)各种数据率的连接,同时它的功率消耗很低,对于移动设备而言,这是非常重要的一个因素。值得注意的是,早在2005年3月,IEEE即已成立IEEE 8