普通话自由表述口语评测关键技术的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:stoudemire21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
口语评测是一种学生按照某种要求发音,计算机根据学生发音的标准程度来自动评分的技术。传统的文本相关评测任务要求学生严格依照指定的文本发音,对应朗读或者严格背诵的情境,通常采用帧规整对数后验概率作为衡量发音标准程度最主要的特征,该特征与人工分具有较高的相关度,此技术也已经有了广泛而成功的应用。但在文本无关情境下,比如要求考生在给定主题约束下,针对该主题进行一段自由表述,通过衡量发音的标准程度和词汇语法使用规范程度来评分,这种任务无论国内还是国际上都鲜有研究;本文尝试对此展开初步的研究工作。具体的,是针对国内普通话水平测试(Putonghua Shuiping Ceshi, PSC)的第4题进行自动评分的研究。该题要求考生在3分钟内进行一段给定主题的自由表述,与本文的研究非常契合。本文的主要研究工作概述如下:首先,本文探究了如何采用识别的方法,对文本无关口语评测计算类似于文本相关任务中常用的后验概率特征,以此来评估发音的标准程度。具体的,利用DNN-HMM的语音识别模型对考生表述的语音做识别,再在此框架下计算解码中的每个音素相对于发音矢量的后验概率,并针对PSC考试第4题的具体情境进行了改进。实验表明,该后验概率与人工分具有较高的相关度。其次,由于本论文后验概率特征计算的过程非常依赖于识别的性能,为了提升识别器的准确率,采用递归神经网络(Recurrent Neural Network, RNN)语言模型来对一遍解码出的N-best候选做语言模型得分重估计(Rescoring),选取Rescoring后得分最大的候选句子作为新的识别结果:实验结果发现,这样修正后无论是识别率还是后验概率特征与人工分的相关度,都有一定的提升。再者,为了衡量考生表述语音中的方言口音程度,本论文借鉴多语种-神经网络(Multi-lingual Neural Network)的方法,在解码神经网络的输出引入额外的方言数据状态节点,获得每一帧数据相对于方言数据模型的似然度得分,从而在后验概率计算公式的分母上引入方言得分,初步估计发音的方言程度。然后,为了关注表述的流畅程度,本论文采用每句话的音素平均发音帧数来计算语速特征,以此初步估计流畅程度。另外,尝试使用条件随机场(Conditional Random Field, CRF)训练分句模型,从内容上对识别结果进行句子边界判断。实验表明,重新分句后计算的语速特征与人工分具有更高的相关度。最后,使用矢量空间模型(Vector Space Model, VSM)对识别结果建模,从内容上评估表述的词汇语法使用规范程度。实验发现,对VSM模型采用一层RBM变换会获得较好的性能。同时,为了评分的公平性,还进行了离题检测相关任务。
其他文献
跳频通信是一种最常用的传统抗干扰通信技术,在这种抗干扰技术中,为了保证通信的抗干扰性,收发双方必须在正式通信开始之前,预先共享一个跳频密钥。只有成功预享这个跳频密钥
随着用户数目和业务种类的增加,传统网络架构的功能局限和容量限制等问题日益凸显。在此背景下,网络虚拟化技术成为解决该类问题的有效途径之一。网络虚拟化是将物理网络资源
空时编码是一种基于多输入多输出(Multiple-Input-Multiple-Onput, MIMO)系统的信道编码技术,其不仅能够大幅度地提高无线通信系统的容量,而且能够在不牺牲系统带宽的情况下
自然界所有温度在绝对零度(-173℃)以上的物体,都会不停地发出红外热辐射。物体表面热辐射的强弱与该点的温度和表面状态有关,从而形成一幅反映物体温度分布和表面特征的热图像
大规模MIMO (Very Large MIMO或Massive MIMO)技术是IMT 2020(5G)中的关键技术之一。当天线数目远远大于用户数时,干扰与噪声可以忽略不计,导频污染(PC, Pilot Contamination
随着互联网技术的飞速发展,无线校园网用户的网络安全认证问题日益突出。当前比较成熟的安全认证技术有PPPoE、WEB和IEEE 802.1X等。然而WEB认证方式中服务器端口直接可达,易
双基地合成孔径雷达(BiSAR)作为传统单基地SAR的延伸,由于其自身的灵活性和对低散射截面物体的探测成像能力,大大地拓展了SAR的应用范围。具有移变(translational-variant)特
本文从管理的自然属性和国家在社会经济活动中的一般管理职能的角度对区域性设备管理工作的五项主要内容进行了分析,即了解和掌握区域内设备资产存量的结构及其分布和变动情
手写笔作为十分重要的信息输入方式,影响着人们的生活。本文进行的是基于惯导信号的手写笔笔迹检测的研究,主要是通过对获得用户在书写过程中的惯导信号进行分析处理,最终可以检
高分辨成像一直是雷达成像不断追寻的目标。为了达到这一目的,最常见的做法是提高发射信号的带宽,但是超宽带信号的产生和处理会带来很大的硬件压力。本文重点介绍了一种通过