基于非线性编码的英语重读音节识别及评估算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jay2048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机辅助语言学习CALL(ComputerAssistedLanguageLearning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得良好的结果。对于口语中重音的评估,它们大多是通过制定发音的语法规则,根据规则来建立语音模型来判断发音的准确性。有时也会结合传统的语音特征,如音长,能量等。这些方法或者不能准确地判断重音的具体位置,或者表征语音特征方式有效性差,以致产生不可用的结果。本文主要研究的是在英语口语评估中,分形理论对于重音评估的应用。  本文首先给出两种分形维数的算法,计盒数法和多态覆盖算法,并对二者进行了详细的比较。由于一维分形维数对一帧语音信号的特征值仅仅使用一个数值进行表征,这种方法几乎是不准确的,因此引入了多尺度分形维数的概念,多尺度分形维数是通过一组向量值来表征语音特征值的。使用两种分形算法提取语音特征值,并根据最小二乘法将连续时间语音信号的分形维数值进行曲线拟合,通过大量实验比较这两种方法下的曲线变化趋势去比较两种方法对口语中重音的敏感度强弱,结果表明分形特征对于口语重音都十分敏感,据统计计盒数法中91.5%以上重音位置都是分形维数曲线的极值点,尤其是多态覆盖算法中可达96.2%以上重音位置是极值点,高于计盒数法中的准确率。因此课题中选择使用多态覆盖算法表征语音特征值,然后将此方法融合到sphinx4语音开发平台上,进行进一步的重音位置识别与标识。  接着本文介绍了如何具体应用已得结论来建立重音分析模型,如何进行重音位置判断,和如何进行重音评估的。首先找到一个分析曲线变化趋势的模型。根据分形维数值的拟合曲线变化趋势,来计算每个音节的在连续时间上分形维数的变化率,自动找到变化率的临界值β。利用shinx-4语音平台将分形数据与原始语料在时间上对齐,根据变化率的大小进行重音位置的标识。然后与已标注的原始语料进行对比统计,得到此发音中重音位置的正确率。  由实验结果可知此重音特征曲线分析模型正确识别率达82.56%,并且具有很好的可靠性与稳定性。
其他文献
随着移动通信技术的迅速发展,出现了一种不需要移动通信基站支持的移动自组网(Mobile Ad Hoc Networks,简称MANET)。不同于传统的移动数据管理系统,在基于MANET的分布式数据管理
随着集成电路工艺的进步,处理器系统的软差错率 SER(Soft Error Rate)将急剧增加,其原因包括以下几方面因素:一、晶体管工作电压的降低减小了集成电路噪声容限,使芯片更易受瞬态故
业务规则是定义和约束企业业务结构与业务行为的规定或规范,是企业业务运作和管理决策所依赖的重要资源。随着客户需求的日益多样化、企业间竞争加剧、合作更为广泛复杂等因
图像作为一种用来描述和存储现实世界信息的媒体,往往不同于传统意义上的字符数字,仅用几个简单的关键字来描述图像数据中所包含的大量的复杂的语义信息、视觉特性、时间和空间
实时调度研究的核心就是探讨以时间限制为条件,合理调配资源,以完成目标处理的最优策略。本文针对机场航班运营管理系统(Flight operation and management system,FOMS)的定时序
随着信息技术的发展,图像资源的日益丰富,基于关键字和描述文本的传统图像检索模式已不能胜任使用需要,有效检索海量图像数据的需求变得日益迫切。针对这一需求,基于内容的图像检
为了研究对象的行为,人们需要用传感器对对象的行为进行采样,但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号,通常情况下传感器接收到的信号会被各种各样
网络处理器是一种专门针对网络数据处理而设计的处理器,其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备,同时,也被用来开发网络安全设备,如硬
文本分类是指按照预先定义的主题类别,根据文档集合中的每个文档的内容,自动地分类到预先设定的类型集合中,使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重
机器博弈是人工智能一个传统而重要的研究领域.近些年,随着家庭电脑时代的来临、网络的兴起,计算机游戏在人们的娱乐生活中占有越来越重要的地位.以机器博弈为代表的人工智能