适于嵌入式英语发音评价系统的英美音融合方法

来源 :第十届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:engineer2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英音和美音是最为常见的英语目标口音。本文针对英语学习者存在的英美口音混杂现象,提出一种英美口音模型融合方法,提高发音质量评价性能,并压缩声学模型规模以适于嵌入式实现。该方法基于替代概率将声学模型划分为可替代模型、可融合模型和孤立模型。抛弃可替代模型,保留孤立模型,基于模型插值与模型裁剪归并可融合模型。发音质量评价实验结果表明:融合模型与单口音模型相比,说话人级别的相关性提高了14.1[%];融合模型与混合模型的性能相近,高斯分量数目压缩了10.7[%]。
其他文献
为满足言语工程需要,基于大规模语料库,选择了记叙文、说明文、议论文、新闻和专题五种朗读语体,在时长、音高方面对其重音特征进行分析。结果表明,各语体在总体特征、重音突显和
提出一种用于哼唱识别精确匹配的线性伸缩动态规划算法。该算法将哼唱旋律切割成句子,对每一句子进行线性伸缩匹配,同时在句子层次进行动态规划获得最优路径。该算法更有效地利用了哼唱语音的分段特性并克服了动态规划在长路径搜索时可能丢失全局最优路径的缺点。在含5 223首M ID I的数据库上同等条件下该算法正确率分别比线性伸缩、动态规划及递归匹配方法提高10.5%、6.0%和2.8%。该算法具有更高的准确率
语音情感识别领域提取情感特征时,普遍采用"不同情感类别,相同时长基准"的做法,忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长,作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型,以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合,实现了对人耳情感辨识规律的模拟。结果表明,使用敏感韵律段特征的系统识别
随着军事、安全等方面要求的日益增长,语音信息隐藏技术成为了语音信号处理和信息安全领域的热点和难点,并得到了迅猛发展。本文将分数余弦变换应用到语音信息隐藏中,通过分析得
会议
本研究从透视乌鲁木齐维语与和田维语的韵律差异的角度来展示维语韵律的一些特点。在听感上,维族人很容易判断这两种维语方言,除了音段特征的不同外,韵律差异是区别的关键。但对
哼唱识别是音频检索的一个重要应用,其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。本文提出了新的数据库构造方法,将音频歌曲集用手工标注方法提取主旋律并
会议
The rapid variation of channel can induce the intercarrier interference in orthogonal frequency-division multiplexing (OFDM) systems. Intercarrier interference
针对传统的隐含马尔可夫模型(hidden Markov model ,HMM)存在的缺陷,该文提出了一种在识别的后处理阶段使用段长模型的方法,并应用在基于HMM的汉语识别系统上。该方法利用归一化
多口音英语学习者口语语音库(CELSCOM:Chinese EFLLearners speech corpus with multi-accents )旨在收集和建立中国不同方言区英语学习者的英语口语语音,一方面为英语语音识别
会议
面向有正音功能的对外汉语计算机辅助发音训练(CAPT)语音语料库的创制与标注是一个新的课题。本文介绍北京语言大学对外汉语CAPT语音语料库的建设思路与方法。该库分两期建设
会议