不定长语音单元在语音自动切分中的运用

来源 :第九届全国人机语言通讯学术会议 | 被引量 : 0次 | 上传用户：cuidayue

【摘要】

：

【作者】

：

杜嘉曹振海祖漪清

【机构】

：

上海交通大学生物医学工程系,上海,200240 摩托罗拉中国研究中心,上海,200041

【出处】

：

第九届全国人机语言通讯学术会议

【发表日期】

：

2007年6期

【关键词】

：

隐马尔可夫模型不定长语音单元语音自动切分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在语音自动切分中普遍采用的声学模型是三音子模型。研究表明，以三音子模型为单元模型在语音自动切分中是存在局限性的。其原因在于连续语流并不是简单的音子串联组合，各音子结合的紧密程度或协同发音现象，在不同的环境下是不同的，从而导致不同的音变现象并影响切分精度。本文针对三音子模型在英语语音切分中的不足，根据语音学知识和实际训练数据，增加了一批较长的语音单元组成了不定长的语音单元，并在此基础上提出了基于不定长单元HMM 模型的语音自动切分方法。利用三音子模型的初始对不定长单元HMM 模型进行训练，可以获得令人满意的结果：长单元的边界切分准确率从79.6％提高到了89.1％，总体切分精度上较三音子模型也有了一定的提高。

其他文献

藏族人说普通话的单字调系统研究

本文基于大规模中介语语音语料库，运用实验语音学的方法和手段，以独立性、区分性、稳定性三项参考指标，对藏语卫藏方言区的30 位拉萨人和安多方言区的30 位西宁人所呈现出来的普通话单字调系统进行了分析，并在此基础上对藏语不同方言区的学习者在习得普通话过程中存在的声调缺陷和问题进行了概括：1、比较而言，去声独立性和稳定性最好，最容易掌握；2、对卫藏方言区的学习者来说，上声最难掌握，调值类型变体较多，且容

会议

藏族人普通话单音节声调单字调系统

普通话辅音[r]的声学特征研究

本文研究了自然语流中汉语普通话辅音[r]的声学特征。语料取自捷通华声语音数据库，通过对声音样本的对比研究，结果表明：1.从发音方法角度来看，可以把辅音[r]分成清擦音，浊擦音和通音三类；2.研究还发现[r]的声学特征不仅与所处的韵律位置有关，同时受上下文的影响，其中后韵母的影响明显，前韵母的影响较小；3.辅音[r]具有逆向作用，表现为在前音节以元音结尾时，其各次共振峰具有明显的指向[r]的类共振峰

会议

辅音声学特征普通话自然语流

日本人产生普通话r声母和I声母的音值考察

日本学习者在学习汉语时常常有r、l 不分的问题。本文通过声学实验对中、日发音人产生的普通话的r、 l 声母进行考察和对比，并归纳总结了日本学习者产生“r、l”声母的主要偏误类型，分析了这些偏误的产生原因。本文的研究结果可以给对日汉语教学及计算机辅助发音学习提供一些方法或思路。

会议

普通话声母音值日本留学生对外汉语教学

简化的信道因子估计

在与文本无关的说话人识别研究中，因子分析是减少信道影响的最有效的方法之一，但是因子分析复杂的运算使得因子分析在实时中很难得到应用。本文提出采用主成分分析的方法简化因子分析的过程。首先在模型域中估计出信道因子所在的空间，然后通过映射的方法在特征参数域中减去信道因子的影响。在2006年数据库上，采用本文推荐方法的系统相对基线系统在等错误率上有24％的降低。

会议

信道因子因子分析本征信道语音识别

基于动态规划的清唱评分与纠错系统设计与实现

随着音频处理技术的发展，对歌曲演唱进行自动评价逐渐引起了大家的兴趣。本文结合音频信号处理技术和动态规划的搜索算法，提出了一种利用音高序列和音符时长序列对清唱语音进行自动评价的方法，在此基础上，实现了清唱评分和清唱纠错系统。本文描述了该系统的框架和流程，并介绍了系统中用到的关键技术：音符切分，音高提取，节奏提取，得分归一化技术以及乐谱库的建立。实验结果验证了该方法的有效性。

会议

动态规划算法音符切分清唱评分音频处理纠错系统

基于融合的发音质量评分研究

本文分别采用了多元线性回归算法和反向传播算法对二语学习中英语口语的人工评分和三种机器评分之间的关系进行学习，实现了上述三种机器评分的融合，并从语音库、相应的人工评分和机器评分三个角度对数据集的建立进行了详细的介绍。实验结果表明，由以上两种融合方法得到的机器总分与人工评分之间的相关度相比于融合前的最佳机器评分在句子层次上分别提高了1.4％和1.7％，在说话人层次上提高了0.6％，并显著降低了两者之间

会议

机器评分数据融合多元线性回归反向传播算法发音质量计算机辅助语言学习系统

汉语普通话声调的精细建模

为了更好地研究普通话声调在连续语音中的变化规律，本文对普通话声调进行精细建模，即建立上下文相关的声调模型(Context Dependent Tone Model，CDTM)。该模型兼顾了当前音节的声韵母、前后音节的声调、后音节的声母以及当前音节在韵律词和短语中的相对位置等因素对各个声调的影响。实验结果表明，CDTM与传统的三音子模型(tri-phone model)在声调识别上的效果基本一致，但

会议

声调识别声调分析韵律边界检测汉语普通话语音合成

非均匀高斯绑定技术的研究

在语音识别的HMM模型中对高斯分量进行共享(高斯绑定)是模型压缩中的重要技术，现有基于均匀分配的高斯绑定技术，不能有效地利用高斯，容易造成冗余。本文提出了基于非均匀分配的高斯绑定技术，给出了分别在最大似然准则、最小KLD准则和最大BIC准则下高斯成份数目的非均匀分配方法，在WSJ0数据库上进行实验，结果表明，该技术能够在模型总高斯数相同的条件下，与现有的基于均匀分配的高斯绑定技术相比，可以进一步提

会议

语音识别高斯绑定模型压缩连续密度隐马尔可夫模型

二阶段招聘信息检索方法

招聘信息检索与传统信息检索存在较大差异，传统检索方法不能实现良好的招聘信息检索效果。为解决该问题，本文提出二阶段招聘信息检索方法，针对招聘信息的标题文本和职位描述文本分两阶段分别进行不同的处理。第一阶段本文采用VSM模型对标题文本进行初步检索，将相关度较高的招聘信息视为种子；第二阶段，本文采用文本相似度度量方法和聚类分析方法，在招聘信息全集中寻找与种子相似度较高的招聘信息。通过结合“请求-文档”相

会议

招聘信息计算机检索文本相似度特征选择

中文有调语音识别系统的改进

本文介绍了基于新的声道长度规整（VTLN），基音和异方差线性判别分析（HLDA）的有调语音识别系统。传统VTLN 能提高基本音节的识别率，却不利于声调的识别，本文提出新的VTLN，提高基本音节识别率的同时，抑制对声调识别的负作用。增加平滑后的基音轮廓信息，可提高声调的识别率，本文认为对基音做方差规整，缩小基音范围，有利于声调识别。并且结合HLDA，有效去除基音中的冗余信息，可进一步提高基音的利用效

会议

声道长度规整基音异方差线性判别分析有调语音识别系统

不定长语音单元在语音自动切分中的运用

与本文相关的学术论文