支持向量机在多语种电话语音识别中的应用

来源 :第七届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:BecauseArc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种改进的支持向量机(SVM)——结果模糊化的支持向量机(PFSVM)并与one-against-one结合构造新的多分类器进行多语种识别.我们利用OGI-TS语料库提供的中文、英文、日文三种语言各约70人的话音数据进行性能分析.实验中在相同训练数据下分别建立one-against-one RFSVM、oen-against-one SVM和高斯混合模型(GMM),结果表明对于10秒和30秒长的测试语音,RFSVM比GMM分别提高了18﹪和16﹪的识别准确率,比SVM分别提高了7﹪和5﹪的准确率,并且训练时间性比GMM减少了约2/3.
其他文献
本文我们将介绍一种基于电话的中英文双向翻译系统的设计及其运用.本系统在语音输入的前端运用了大词汇连续语音识别引擎.翻译模块采用多翻译引擎,具体如下,1)基于模版的翻译器 2)基于文法分割的翻译器 3)基于统计的翻译器.语音合成器则根据翻译结果,输出波形到电话端.系统运用了客户端—服务器的架构,而电话语音卡则作为双方通信的媒介.目前本系统仅限于旅馆预定业务,今后可以扩展到其他领域,文中还给出了一些初
本文介绍了基于GSM终端的移动电话语音数据采集系统总体结构,着重讨论了系统的具体实现及数据采集过程控制问题.本系统采集的数据较好地反映了GSM移动电话语音的统计特性,为GSM移动电话语音交互技术研究打下了良好的基础.
HNM(Harmonic Plus Noise Model)模型把语音信号分成谐波和噪声两部分,分别合成后再叠加,得到合成语音.最大浊音频率(maximum voiced frequency,Fm)是划分谐波部分和噪声部分的参数,它对合成语音质量有着关键作用.本文利用语音信号中谐波和噪声在时域、频域上的不同特征,同时引入能量判决,较好地实现了HNM模型中最大浊音频率的估计,在基于HNM的汉语语音合
本文介绍了在THSP系统上如何实现基于beam viterbi搜索one pass方法,并且针对one pass方法的特点,对识别方式进行了一些改善,提出了一些新的技术,如对三长度假设的改善,"前靠式"静音处理方式,语言的句首静音模型等.并就实验结果初步探究了对基于beam viterbi搜索的one pass方法和two pass方法优劣的比较.试验结果表明,在系统开销基本没有增加的前提下,on
声门空气流,即声门的体积速度函数被认为是语音生成的激励源,它的估计和描述对于研究语音信号的嗓音源非常重要.本文首先描述了根据语音产生过程的反滤波声源估计算法的基本原理,接着介绍了一下声道参数的提取,特别是使用频谱分段副近的共振峰估计算法,最后提出了基于级联共振峰模型反滤波浊音声源估计算法.这篇文章比较了以下三种声道的参数提取方法:基音异步、基音同步和带有闭相检测的基音同步对反滤波声源估计的影响,发
本文提出一种基于音节拼接的中文TTS系统的拼接单元挑选的新方法.拼接单元挑选划分为单元净化和单元优选两个阶段,并采用不同的声学量度准则.在计算拼接单元的听觉不满意处罚度时,引入了基于章节的清/浊结构、称为音节三段式分割和音节的多因素声学量度方法.实验结果和系统应用结果表明该方法是有效的.该方法特别适用于基于音节拼接的可嵌入式普通话和广东话TTS系统.
语音识别中的特征丢失法通过丢弃语音频率特征中的被噪声严重影响的、不可靠的部分,只保留可靠的部分,从而达到鲁棒语音识别的目的.本文基于语音频谱子带特征的置信度分析,提出了一种新的特征丢失法.该方法为每个语音特征分量分别计算了一个置信度,然后对每个分量的模型输出概率的对数值以置信度为权进行加权求和,得到的值作为整个特征的似然得分用于最后的识别.这种方法精细地刻画了噪声对语音识别模型输出概率的影响,实验
本文提出了一种基于状态子空间聚类的多层MLLR自适应算法.该方法根据不同维数特征之间的相关性不同的原则,将相关性最大的特片划分成相应的同一个子空间,在子空间层次上进行状态的聚类.通过引入反馈机制,根据目标函数似然概率的增加来动态决定MLLR变换的变换类,大大提高了系统的识别率.并且由于这种算法的特殊多层结构,减少了许多中间的冗余计算,算法在具有较高的自适应精度的同时还具有较快的自适应速度.
说话人自适应是提高非特定人语音识别性能的有效技术.本文提出基于先验知识和目标驱动的GJMAP自适应技术,改进和泛化了JMAP算法,较好的控制先验模型和自适应数据间的比例.另外,关于回归树的定义采用先验语音学知识引导下的目标驱动方法,根据自适应数据似然概率的增加决定自适应线性变换的种类和数目.在大词量连续语音识别中,在有监督方式下,提出的GJMAP算法和传统的方法比较识别率有明显的改善.
本文介绍了一种使用基音检测和贝叶斯准则(BIC)对对话语音进行说话人改变点检测和说话人聚类的方法.采用这一方法对非同时说话的对话语音文件进行实验,在实验室环境下取得了令人满意的结果.