基于音素识别的语种识别技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:jumglezhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别技术就是计算机能够自动识别出语音所属语言种类的过程,在多语言语音处理、语音自动翻译、安全监控等领域发挥着越来越重要的作用。本文基于音素识别的语种辨识,在音素建模、语言建模、系统融合等方面进行了相关的研究。论文工作的主要内容和贡献如下:   (1)研究实现了基于PPRLM的语种识别基线系统,并研究了模型平滑、信道差异、说话方式对识别性能的影响,使得基线系统性能提高到77.81%。   (2)将基于NN-HMM混合模型的音素识别引入了语种识别,系统性能提升超过10%。在此基础上,研究了多种自动聚类算法,提出一个Multilirlgual声学模型建模的方法,使得Multilirigual PRLM系统获得了跟PPRLM系统可比的识别正确率;同时经过与PPRLM系统融合,系统性能又提升约2%。   (3)提出了基于决策树的语言模型和随机决策树的语言模型,使得语种识别系统的性能提高约6%;同时针对包含更多信息的词图,又提出了基于词图的区分度语言模型建模,使得识别性能提高约8%。   (4)研究实现了多个基于声学特征的语种识别系统和基于LDA、Gaussian的系统融合方法。通过系统融合,基于声学特征的语种识别系统对PPRLM系统起到了较大的补充作用,在NIST2003年30秒语种测试集上,系统融合后准确率达到98.75%,接近或超过近年来国际上主流的评测系统。
其他文献
自20世纪90年代中期开始,非真实感绘制(NPR)逐渐成为计算机视觉和计算机图形学的研究热点之一。   非真实感绘制和传统真实感绘制的研究内容不同,其研究的目标不在于绘制结
当前,开发具有完全自主功能的智能移动机器人尚未成熟,但是通过Internet提供的方便开放的人机交互接口,在机器人的遥操作过程中融入操作者的智能与经验,使移动机器人具备在室内不
人类与灵长类的视皮层目标识别性能远远优于最佳的机器视觉系统。因此,自上个世纪50年代起人们开始关注生物视觉启发的计算机视觉模型的研究。1999年,Riesenhuber和Poggio提出
说话人的地方口音、非母语口音是汉语普通话语音识别系统实现推广应用面临的具有挑战性的问题。云南是一个多民族的省份,大多数民族有自己的语言,少数民族在全省各市县均有分布
文字识别作为模式识别的一个重要应用领域,在过去的几十年中已经取得了非凡的成就。单个字符的识别率非常高,已经达到了实际应用的需要,并被广泛地应用于电脑汉字输入、手机、PD
传统的语音合成多侧重于单一朗读语气的研究,为了进一步提高语音合成系统的个性化表达,促进语音合成系统的应用前景,本文从语音合成韵律模型和声学建模方法入手,针对个性化语音合
随着工业通信的发展及信息技术的广泛应用,引起了自动化系统结构的巨大变革。以网络为主干的自动27化分布式控制系统成为行业趋势。由于现代工业控制系统通常具有实时性、集
近年来,在城市轨道交通建设过程中,自动售检票(AFC)系统的测试越来越受到国内外城市轨道交通工程业界的重视。自动售检票(AFC)系统是以车票为介质的高度信息化、安全、可靠的
无线传感器网络(Wireless Sensor Network,WSN)是一种以数据为中心的自组织网络,具有低成本、高可靠性等特点,能通过各种传感器实时地监测网络分布区域的信息,并相互协作地以多跳
吊车系统是工业制造、生产工程中得到广泛应用的机械运输系统,其作用主要在目标位置控制以及抗摆控制上。在某些特殊场合下,如吊挂一些贵重、易损伤的偏心载荷,则必须首先将载荷