论文部分内容阅读
关键词识别是语音识别研究中的一个重要领域,其目的是从连续语音中检测并确认给定的若干个特定关键词。跟关键词识别相比,目前连续语音识别有资源耗费大,速度慢,抗噪能力不强等缺点,这是连续语音识别短期内难以突破的问题所在。而关键词识别允许在嘈杂的环境中使用,因此在当前技术水平下,许多应用领域不适合连续语音识别,而要求关键词识别,这一课题的研究如能取得突破性进展,则将大大有助于拓宽语音识别系统的应用领域,而信息检索显然是一个有很好应用前景的领域。 本文主要内容是关键词识别技术及语音检索系统研究与实现,提供了一个性能优良的关键词识别引擎,通过系统测试,在正确率为82.1%的情况下召回率达到88.4%。并在此引擎基础上开发了面向特定网站的语音检索系统SAS和基于P2P架构的语音检索平台。对关键词识别的一些方法做了改进,以获取良好的关键词识别正确率和较低的虚报指数,本文的工作主要集中在以下几个方面: 第一,基于概率统计语言模型的识别网络构建,对汉字的音节,通过概率统计语言模型建模方法,从汉字的音节(包括声母和韵母)层次构建了一个有音节间概率转移关系的bigram语法模型,并将此模型转化为特定的识别网络,以声母和韵母模型作为关键词识别的填充模型,以声母—韵母组成的复合HMM作为关键词模型加入到该识别网络,在此识别网络的基础上进行关键词的识别。 第二,基于汉语音节的识别基元和三音子填充模型(HMM)训练,对汉语识别基元建立了对应的HMM模型,对关键词识别的填充模型进行了训练和建模,把考虑到上下文影响的音素三音子模型作为填充模型。 第三,提出并实现了基于音节对齐的识别结果二次验证后处理方法,对于第一次关键词识别的结果,在这个结果的基础上通过建立对应的关键词识别网络进行音节对齐,进行后处理验证以确认识别结果,能够一定程度的降低虚报指数。 第四,关键词识别引擎实现,以及面向特定网站的语音检索系统和基于P2P架构的语音检索平台实现。本文从系统设计到实现,提供了一个高扩展性、较强实用性和高性能的关键词识别引擎,它是针对汉语大词汇量关键词语音检索应用而开发的。并实现了一个面向特定网站的语音检索系统和一个基于P2P架构的语音检索平台,能够检索包含指定汉语关键词的音频文件,支持mp3,rm,wav三种音频格式,实验表明通过使用以上的方法,系统能够获得良好的性能。 本文得到以下基金资助:国家自然科学基金60273059、浙江省自然科学基金青年科技人才培养专项基金RC01058、浙江省自然科学基金M603229、博士点专项基金20020335025。