论文部分内容阅读
随着增值业务的不断发展和移动用户对内容需求的增大,传统的使用数据业务提供内容的方式己不能满足需求。语音增值业务系统通过以话音为主的方式向用户提供内容。作为语音增值业务系统的核心,语音增值业务平台采用VXML(Voice Extensible MarkupLanguage)这一开放标准语言,给业务内容提供商的语音内容业务提供执行平台,进而建立起全新的“运营商——业务提供商——内容提供商”价值链。ASR(Automatic Speech Recognition)与TTS(Text to Speech)是语音增值业务平台开展语音业务所需的极为重要的媒体资源能力,它们优化了用户与语音增值业务平台的交互手段,提高了服务质量,而且促使了新的业务的出现。 本文对作者攻读硕士学位期间的工作进行了回顾和总结。作者在课题设计期间负责语音增值业务平台中ASR和TTS功能的设计和实现。论文首先分别对语音增值业务系统与语音增值业务平台的概念和结构、ASR与TTS的原理及其标准进行了介绍。接着重点设计了ASR和TTS功能在VAP(Voice Value-added Service Platform)中的一种基于API的实现方案。VAP的TTSC(Textto Speech Client)模块和RN(Resourse Note)模块受控于VXML模块,通过引擎的API与ASR或TTS服务器进行交互来提供ASR与TTS媒体资源。TTSC模块实现文本到语音文件的转换的功能,这种功能适用于对实时性无要求或合成的文本较小的场合。结合TTS引擎API的特点,TTSC模块采用了线程池模式来实现消息的并发处理及资源的动态分配。RN模块在VAP中负责提供各种媒体资源,它由消息分发模块RNManager、资源节点功能模块RNF(Resource Note Function)等组成。RNF模块实现了语音和DTMF音信号的识别及文本的播放,其实现依赖于其它由DSP(Digital Signal Process)语音卡提供的媒体资源能力。论文在对并发处理、实时性、资源协作、资源动态分配等关键问题的分析和解决的基础上,完成了RNF模块的设计和实现。论文分别在NMS和Ddialogic两种语音卡上对RNF模块进行了实现,并对这两种实现进