论文部分内容阅读
人们可以使用电话或移动电话、PC、PDA和其它智能设备通过语音识别、语音合成的交互技术,以及语音浏览、智能信息处理技术等实现访问互联网,实现个人服务和商业服务的语音应用。其中,作为建立于网络与语音通讯之间的桥梁,语音浏览技术发挥着重要的作用。而作为语音浏览技术以及语音互联网的核心,VoiceXML突破性地实现了互联网与电话网的融合,为语音应用领域展现了一个更为广阔的未来。本文在分析VoiceXML、语音识别、语音合成、文档解析等技术的基础上,完成了基于窄带智能网的VoiceXML语音浏览平台的原型系统设计并对系统结构、设计思想进行了详细介绍。本语音浏览平台以卡耐基梅隆大学的开源项目OpenVXI为核心,分为执行平台,VoiceXML语音浏览器和文档服务器三部分,本文重点介绍了VoiceXML语音浏览器的设计、实现、优化以及与执行平台的整合。针对语音浏览器与执行平台高度耦合的局限,本语音浏览器采用标准的INAP/UIScript消息与执行平台进行交互,使其很容易、快速地部署到现有的窄带智能网平台中,并可以轻松地在不同设备制造商的智能网平台间迁移。本语音浏览器的设计充分考虑了大规模商业应用的需要,通过采用多线程多通道的呼叫控制模型满足了商业应用环境下的大话务量并发呼叫请求。由于OpenVXI没有对语音文件播放进行缓存,常常导致不必要的语音文件重复下载,严重地影响语音浏览平台的性能。因此本文提出了一种对语音浏览器的优化方案,通过引入VoiceAgent模块实现对语音文件的缓存,从而极大地提高了整个语音浏览平台的性能。为了更方便快捷地测试语音本浏览器的功能和性能,本文提出了自主开发的自动测试工具VxmlEmul,该工具可以模拟窄带智能网的功能,在不需要SCP、SSP、媒体处理等智能网设备的参与下对语音浏览器进行测试。文章的最后使用VxmlEmul完成了对语音浏览器的测试和性能分析,证实了其实际可行性。本论文的研究工作为进一步的产品化研究和商业应用奠定了一定的基础,并具有实际的参考价值。