论文部分内容阅读
交互式语音应答系统(IVR)是呼叫中心中的重要组成部分。被广泛应用于语音增值业务。通过IVR系统,用户不仅可以从系统中获取预先录制的语音信息,而且可以获取TTS合成的动态语音信息。其通过对后台数据库的访问和脚本的处理,可以完成复杂的业务逻辑。然而传统的IVR系统仅能接收有限个DTMF信号。这使得用户使用时非常麻烦,并且限制了IVR系统在很多领域的应用。随着语音识别的发展,在新一代呼叫中心的IVR系统中引入语音识别作为用户输入手段已成为必然趋势。因此本课题对语音IVR系统以及高性能语音识别算法的尝试性研究,具有一定的理论价值和现实意义。
本文中,我们首先实现了语音点歌IVR系统的基本功能如:电话振铃的检测与摘机,忙音的检测与挂机,系统导航语音的播放,用户按键请求或语音请求的接收与处理,与后台数据库的通讯,检索结果的语音合成与播放。然后选用基于覆盖思想的构造型神经网络作为语音识别模型,实现了语音点歌的功能。之后我们从离线学习和在线学习两个方面对语音识别系统的总体性能进行了改进。
离线学习方面,我们首先分析了基于覆盖思想的构造型神经网络模型存在的几个难以解决的问题如:初始样本点的选择问题,覆盖算法中球邻域的划分问题。其中球形领域的划分,是一个NPC问题,目前尚未有很好的解决办法。本文通过引入粒子群优化算法来求解该问题,使得覆盖数量大大减少,从而使系统在识别速度和识别率上都有了一定的提高。
在线学习要求在不影响系统使用的情况下,对用户输入并确认的语音样本进行快速学习。本文在覆盖构造型神经网络模型基础上给出了一种增量学习算法,并在分类性能和学习时间上对其进行了测试。最终我们将该算法应用于语音点歌系统的在线学习上,取得了较好的效果。
此外,系统在实际使用中,为了提高噪声环境下正确结果的检出率,往往需要给出若干备选结果供用户选择。因此如何根据网络状态,产生容易混淆的若干识别结果,也是本文研究的内容之一。文中我们给出了两种多选结果的产生方法,试验结果表明动态多选方法,可以在只提供很少备选结果的情况下,大幅度地提高正确结果的检出率,因而使得系统更加具有实用性。