论文部分内容阅读
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human Computer Interaction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。针对移动地理信息系统(mobile GIS)终端设备普遍存在的诸如有限的屏幕空间、输入方式和内存等不足,以及在移动过程常常出现的“手忙”和“眼忙”等问题,采用语音方式已被业内普遍视为一种主要的解决方案而得到高度的重视。语音识别研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动生理学、声学、语言学等学科的发展,有着重要的现实意义,并将产生很大经济效益和社会效益。
语音识别是机器通过理解和识别过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应。在语音识别领域中,特征提取的好坏直接影响到识别的结果。因此选用合适的语音特征参数就显得尤为重要了。
研究人员普遍认为在语音识别领域中,人耳听觉模型对低频声音敏感,而对中高频声音不敏感。本文从频谱信息表示的观点出发,以符合人耳听觉模型的梅尔倒谱系数(MFCC)为基础,根据不同频率段的频谱特征,设计了新型的混合MFCC算法。又由于LPCC参数能很好的体现人的声道特性,而MFCC参数能很好的模拟人耳的听觉效应,可以将两者参数的融合起来,可以起到很好的识别效果。实验结果表明,改进之后的算法能够达到令人满意的识别性能。
本文还针对现有的汉语语音ASR/TTS引擎,研究和构建顾及移动GIS服务应用特点的分布式汉语语音I/O模块。研究汉语语言与GIS语言的相互转换和交互以及语音信息的增强再确认处理技术,设计了语音识别技术在移动GIS中的应用系统功能框架。