论文部分内容阅读
语音交互是人机交互的最重要部分,实现这一目标的最关键技术就是语音识别。然而,由于语音信号的多元性以及对人体识别语音过程模拟的复杂性,使得语音识别的研究无论理论进展还是产品化方面都步履维艰,至今仍有众多充满挑战的课题,而相关的语音识别产品也都难臻完美。时至今日,移动互联网的大潮已经涌来。而语音识别相关产品还大多是基于桌面PC时代。而苹果公司把握时机,刚刚推出了一款名为Siri的语音识别产品,作为其近期发布的iphone4S手机的主打功能,占得了先机。可以预见,基于移动设备平台的语音识别产品在不久的将来就会大量涌现。本课题对基于移动设备处理器的语音识别进行研究分析及优化,并实现一个小型语音识别系统。本课题采用HMM算法,该算法同时考虑声音与音源的概率对应关系及音源元素间的状态转移概率,以一个双随机过程模拟人体对声音的识别,能够实现大词汇量、非特定人、连续语音识别。该算法于上个世纪80年代提出,后由卡内基梅隆大学的李开复博士第一次实现,是语音识别历史上最重大的突破。在此之后,语音识别的算法始终未能脱离HMM框架。HTK即隐马尔可夫模型工具集(HMM Toolkit),由一组C语言形式的库模块和工具组成,用于搭建隐马尔可夫模型。HTK最初由剑桥大学工程系(CUED)研发而成,后被Entropic公司所有,1999年微软收购了Entropic公司,将HTK贡献给了开源社区。如今,微软将HTK授权返还给了剑桥大学工程系,HTK由微软和剑桥大学共同提供开发支持,每个人都可以到HTK3站点免费下载学习。语音识别算法复杂,需要大量的浮点运算,性能要求较高,普通的移动设备处理器难以胜任。而性能较高,尤其适合于浮点运算的DSP处理器正是最佳选择。本课题采用了TI公司的高性能浮点DSP处理器TMS320C6722,并配以音频芯片、扩展存储器等外部设备。实现了一个非特定人、有限词汇量的小型语音识别系统。并对识别结果进行了分析,提出了改进的方向。