论文部分内容阅读
近年来,人工智能(Artificial Intelligence,AI)技术飞速发展,自动语音识别作为一种AI关键技术一直备受关注。如今,随着神经网络研究热潮的兴起,研究人员使用卷积神经网络(Convolution Neural Network,CNN)参与声学模型建模,并解码各个隐马尔科夫模型(Hidden Markov Model)状态的后验概率,形成CNN-HMM声学模型(下文简称CNN声学模型)。相比于传统声学模型,CNN声学模型拥有更好的识别效果,但是当中文CNN声学模型部署在语音识别系统中并连续识别海量音频数据时,基于CPU(中央处理单元)处理器的中文CNN声学模型面临着识别效率低的问题,因此如何提高中文CNN声学模型的识别效率是目前语音识别领域亟需解决的问题之一。本课题基于科大讯飞股份有限公司“基于卷积神经网络的声学模型效率优化”项目。经过分析研究,本文将从以下三个方面优化中文CNN声学模型在CPU处理器上识别解码效率:利用AVX2指令集系统加速声学模型解码速度、给出一种8bit定点优化方案来解决浮点语音数据运算缓慢的问题、优化卷积运算方法提高CNN声学模型卷积运算效率,最后对中文CNN声学模型进行上述三种优化来共同提高识别效率。针对上述优化方案,本文进行了模块测试和系统测试,并分别对比了优化前后的测试结果以验证优化方案的有效性和可行性。模块测试的结果表明,优化后的中文CNN声学模型可明显提升识别效率。同时,本文将优化前后的中文CNN声学模型分别部署到相同的语音识别系统中进行系统识别率和识别效率测试,系统测试的结果表明,使用优化后中文CNN声学模型的语音识别系统的平均识别效率相对提升77.58%,并且优化后语音识别系统平均字识别精确率的下降范围维持在1%以内,符合项目预期指标要求。最后,本文对优化后的语音识别系统进行了连续10多个小时的系统稳定性测试,测试结果表明,部署优化后中文CNN声学模型的语音识别系统能够长时间稳定工作,并且内存占用正常。综上所有测试结果表明,在基本不影响识别率和保证语音识别系统可以稳定运行的前提下,本文针对中文CNN声学模型给出的效率优化方案有效可行。目前,上述优化方案已应用于科大讯飞车载语音识别系统中。