论文部分内容阅读
社会需求是推动理论和技术发展的原动力。信息科技高速发展的今天,语音与我们的日常生活息息相关,每人每日的各种活动,都会存在各式各样的声音。而可移动便携设备---作为信息时代的产物,越来越受到广泛的关注,渐渐成为人们不可或缺的生活物品。利用我们随身携带的智能通讯设备能够记录下来的一天、一周甚至一个月的语音数据,组成的便是一个个人的语音日志(Life-Log)数据库,这些数据不仅可以作为对过去事情的美好回忆,还可以为今后的生活做必要提示作用。理论和技术的积累为应用的实现提供了可能。但是想要从Life-Log庞大的语音数据中,快速锁定所需要的片段,查找有用信息,对于研究者来说,很有研究价值。 本文主要讨论了语音Life-Log的实用性,并针对Life-Log语音数据的分类识别做了相关分析和研究。介绍了语音信号的特点、语音信号的分析与特征提取、语音识别的模型。在语音特征值提取阶段,重点介绍美尔频率倒谱系数(MFCC)与短时能量(Short-Term Energy)等特征值,并根据Life-Log语音不同于一般标准语音数据库的特性,推荐将 MFCC与短时能量二者结合成为混合参数进行提取,以更好的使自然界各种声音精准分类。同时介绍了几种经典的语音识别建模方法,根据Life-Log特点,调整、完善多层人工神经网络(ANN)的构建,对语音进行分类识别。ANN模型之所以比较成功地解决了Life-Log语音识别中的问题,主要在于人类发音的复杂性和特殊性,很难利用线性模型很好地进行分类,而ANN恰恰利用了非线性的理论,这使得Life-Log分类识别成为可能。要做好语音Life-Log的分类识别,关键还在于理论必须与实际应用相连。 实验结果显示,根据Life-Log语音的特殊性,需要具体问题具体分析,并根据需要设计ANN模型。为了提高系统性能,需要对Life-Log语音特征提取、现有的分类识别模型进行改进,本文设计优化的ANN模型可以很好地支持Life-Log语音分类,利用MFCC与短时能量混合参数作为特征值,可以降低传统上只采用MFCC特征参数进行训练识别的误差,缩短训练时间,提高了6%的识别率。为今后的开发出更多 Life-Log的实用性功能,并应用于人们的生活,提供了必要的准备。