论文部分内容阅读
在当前信息科技时代,语音信号识别(ASR)技术、语音信号编码(ASC)技术、及语音信号增强(ASE)技术[1]将会在安防领域、人机交互领域、通信领域以及未来的消费电子产品领域[2]产生强有力的技术支撑作用。通过语音信号端点检测技术,可以准确地分析出一段语音信号中的纯语音信号和静音段[3],该技术直接对ASR、ASE技术的性能和ASC技术的效率产生决定性影响[4]。可以用三个环节来表征一个完整的语音端点检测模型:首先,语音信号预处理环节,包括信号滤波、语音流分帧以及信号加窗等[5]。其次,提取整个语音流的特征向量,小波分析(WA)技术的多分辨率解析特性是提取语音信号特征向量的极好方法[6]。最后,语音端点判别模型的建立[7]。传统的语音端点检测算法有基于时域的双门限法、基于频域的普熵法以及基于倒普特征的检测方法等。针对在低信噪比和复杂的噪声环境下,为了得到满意的端点检测效果,本文提出了基于优化极限学习机(ELM)的端点检测模型,通过优化网络连接参数以弥补算法本身的不足。(1)为了优化ELM神经网络的输入权值和隐含层偏差,结合粒子群优化(PSO)算法,形成了粒子群优化极限学习机(PSO-ELM)端点检测模型。依靠ELM神经网络的快速学习能力,瞬间完成端点检测并输出预测结果。该算法在一定程度上优化了网络连接结构,但是仍然存在一定的缺陷。(2)为了更好的优化ELM神经网络的连接参数,最后采用自适应步长果蝇(FOAMR)算法优化极限学习机,并将优化后算法应用于语音端点判别模型中。在Matlab辅助软件环境中做了大量的仿真实验,通过实验结果可以得出结论,单纯的ELM模型具有最好的快速性和较高的准确率;PSO-ELM模型的准确率有所提升但是训练时间最长;而最终基于自适应果蝇优化ELM模型具有最高的准确率,同时具备了很好的快速性,达到了实际应用的要求。