基于MFCC和矢量量化的说话人识别算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yuehan3269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是根据语音波形中反映说话人生理特征差异和行为习惯差异的语音参数能够自动鉴别说话人是谁的一项技术,其广泛的应用前景正受到越来越多人的重视。本文主要是基于美尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)和矢量量化的与文本无关说话人识别技术的研究,采用矢量量化和自适应蚁群算法混合的方法,参数利用改进窗函数的Bark子波的美尔频率倒谱系数。首先,在MFCC特征提取的预处理阶段对窗函数进行改进,用改进的Lanczos窗代替汉明窗,在确定主瓣的宽度基本一致的情况下,使旁瓣能更好的得到抑制,并引入与人耳听觉系统更为适应的Bark子波变换,其基函数满足时间-感知频率上的最佳不确定性,分析尺度的伸缩则按照“临界带(Critical Band)”的中心频率来变化,将其应用于MFCC特征提取过程中,能提高语音在噪声环境下的鲁棒性。然后,对矢量量化模式识别方法进行改进,针对LBG算法极易陷入局部最优解的可能性和依赖初始码本的选择问题,利用蚁群算法的分布式并行机制,将蚁群算法与LBG算法进行混合交替,在提高其全局搜索能力的同时,通过LBG算法加快收敛速度。为了防止蚁群算法也陷入局部最优解的可能,采取了确定性选择和随机性选择相结合的选择策略,在搜索过程中动态调整状态转移概率的方法,从一定程度上防止了所得的结果是局部最优解。最后,一种基于标准差描述的加权欧式距离测度用于匹配判决。通过实验可以验证,改进后的特征提取算法以及混合蚁群算法的矢量量化识别方法,与传统的基准算法相比较,识别率和鲁棒性均得到提高,且随着训练语音长度的增加,识别效果更好。因此在实际应用中,需要根据具体的环境进行调整。
其他文献
二十一世纪是海洋的世纪,随着科学技术的发展,对通信系统的研究从陆地和空中延伸到了海洋。水声通信已成为近年来通信技术研究的热点之一,同时因为水声信道的特殊性,它是一个
随着社会的发展与进步,越来越多的社会安全问题也随之出现。如何避免与及时应对突发公共事件作为公共安全的重要议题被学术界及工业界广泛研究,进而产生了多种多样的安防机制及
作为AUV关键问题的导航技术一直是研究的热点问题之一,而同时定位与地图构建算法(SLAM)是解决AUV自主导航问题的基础。SLAM算法指未知环境中AUV从一个未知位置出发,通过自身携带
根据国内外监控系统的发展趋势,本文提出了一种基于FPGA与H.264的网络监控系统的实现方案。以FPGA为核心的嵌入式终端CPU、PC机客户端与网络连接设备是本网络视频监控系统的主
青少年体质健康,对一个国家的未来发展有着至关重要的作用.进入新世纪以来,我国青少年身体素质呈现下降趋势,为了进一步改善青少年身体素质,提高青少年运动能力,我国大力实施
20世纪以来,随着计算机图形图像技术,网络传输技术,多媒体技术的发展,基于视频技术的远程医疗、远程教育、视频会议等应用也越来越普遍。视频技术正在向大数据量,高分辨率的
十一五”以来,我国水上交通事业取得了飞速发展。内河航运业务的日趋繁忙导致了近年来我国内河船舶事故屡有发生。内河船舶事故具有突发性,且往往发生在恶劣天气条件下或者是
未来的通信网络是多种接入技术并存的融合网络,并且终端设备具有多个网络接口。在这一背景下,基于流传输控制协议(Streaming Control TransmissionProtocol,SCTP)的多路径并行传输
下一代网络(NGN)借助环境感知、智能控制等技术,以用户易用、易理解以及易接受的方式提供复杂智能的业务,做到“以用户为中心”,其研究重点就是增强人类驾驭世界的能力,实现
交通参量信息的检测和获取是智能交通系统中不可或缺的基础环节,交通参量的组织形式为交通状况的评估、调节以及交通运输系统的规划和设计提供了强有力的数据基础。交通流量是