论文部分内容阅读
作为一种基于生物特征信息的身份识别方法,说话人识别通过语音来识别说话人的身份,说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。由于说话人个性以及实际应用环境的复杂性,说话人识别技术虽然取得了一定的进步,其瓶颈效应也逐步显现,进一步提高比较困难,离真正的实际应用还有一段距离。本文从端点检测、语音增强、特征提取、后端处理等角度对说话人识别进行了研究,取得了一些研究成果。本文首先回顾了说话人识别的研究发展历程,指出了目前说话人识别研究的热点和难点。语音信号具有混沌的特征,分形维理论是描述混沌信号的一种手段,本文从分形维的定义出发,提出了一种新的基于波形的算法(Improvement Fractal Dimension algorithm Based on Wave :IBW-FD)。该算法只需计算波形长度,与盒维、Katz维相比,计算更加简单。通过分形布朗曲线验证了该算法比盒维和Katz维具有更高的精确度,在高斯白噪声和三种非平稳噪声下该算法与盒维、Katz维相比抗干扰能力更强。端点检测是说话人识别系统的第一步,一直是语音信号处理研究的热点。本文根据语音和噪声的特点,将前面提出的IBW分形维引入端点检测,将之与能量的方法相结合,提出了一种基于能量和分维的联合端点检测方法(VAD way of unite energy and fractal dimension:UEFD)。寻找新的有效的说话人识别特征参数和已有特征参数的有效组合是说话人识别参数提取研究的热点。本文将前面提出的IBW分形维与MFCC特征参数有机结合,作为说话人识别系统的混合特征参数。通过实验发现,新的混合特征具有一定优势。基于离散余弦变换的语音增强方法是目前国内外语音增强领域内研究的热点,而对于离散分数余弦变换的研究国际上还比较少,而国内外对于离散分数余弦变换的应用研究就更少,本文基于态函数,提出了两种基于态函数的离散分数余弦变换方法——二周期离散分数余弦变换和三周期离散分数余弦变换;并把它们应用于语音增强中,结合了语音增强的特点,提出了四种基于离散分数余弦变换的语音增强方法——基于二周期离散分数余弦变换的语音增强算法(speech enhancement based on two cycles Discrete Fractional cosine Transform:FDCT2)、改进的基于二周期离散分数余弦变换的语音增强算法(speech enhancement based on modified two cycles Discrete Fractional cosine Transform:MFDCT2)、基于三周期离散分数余弦变换的语音增强算法(speech enhancement based on three cycles Discrete Fractional cosine Transform :FDCT3)和改进的基于三周期离散分数余弦变换的语音增强算法(speech enhancement based on modified three cycles Discrete Fractional cosine Transform :MFDCT3)等四种算法,结果表明本文提出的几种算法要优于常规的DCT算法。在噪声环境下语音增强的研究中多级滤波方法具有明显的优势,其中欧洲电信标准化协会提出的两级MEL域维纳滤波结构具有较优良的降噪效果。但缺点是结构复杂,反复的时域-频域转换带来计算量的急剧上升;研究发现,单纯地从时域或变换域很难消除语音中存在的噪声和干扰,而分数余弦变换是一种非常优良的分析工具,本文将前面提出的基于态函数的分数余弦变换应用于语音增强中,提出了分数余弦变换