模糊超椭球聚类算法及其在说话人识别中的应用研究

来源 :第八届全国人机语音通讯学术会议(NCMMSC8) | 被引量 : 0次 | 上传用户:Ben_Chen111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过对模糊超椭球聚类算法的研究,提出了一种新的说话人识别方法。其基本思想是,将训练样本集按照分布特点划分成一定数量的超椭球分布的子类,然后充分利用各子类的一阶统计特征和二阶统计特征来表征这些分布,从而实现在总体上对训练样本集的表征,更好地对其分布特征进行描述,以此达到提高识别效果的目的.实验表明,基于模糊超椭球聚类算法的说话人识别系统具有比较稳定的性能,在测试音长度较短的情况下,性能优于传统的基于隐马尔可夫模型(HMM)的说话人识别系统.
其他文献
本文分析了目前客观音质评价的研究方法,重点对无参考源(Non-Intrusive)方法中的ANIQUE算法(AuditoryNon-IntrusiveQUaityEstimation)进行了研究.该方法针对语音信号的时域包络反映了100Hz左右声门激励以及更低频率由声道产生的调制成份信息,利用语音中的2-30Hz包络调制成份,通过与语音中其他频率调制成份比较,来对语音质量做出评价.
不定长技术使得基于语料库的语音合成系统合成出高自然度的语音,而语音库裁剪方法通常会导致不定长的损失.针对这一关键性问题,本文首先提出NuClustering-VPA算法:对不同粒度的不定长变体进行递阶聚类,根据高阶聚类结果调整低阶变体的聚类,从而保留在声韵上最为重要的变体.
声学回声抵消算法(AEC)是全双工免持通信设备中的关键技术之一。本文利用子带算法的灵活性,结合这二者特点,对传统方法加以改进,为不同子带的自适应滤波器分配不同的阶长,在基本保持原有回声抵消性能的基础上,进一步降低了计算量与所需系统资源.
本文介绍了一种新的语音增强算法,这种算法采用进化规划以均方误差为适应度函数对消噪滤波器进行进化操作寻优,并在进化过程中以阶数变异概率对滤波器阶数进行变异操作,实现阶数和滤波器系数的联合优化.仿真实验结果表明:与传统LMS语音增强算法相比,本文提出的算法具有更好的稳健性和使用方便性.
概念优先组合判断的研究有助于语义块结构和功能的确定,也有助于句类分析系统性能的提高.本文利用HNC概念符号知识深入到词语的语义层面,从概念类别的内涵出发,结合概念间语义相关度计算方法以及句类知识对概念优先组合的各种情况进行了初步分析.文章采取演绎和归纳的方法,得到了关于概念优先组合的并联结构、串联结构和混联结构的发现、内部结构分析及边界确定的相关规则,并实际验证了这些规则的有效性.
在基于LPC的语音合成系统中,采用混合激励声源模型可以提高合成语音的自然度,但传统混合激励模型的线性相位假设与实际语音不符,因而合成语音的自然度还不够理想。本文提出了一种新的脉冲形状滤波器系数提取算法,该算法利用浊音余量信号波形的周期相似性,并在加权均方误差最小的准则下重构浊音相位信息,从而改进了传统混合激励声源模型.实验结果表明,改进的声源模型与传统模型相比合成语音自然度有了显著改善.
本文针对具有表现力的可视语音合成中音视频匹配的问题,提出了一种基于音视频关联模型的视位参数优化的算法.该算法首先对语音与视频间的特征相关性和时序相关性进行了分析,建立音视频关联模型(AVCM);然后在基于参数控制的可视语音合成中,考虑当前合成语音对视位参数的影响,基于关联模型对视位参数进行优化.实验表明,该方法较好地解决了视位参数序列受语音影响的问题,使得合成出的视位序列与当前的合成语音更为匹配,
本文提出了一种依靠Kullback-Lebler距离分析说话人模型之间相似度的方法,并且在此基础上考察了利用这种相似度选择背景说话人集合对TNorm得分归一化算法性能和效率的影响.实验结果表明,通过这种方法,能够在保持系统认证性能的条件下有效地削减背景模型集合的大小,从而提高了计算效率.
为了能够将传统说话人辨识方法的高效和区分性训练方法的优点结合起来,本文设计了说话人识别的两级框架.该识别框架平衡了辨识速度和精度的问题.文章选用TIMIT数据库,对两级框架下的说话人识别以及相关的内容进行了探索性研究.实验结果表明,本文介绍的应用区分性训练的两级说话人识别框架能够明显提高说话人识别性能和识别效率.
语音情绪识别通过语音信息提取人类情绪特征,作为一个刚刚兴起的研究领域,目前尚存在诸多困难需要深入探索.本文采用四种情绪(愤怒、害怕、高兴、悲伤)来分析,并利用中立情绪作为其它各种情绪的参照.在对持续时间方面、短时能量方面和基音方面的124个特征分析的基础上,提出了一种能够充分利用最佳特征组的识别方法--连续两分方法.