论文部分内容阅读
当代社会语音是人与人最自然的沟通手段,而且随着科技的发展,语音将会在人机交互等智能化领域展现出其优越性和必要性。随着环境问题、社会和职业压力等因素的出现,嗓音疾病的发病率程明显的上升趋势。声带作为重要的发声部位,其病变是导致发声出现问题的重要原因。由于无损性、便利性、易传输性等优势,声学分析的病理嗓音诊断已然成为研究的热点。针对传统声学特征在描述声带疾病对嗓音的影响时存在的局限性和非完备性,从仿生学、非线性动力学和高阶统计学角度,提出了多频带非线性分析和感知多谱熵分析的嗓音特征提取方法,以提高声带疾病嗓音的识别率。具体研究如下:(1)分析了声带疾病对嗓音信号的影响和传统特征的反映及其局限性,进行相关性和差异性分析并用于特征选择。接着提出多频带非线性分析方法,引入可模拟人耳听觉特性的Gammatone滤波器组,求取每个频带下滤波信号的最大李雅普诺夫指数,它可以细致地刻画嗓音信号每个频带的非线性特性,从而更加细致地体现出声带疾病对嗓音的非线性影响。然后提出了感知多谱熵特征,求取各听觉滤波器频带的多谱和进行能量熵分析,其可以较细致地反映嗓音每个频带的非高斯性。正常嗓音与声带疾病嗓音和声带疾病嗓音与甲状腺亢进疾病嗓音的识别实验表明本文提出的特征比传统特征有较高的识别率提升。(2)针对特征不同维间存在的冗余,采用核主成分分析进行特征优化,而核函数的形式及核参数的设置直接影响优化效果,本文提出了高斯最大似然度的最优核参数选择算法。识别实验也表明本文提出的核函数具有最佳的特征优化性能。(3)为了更全面地体现声带疾病对嗓音的影响,将筛选后的传统特征与本文提出特征融合构成新的特征向量,实现了特征之间的互补。当融合后特征用于正常嗓音和声带疾病嗓音识别系统后,平均识别率达97.83%;当用于声带疾病嗓音和甲状腺亢进病嗓音识别系统,平均识别率达80.81%。(4)最后指出了本文存在的不足和将来的工作方向。