论文部分内容阅读
语言是人类最重要的、最常用的和最便捷的通信方式,汉语是一种具有声调的语言,声调体现为人在发音时语音起伏的变化,在人们的日常交流中具有辨别语义的作用。声调识别是对汉语音节的声调变化模式进行四分类或多分类的典型识别问题,在汉语的人机语音交流和听障患者语言训练系统中均有重要应用,因此,语音信号声调识别是一个有意义的研究课题。声调识别的研究分为特征参数和声调分类器两方面,为了提高声调识别系统的准确率、鲁棒性和响应速度等性能,特征参数应具有可区分度高、计算复杂度低、物理含义明确等特点,同时,声调分类器也应具有分类能力强、抗干扰性好、运行高效等优势。
本文的研究从以上两个方面入手,首先对基频参数和七种典型特征参数集进行了介绍,并通过实验证明了倒谱参数并不适合用作声调识别特征参数;其次介绍了五种在分类问题中广泛应用的机器学习模型,并将它们作为声调分类器在七种典型特征参数集上进行了预对比实验;接下来由此提出了一种基于特征融合和随机森林的汉语声调识别算法,在算法中首先对七种典型特征参数集采用三种融合方法进行了特征参数融合优化,在优化出的三个融合参数集上分别构建决策树进而组成随机森林,然后在多人的汉语普通话单音节样本数据集上进行了模型参数优化实验、性能指标对比实验和小样本训练集对比实验,并将得到的结果与其他四种声调分类器做对比。
实验结果表明:①五种声调分类器可以通过使用不同的融合参数集达到最好的声调识别效果,说明使用不同的分类器进行声调识别时需要根据模型特点具体确定使用的特征参数。②实验结果中三个融合参数集的最优声调识别准确率均在97.50%以上,说明使用的三个融合参数集均能很好地对四种声调进行区分,而且在融合参数集S2和S3中使用的两种特征优化方法也较好地选出了对于声调识别可区分度高的特征参数。③基于特征融合和随机森林的汉语声调识别算法表现出优异的声调识别性能。随机森林在三个融合参数集中的声调识别准确率、模型泛化指标(AUROC)和不平衡数据分类指标(AUPRC)的值始终维持在97.50%以上,其中,使用全特征融合参数集S1的随机森林的三个性能指标值均高于98.32%,在小样本训练集中,随机森林使用三个融合参数集的声调识别准确率也都维持在93.57%以上,说明随机森林是一种识别准确率高、泛化能力强且稳定性好的声调分类器,对类似分类问题有借鉴参考价值。
本文的研究从以上两个方面入手,首先对基频参数和七种典型特征参数集进行了介绍,并通过实验证明了倒谱参数并不适合用作声调识别特征参数;其次介绍了五种在分类问题中广泛应用的机器学习模型,并将它们作为声调分类器在七种典型特征参数集上进行了预对比实验;接下来由此提出了一种基于特征融合和随机森林的汉语声调识别算法,在算法中首先对七种典型特征参数集采用三种融合方法进行了特征参数融合优化,在优化出的三个融合参数集上分别构建决策树进而组成随机森林,然后在多人的汉语普通话单音节样本数据集上进行了模型参数优化实验、性能指标对比实验和小样本训练集对比实验,并将得到的结果与其他四种声调分类器做对比。
实验结果表明:①五种声调分类器可以通过使用不同的融合参数集达到最好的声调识别效果,说明使用不同的分类器进行声调识别时需要根据模型特点具体确定使用的特征参数。②实验结果中三个融合参数集的最优声调识别准确率均在97.50%以上,说明使用的三个融合参数集均能很好地对四种声调进行区分,而且在融合参数集S2和S3中使用的两种特征优化方法也较好地选出了对于声调识别可区分度高的特征参数。③基于特征融合和随机森林的汉语声调识别算法表现出优异的声调识别性能。随机森林在三个融合参数集中的声调识别准确率、模型泛化指标(AUROC)和不平衡数据分类指标(AUPRC)的值始终维持在97.50%以上,其中,使用全特征融合参数集S1的随机森林的三个性能指标值均高于98.32%,在小样本训练集中,随机森林使用三个融合参数集的声调识别准确率也都维持在93.57%以上,说明随机森林是一种识别准确率高、泛化能力强且稳定性好的声调分类器,对类似分类问题有借鉴参考价值。