论文部分内容阅读
在我们的日常生活中,人们的生活节奏逐渐变快,对于缺乏经验的新婚夫妇来说,如何高效率的照顾好自己的新生婴儿对他们来说无疑是一个巨大的挑战。根据相关的研究表明婴儿的哭闹声是可以表明婴儿的某种需求亦或是存在的某种问题,如饥饿、疼痛、嗜睡、不适、寒冷或者是炎热等。对于婴儿的哭声或许少部分有经验的父母能够了解哭声所表达的具体含义是什么,但是对于大多数的人来说显然是做不到的。随着近些年来人工智能领域以及语音技术的发展,使得这一问题的解决成为了可能,本文的研究目标也正是在于研究多种能够自动识别婴儿哭闹原因的算法,让家长更容易理解婴儿哭声的具体含义,从而帮助婴儿更加健康的成长。以下是对本文研究内容的总结:第一,由于国内外现有的婴儿哭声数据库绝大多数都是不公开的,并且其所收集的婴儿哭声的类型彼此之间也存在着差异,因此有必要建立婴儿哭声数据库来进行相关的研究工作。通过对邓斯坦婴儿语言等理论的学习,主要在油管等网站上收集了五种类型的婴儿哭声数据,经过预处理等步骤建立了婴儿哭声数据库。本文所研究的婴儿哭闹原因识别算法依据邓斯坦婴儿语言所提出的理论主要分为了5种类别,分别是:饥饿、困倦、打嗝、疼痛、不舒服。第二,本文研究了一种基于码本的婴儿哭闹原因识别算法,该算法利用了MFCC特征参数。主要分为两个阶段,一个是码本的制作阶段,这一阶段主要采用K-MEANS聚类算法,一个是识别阶段,该阶段主要使用的是距离函数和KNN最近邻算法。并且在此基础上分为帧长、帧叠、聚类的数目、邻居的数目四个维度,进行了一系列的精度测试,从而得出了一组精度较高的模型参数,相比于传统的码本算法在平均的识别率上有了大约10%的提高。第三,本文研究了一种基于神经网络的婴儿哭闹原因识别算法,此算法同样使用了MFCC特征参数。神经网络模型由三层隐藏层组成,在实验中激活函数分别选用了Relu激活函数、tanh激活函数以及sigmoid激活函数进行对比,然后总结分析了选用不同激活函数的优缺点,对比了准确率的变化情况并且验证了之前的理论分析,最后与传统的LVQ神经网络进行了对比实验,结果实验证明了使用该神经网络结构所获得的最高识别准确率有了4%的提高。第四,本文研究出了一种基于MFCC特征参数的深度学习婴儿哭闹原因识别算法,该算法同样利用了MFCC特征参数,所使用的深度学习模型是在WaveNet网络模型的基础上更改所得到的。并且详解了模型结构中的因果空洞卷积、残差连接等主要结构的原理。并且详解了整个网络模型修改后的部分结构图形。最后对该模型与传统的卷积神经网络进行了对比实验,分析了各自的优缺点并对此进行了一个分析与总结,证明了该网络有较强的语音学习能力。第五,本文研究出了一种基于语谱图的深度学习婴儿哭闹原因识别算法,该算法选用语谱图作为输入的特征参数。本章详解了语谱图的概念原理以及使用其的优势。所选用的深度学习模型是在Inception-v3模型的基础上更改得到的。并且详解了Inception-v3网络结构的两种改进方式,在研究中所采用的训练方式为预训练的方式,然后详细介绍了算法的步骤,并在此基础之上进行实验,得到的结果相比与之前的三种算法在准确率上有了一个较大的提高,最后与传统的卷积神经网络进行了对比实验,验证了该算法在识别率上的优越性。