基于多层GRU模型的城市声音识别

来源 :电子设计工程 | 被引量 : 0次 | 上传用户：Xiongbaobao520

【摘要】

：

近年来,随着人工智能的发展,运用神经网络进行图像分类和文本分析已经取得了成功,在声音信息检索领域,神经网络同样能够进行语音识别.为了开发一种高识别率的模型对声音进行

【作者】

：

张志刘振宇冯婷婷朱涛

【机构】

：

南华大学计算机学院,湖南衡阳421001

【出处】

：

电子设计工程

【发表日期】

：

2004年期

【关键词】

：

人工智能语音识别梅尔频率倒谱系数多层GRU模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着人工智能的发展,运用神经网络进行图像分类和文本分析已经取得了成功,在声音信息检索领域,神经网络同样能够进行语音识别.为了开发一种高识别率的模型对声音进行特征抽取和识别,实验使用最大的城市声音数据集UrbanSound8K,在不使用数据扩充的前提下,通过梅尔频率倒谱系数(MFCC)从原始音频中抽取特征,并筛选特征,构造多层门控循环单元(GRU)模型进行训练,并测试最优准确率的模型层数.实验结果表明,使用7层GRU模型可以极大地提高城市声音识别的准确性,并且收敛速度很快,准确率高达93.1％.未来实验中使用具有高准确率的声音识别模型可以为嘈杂音频声音的分离提供有利帮助.

其他文献

基于动态感受野的自适应多尺度信息融合的图像转换

为提高图像转换模型生成图像的质量,该文针对转换模型中的生成器进行改进,同时探究多样化的图像转换,拓展转换模型的生成能力。在生成器的改进方面,利用选择性(卷积)核模块(SKBlock)的动态感受野机制获取和融合生成器中每个上采样特征的多尺度信息,借助特征的多尺度信息和动态感受野构造选择性(卷积)核的生成式对抗网络(SK-GAN)。与传统生成器相比,SK-GAN以动态感受野获取多尺度信息的生成结构提高

期刊

图像转换多尺度信息动态感受野自适应特征选择

基于DNA链置换的赢家通吃神经网络

DNA链置换技术广泛用于生物计算中,在计算能力和信息处理方面表现出色。但是,在信号的放大、恢复与比较等一些计算中使用DNA链置换技术,不仅增加DNA链的数量,还会带来额外的计算成本。因此,为了减少DNA链的使用数量,该文构建了一个基于DNA链置换实现的赢家通吃(WTA)神经网络。首先,通过神经元实现逻辑运算AND, NAND和OR,将其级联成WTA神经网络解决了线性不可分问题。通过与别人结果的比较

期刊

DNA链置换赢家通吃神经网络逻辑运算VisualDSD

一种基于Casorati-奇异值分解的超快平面波超声多普勒自适应时空域杂波抑制算法

超快超声平面波成像技术实现了超声的高帧频大视野同步采集,捕捉到更多有效原始信息,而传统滤波器在处理这种大视野数据方面有诸多不足。该文基于Casorati奇异值分解(Casorati-SVD)技术提出一种改进的自适应杂波抑制算法:首先,选取一个区域的原始平面波数据构建Casorati数据矩阵并进行奇异值分解;其次,根据分解后分量的多普勒频率和能量自适应匹配合适的滤波截止参数,抑制组织杂波和噪声并提取

期刊

超快超声平面波功率多普勒Casorati奇异值分解自适应杂波抑制

基于生成对抗网络和噪声水平估计的低剂量CT图像降噪方法

生成对抗网络(GAN)用于低剂量CT(LDCT)图像降噪具有一定的性能优势,成为近年CT图像降噪领域新的研究热点。不同剂量的LDCT图像中噪声和伪影分布的强度发生变化时,GAN网络降噪性能不稳定,网络泛化能力较差。为了克服这一缺陷,该文首先设计了一个编解码结构的噪声水平估计子网,用于生成不同剂量LDCT图像对应的噪声图,并用原始输入图像与之相减来初步抑制噪声;其次,在主干降噪网络中,采用GAN框架

期刊

图像降噪生成对抗网络低剂量CTU-Net噪声水平

融合偏置的动态专家信任推荐算法

针对协同过滤推荐算法中数据稀疏、冷启动与噪声用户对推荐质量的严重影响,该文将用户-项目评分数据与用户信任关系数据相结合;提出一种融合偏置的动态专家信任推荐算法(BDETA),首先根据用户信任关系数据进行社区划分,获取用户间显式信任值;其次从社区中用户-项目评分数据获取可信度、隐式信任值;通过结合用户间可信度、显式信任值、隐式信任值动态确定专家信任因子,根据用户的推荐能力为每个社区确定专家数据集;最

期刊

数据通信协同过滤可信度显式信任值隐式信任值专家信任因子

基于循环卷积多任务学习的多领域文本分类方法

文本分类任务中,不同领域的文本很多表达相似,具有相关性的特点,可以解决有标签训练数据不足的问题。采用多任务学习的方法联合学习能够将不同领域的文本利用起来,提升模型的训练准确率和速度。该文提出循环卷积多任务学习(MTL-RC)模型用于文本多分类,将多个任务的文本共同建模,分别利用多任务学习、循环神经网络(RNN)和卷积神经网络(CNN)模型的优势获取多领域文本间的相关性、文本长期依赖关系、提取文本的

期刊

多领域文本分类多任务学习循环神经网络卷积神经网络

基于压缩感知的PPG信号处理算法性能研究

随着移动健康医疗应用的快速发展,压缩感知(CS)已用于PPG信号处理。信号恢复过程是基于CS的PPG信号处理中重要的步骤,文中对用于PPG信号处理的4种典型压缩感知恢复算法即正交匹配追踪(OMP)算法、压缩采样匹配追踪(CoSaMP)算法、基追踪(BP)算法和块稀疏贝叶斯学习(BSBL)算法进行综合性能分析,总结出算法在PPG信号处理上的优缺点,为实际应用提供研究参考。结果表明,BSBL的性能优于其他算法,其抗干扰性最强、信号恢复质量最好,OMP算法性能在不同压缩比下最稳定。BSBL算法的信噪比能达到OM

期刊

压缩感知移动医疗算法性能PPG信号

差异区域平衡法探索时间序列变化的因果关系

针对探索时间序列之间随时间变化的因果关系问题,在每个窗口进行Granger因果检测的滑动时间窗口方法是求解该问题的常用方法,但其性能对窗宽敏感,不合适的窗宽很可能导致低性能。该文提出一种差异区域平衡方法,首先计算当前滑动窗口W内序列的波动程度Sw并作为波动界,计算窗口W的前向相邻区域U内序列的波动程度Su。然后,实施前向探索策略:若Su未超过Sw,则实施不同长度区域的平衡检测方案,即对窗口W、对窗

期刊

时间序列变化的因果关系Granger因果检测差异区域平衡

一种新型单层递归神经网络解决非光滑伪凸优化问题

非光滑伪凸优化问题是一类比较特殊的非凸优化问题,常出现在各类科学与工程应用中,因此具有很大的研究价值。针对现有神经网络模型解决非光滑伪凸优化问题存在的不足,该文基于微分包含理论,提出一种新型单层递归神经网络模型。通过理论分析,证明了神经网络状态解在有限时间内收敛到可行域,且永驻其中,最终神经网络状态解收敛于原优化问题的最优解。最后,通过数值实验,验证了所提理论的有效性。与现有的神经网络相比,该文所

期刊

神经网络非光滑伪凸优化收敛最优解

高海拔环境下四旋翼无人机飞行姿态控制技术研究

目前的四旋翼无人机飞行姿态控制技术飞行精度控制能力差,导致无人机飞行姿态的变换不到位。应用欧拉角速度与机身的速度测量四旋翼无人机的角速度,从无人机的角速度可以进一步推算出耦合性的具体值,四旋翼无人机的飞行姿态受到较强耦合性的影响,在直观上可以将四旋翼无人机的飞行姿态控制视为缓慢的平滑运动状态,因姿态变化引起的角速度变化则通过针对性测量获取。实验结果表明,高海拔环境下四旋翼无人机飞行姿态控制技术能够有效提高飞行精度控制能力,增强无人机飞行姿态的变换效果。

期刊

高海拔环境四旋翼无人机飞行姿态控制技术

基于多层GRU模型的城市声音识别

与本文相关的学术论文