基于残差网络和随机森林的音频识别方法研究

来源 :武汉科技大学 | 被引量 : 4次 | 上传用户:zhou1225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境声音分类(Environmental Sound Classification,ESC)是音频处理领域中的重要分支之一。ESC任务在机器人导航、音频检索、音频取证以及其他基于情景感知和可穿戴设备中具有重要的应用场景。环境声音识别任务的困难主要在于环境声音信息中往往混杂着大量无用、随机的声音信息,这使不同的声音场景也经常出现相似度非常高的声音特征。现有的方法在ESC任务中的分类精度还有很大提升的空间。本文提出了一种基于残差网络和随机森林的音频识别算法,利用深度学习模型对音频进行特征提取,通过将一维时域的音频信号转换为二维的频域信号利用残差网络模型进行特征提取,提高音频特征的提取质量。针对音频数据集由于其标记声音事件录音非常困难导致数据量较少,训练深度学习模型容易过拟合导致精度下降的问题,本文设计了基于残差网络和随机森林相结合的方法,该方法能有效的提取音频特征,缓解了过拟合的现象,因此该方法不仅提升了音频识别的精度,加快了预测的效率。本文实验采用了具有代表性的环境声音数据集,将提出的音频识别方法在这些数据集上进行训练预测。经实验结果表明,该方法在选取的数据集上的识别精度均有较大的提升,在实际录制的人声数据集上也取得了很好的验证,验证了该方法的普适性和有效性。
其他文献
在我国高校篮球训练中,由于传统的篮球教学已经无法满足目前高校篮球训练要求,对于将拓展训练融入在高校篮球训练的模式逐渐得到了人们的重视和关注。拓展训练是在20世纪90年
韩国教育部通过修订《高等教育法》,规定各大学在定时招生和随时招生中要为弱势群体考生单列招生考试计划,对外公布招生计划人数、申请条件、申请材料和考试内容等,全力协调
14.小说语言中的比喻 小说里的形象化比喻通常不如诗歌中那么明显。一首诗往往比一部小说的语言更精炼,但流传的时间几乎都比小说短。许多诗歌,首先引起读者注意的是形象化
高校应用型人才培养目标下,大学英语课程作为高校一门重要的公共课程,对应用型人才的培养肩负重任。为满足学生个性需要和社会需求,大学英语课程改革势在必行。基于近几年全
为了解决电液伺服跟踪控制中存在流量非线性以及参数不确定问题,以阀控液压马达为对象设计了一种非线性鲁棒控制器.该算法基于Back-Stepping的设计思想,将阀控电液系统的位置
目的:调查中国大陆儿童葡萄糖-6-磷酸脱氢酶(Glucose-6-phosphate Dehydrogenase G6PD)缺乏症流行分布趋势。为中国大陆主要地区G6PD缺乏症患儿的个体化健康管理以及实施公共卫生预防措施提供必要的流行病学依据。方法:在2019年4月之前搜索了五个数据库,即中国知识资源综合、万方、中国生物医学、重庆VIP和PubMed。对于搜索策略,我们使用了以下项目:“葡萄糖六磷
<正> 12.小说语言的文体 我们的处境决定了我们该用什么样的语言,而在特定的时刻,我们运用的词汇和句法又主要决定于四个因素:谈话的对象,谈话的内容,书面还是口头,用什么样
身体政治学从身体生成及其日常实践层面来考察权力机制如何通过各种制度、规范实施对人的规训和控制。我国身体政治的发展路径镶嵌于中国现代国家"双重化建构"——呈现出民族
目的探讨激励式护理干预对脑血管疾病患者预后及患者满意度的影响。方法 2015年1月至2015年12月选取我院神经内科脑血管疾病患者124例进行研究,将患者随机分为观察组(n=62)及
影响惯性制导导弹命中精度的主要因素是制导工具误差,而平台的测量误差是其中的主要成分.深入研究惯性平台在系统中的在线标定方法,建立了惯性平台的陀螺仪误差模型及加速度