复杂场景下的音频自动标注方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gelsy1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前我国的人工智能技术进入快速发展的阶段,其中音频和语音作为智能设备与外界和人类进行交互的重要接口而受到来自于政府、产业界与学术界的广泛关注。国务院提出了人工智能发展规划,指出我国将在教育、医疗、养老、环境保护、城市运行等领域广泛应用人工智能技术。音频数据的自动标注技术将为这些业务提供有效的服务。然而这些实际应用场景中的声场构成往往非常复杂,通常含有多种声源和不同程度的噪声干扰,因此在实际应用中通过复杂场景下的音频自动标注方法来为智能系统提供声音模态的信息具有迫切的需求。当前对于复杂场景下的音频数据往往缺乏统一有效的数据处理流程和模型。因此本课题针对复杂场景下的音频自动标注任务开展了研究。  针对复杂场景下的音频数据的性质,我们首先提出了一种复杂场景下的音频数据处理流程。对复杂场景下的音频数据进行时域和频域的详细分析,发现音频中从时间维度和频率维度上都存在着音频类别的信息,且这些模式存在不确定性,并发现大量音频数据中存在着非活动片段,对数据集中类别和音频文件时长的分布进行分析后发现音频类别不平衡的问题。基于这些信息设计了音频的处理流程,包括音频活动检测和基于活动检测的噪音去除,提出多种用于音频数据的扩张方法和数据集过采样的数据处理方法。通过实验对比证明了数据处理流程设计对于复杂场景下的音频标注任务性能具有明显的提升。  针对音频中信息在时域和频域上的分布具有多形态的特点,提出了自注意InceptionLDNN模型。对数据的研究中发现音频类别相关的信息在时间分布上不均匀,在频域上的模式也较为多样化。基于这两个结论研究设计了含有注意力机制和多种尺寸卷积的深度学习音频自动标注模型,并在实验中对这两种改进和模型整体的性能进行了评价分析,确定该模型取得了明显优于对比方法的预测效果。
其他文献
网络管理是互联网研究的一个重要课题。随着网络技术的发展,计算机网络的规模不断扩大,网络设备越来越复杂,对计算机网络的管理变得越来越困难。传统的简单网络管理协议(SNMP
知识表示是人工智能(Artificial Intelligence,简称AI)的一个重要分支。60年代中期,知识表示开始作为一个独立的研究课题,四十年来,人们研究出了诸多的知识表示方法。本体(Ontolo
云计算是信息时代的新型的计算模式,它是由网格、分布式和并行的计算基础上发展而来。云计算是现代信息技术与商业服务的产物,代表着下一代的互联网技术。资源调度和管理是云
为突破传统RS485串行总线对可接入节点数量的限制,本文基于RS485总线提出了一种大型嵌入式节点集群的架构方式,将最大可接入节点数量扩展到2.7万个。针对该网络特点,对Modbus
由于计算机应用的飞速发展,数据挖掘技术成为数据库和人工智能领域最前沿、最活跃的研究方向之一,关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以
近年来,心血管疾病的发病率逐年提高,严重地危及人们的生命安全。心脏的猝死是心律失常中最严重的症状和表现,如果不能采取除颤等及时有效的抢救治疗,心脏猝死将意味着生命的
随着以Internet为代表的信息社会的高速发展,Web网络包含的文本、图像、音频和视频等多媒体信息急剧增加,人们对多媒体信息的挖掘和检索的需求也在快速增长。将数据挖掘领域知
本文将根据本人公司经过调研所了解到的各大企业及小区对视频监控的实际需求,介绍一个监控系统及中央控制系统的设计与实现。 论文首先介绍视频监控业务的概况、系统的开发
随着计算机互联网技术的飞速发展与管理信息系统在办公、生产等领域的高速普及,工作流技术逐渐被引入,工作流管理系统(Workflow ManagementSystem)应运而生并掀起了一股热潮
如何能在保持系统整体性能的同时,有效地进行资源存储和定位,是P2P点播系统中所需要解决的重要问题。在P2P点播系统的服务器、代理服务器以及客户端中,缓存技术在缓解网络传