声学场景分类的方法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:xp509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能语音技术的快速发展和人工智能相关应用的兴起,声学场景分类(Acoustic Scene Classification,ASC)已逐渐被应用到人们的日常生活中,它是利用音频信号处理和深度学习技术完成对声学场景(家庭、公园、街道场景…)的识别与分类,从而达到识别周围环境的目的。针对声学场景分类问题,本文从3个角度展开研究,分别是基于传统声学表征的声场分类、基于端到端的声学建模及基于多特征系统的融合策略。在传统声学表征方面,本文搭建了基于ivector的声场分类系统,并利用生成式表征ivector进一步训练支持向量机,提升场景特征的区分度;在端到端的声学建模方面,本文设计了多组ASC系统,分别使用了基于时延神经网络的x-vector技术、卷积神经网络和残差网络,并与传统模型进行比较,进一步提升声场分类系统的性能;在系统融合策略方面,本文提出了线性逻辑回归算法对多个鲁棒性较高的子系统进行得分融合,由于不同的模型结构会从不同角度捕捉声学特征,模型间存在区分性和互补性的信息。针对国际声学场景分类和检测任务(Detection and Classification of Acoustic Scenes and Events,DCASE)2019年的任务,本文提出了将传统生成式表征和区分式深层表征相融合的策略,再次学习多表征间的互补性信息。更进一步地,本文针对DCASE2020国际评测任务中训练数据稀疏和录音设备失配的问题,提出了Mixup、Spec Augment数据增强算法及Device Augment设备增强算法,提高声场分类系统性能。本文研究的算法在DCASE的相应任务上进行了验证。在DCASE2019的评测任务上,基于传统声学表征的声场分类系统和端到端的声学建模系统分别获得了63.97%和67.53%的分类准确度,相比官方基线系统相对提升1.47%及5.03%。在DCASE2020的评测任务上,本文所提算法的性能达到70.24%的分类准确度,比基线相对提升16.44%。另外,本文所提出的多特征融合策略分别在DCASE2019、2020年评测任务上进行了大量实验验证,结果表明,传统的产生式声学表征和深层的区分式表征具有很强的互补性,无论是特征域,还是得分域上的融合,都显著地提升了最终声学场景分类系统的性能。另外,本文所提出的融合系统应用在DCASE2020-Task1A的评测中取得了优异成绩。
其他文献
随着城市化进程加快,交通负载压力变大,亟需科学的管理和调度,发展智能交通系统势在必行。衡量交通负载状态需使用交通流量指标,准确预测交通流量对相关交通调度与管理至关重要。目前对于交通流量的预测研究,主要集中于抓取历史数据的时间序列特征,对于道路网中动态的空间相关性特征的分析不足,导致预测模型与真实值有较大偏差。针对这些问题,本文提出了一种基于改进图注意力网络的交通流预测模型,具体工作如下:模型采用编
实时定位与地图构建(Simultaneous localization and mapping,SLAM)是机器人实现完全自主化和多功能的关键技术,移动机器人主要以搭载不同感知环境信息传感器去实现SLAM,然而单一传感器在实现SLAM时具有很大的局限性,多传感器的融合应用能够弥补单个传感器的局限不足,适应复杂的环境变化,如IMU的高频输出可以处理过激运动,相机的特征跟踪可以克服IMU的漂移,激光点
天然气作为一种相比于煤和石油更为清洁的能源,已经引起了各国政府的重视。近年来,随着各国政府对天然气需求量的增加,同时也给能源管理者带来了巨大的调度压力,当出现天燃气调度不均时,调度过少的行业就会导致巨大的经济损失。此外,燃气合同是一种提前购买合同,当购买量不足以满足社会需求时,购买者违反合同也会导致巨大的经济损失。合理预测天然气负荷可以减轻上述经济损失。在燃气负荷预测领域,国内外已经有很多研究者进
随着气动技术的发展,气体精密控制在智能机器人、工业自动化、医疗器械等领域的应用越来越多,对气体流量控制技术的要求也越来越高。采用压电双晶片作为驱动器的压电驱动精密气体流量阀具有功耗低、位移大、响应速度快等一系列优点,但在实际应用中,压电双晶片材料自身固有的迟滞等非线性特性会导致压电驱动气体流量阀存在控制精度变差、响应速度变慢等问题。本文主要研究面向气动控制领域的压电驱动精密气体流量阀的建模及控制技
全球可持续发展目标(Sustainable Development Goals,SDGs)的正式建立,为各国构建了涵盖经济、社会、环境三个方面的可持续发展综合目标体系。但评估报告显示,我国的生态环境相关指标表现不佳,在实现2030年目标过程中还存在很大的挑战。作为经济发展较快、人口集聚程度高,人类活动最为强烈的地区,长三角在我国经济发展中占有不可或缺的地位。但近年来,大气污染、植被锐减、土地退化等
现实世界中存在的各类关系均可以抽象成一个个网络,且都存在着一个共同的特性,即社区结构。它真实地反映了网络结构背后所蕴含的各类特征,如社交网络中潜在的兴趣小组、引文网络中的学科关联性、蛋白质网络中的潜在功能模块等。这类网络无时无刻不在变化,对动态网络的研究有助于更好地分析、预测网络中的个体行为,实现精准群体推广,大幅降低营销成本;发现、探索潜在关联关系,实现高效目标搜索,提高进程效率;理解、挖掘未知
随着互联网的快速发展与人们对于医疗资源和服务的需求不断提升,结合了人工智能和大数据技术的智慧医疗发展如火如荼。考虑到宫颈癌对女性健康的巨大危害以及早期筛查预防对于早期癌变检测的有效性,结合人工处理宫颈细胞样本图像费时费力的同时准确率也无法保障的现状,采用基于机器学习的宫颈细胞图像自动化处理技术具有重要的意义。针对真实环境下宫颈细胞图像存在的细胞重叠粘连较多、图像像素尺度极大、检测精度达到区域级别即
膜分离作为一种高效低能耗的环境友好型分离技术已被广泛研究及应用,其中膜的通量和截留作为评价膜性能的两个关键指标,对膜在分离应用过程有着重要影响。本课题基于多孔共价有机骨架材料(COF-LZU1),采用不同的设计方案,进行新型复合膜的开发及其在染料废水处理中的应用。首先,选用聚醚砜(PES)微滤基底代替传统超滤基底,采用界面聚合的方法室温条件下在PES底膜表面原位生长COF-LZU1,通过调节反应单
自上世纪九十年代起,信息无障碍就引起发达国家的注意。让更多的残障人士、老年人等信息获取弱势群体通过互联网获得平等信息获取机会、继续为社会创造价值,成为越来越多的国家推进信息无障碍的目标。我国的信息无障碍发展比发达国家起步晚,即使目前仍有差距,但是现在信息无障碍建设工作的开展在国内正在获得社会各界的重视和帮助,并取得了相应成就。公共图书馆网站作为一个蕴含无数数字信息资源的信息知识传播中心,肩负着缩小
长期以来,我国农业采取粗放型生产方式,农业经济发展建立在化肥、农药等生产要素高消耗、低利用和污染物高排放基础上,造成我国农业生态环境不断恶化,可持续发展严重受阻。因此,需要寻求生态友好的农业发展模式,突破当前农业发展面临的困境,循环农业遵循“3R”发展原则,保护生态环境,资源高效利用,是农业可持续发展有效模式之一。近年来,我国循环农业蓬勃发展,形成一些典型模式,需要科学依据评价这些模式应用的可行性
学位