基于高效通道注意力机制的语音情感识别方法

来源 :信号处理 | 被引量 : 0次 | 上传用户:dtj77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降.本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰.由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达.本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验.在IEMOCAP上采用循环填充法的加权精度(WA)和非加权精度(UA)分别达到73.2%和70.9%,采用本文提出模型的WA和UA分别达到76.0%和73.4%.
其他文献
为明确可燃物床层结构特征对燃烧性评价的影响,以南方7种可燃物为例,在3种可燃物床层结构下,采用直接评价法和主成分综合评价法对锥形量热仪结果最大热释放速率(PHRR)、平均有效热含量(AEHC)进行测定研究,结果表明:受床层结构影响,7种可燃物的PHRR与AEHC相关性变差,且对采用PHRR和AEHC的可燃物燃烧性直接评价方法影响较大;不同可燃物床层结构下主成分综合评价方法受影响明显,3种结构条件下秩相关性差,表明基于一种床层结构的锥形量热仪结果,利用主成分综合评价法评价可燃物燃烧性有待进一步深入研究.
针对机场规划中忽视消防站布局而造成的资源浪费和降低应急救援效率问题,从单跑道、平行跑道、交叉跑道以及V型跑道消防站布局出发,以节约资源为前提,满足跑道消防责任区全覆盖,且尽可能减少责任区重叠,提出跑道区域消防站布局方法.研究发现:在特定条件下,单跑道、平行跑道以及交叉跑道均可以采用一个消防站保障跑道安全,而V型跑道很难由一个消防站保障跑道运行安全,可以将其视为两条独立运行跑道进行消防站布局.此布局方法可为跑道区域消防站规划提供理论依据.
采用PyroSim建立红松林地表凋落物层大空间模型,对凋落物层的燃烧温度、热释放速率、烟气浓度等进行数值模拟.取红松林地表凋落物进行试验,探究其燃烧与蔓延过程.结果表明,红松林地表凋落物层燃烧时温度在100~490℃;随着高度增加,温度下降幅度由剧烈逐渐趋于平缓;燃烧150 s时,热释放速率HRR达到7.5×105 kW,且有继续上升趋势;燃烧烟气中CO2体积分数达8%~10%;火场内流动风速为2 m/s时,烟气体积分数下降65%左右.凋落物燃烧温度曲线与模拟结果相似,采用PyroSim软件能够近似地模拟
深化消防执法改革以来,消防产品市场准入限制放宽,行业主管部门机构改革重组,各类因素导致过渡期消防产品存在市场准入门槛降低、流通渠道多元化、产品质量合格率下降等诸多问题.通过对消防产品质量相关数据进行分析,剖析问题原因,提出深化消防执法改革后以分段监管模式推动消防产品质量综合治理的方法,为解决现阶段消防产品监督执法存在的突出问题,有效改善不良市场竞争行为,净化消防产品市场提供参考.
以粤港澳大湾区为研究对象,分析作为国家重要战略布局的大湾区消防救援工作的现状、存在的问题和面临的挑战.在城市群消防规划缺失的情况下,探索超大城市群层面消防规划重构编制,落实国家重大战略的纵向贯穿,以创新突破为基准,力求提出具前瞻性、可操作性的发展建设路径,进而有力推动大湾区消防救援事业发展.
对我国近年来建筑结构在火灾中发生倒塌的部分典型案例及长时间火灾下未倒塌的案例进行了总结,介绍了倒塌监测及预警的流程及关键技术,总结了近年来国内外针对建筑结构火灾下的倒塌进行监测及预警的相关研究情况.分析表明,利用结构变形、温度、振动等特征参数进行倒塌监测及预警的相关研究较多,但仍处于理论研究阶段,距离实际应用仍存在很大距离;面向消防救援实战需求,便捷、易用、精准、有效的系统和多方法联用的倒塌监测及预警方法是值得关注的研究方向.
当前,随着城市发展进程加快、产业结构快速转型,浙南某市的消防安全工作在监管力量、基础设施、救援力量、数字管控等方面逐渐出现“四个不相适应”问题.结合工作实际,建议从强化顶层设计、健全治理体系、推进创新驱动、夯实基层基础、加强队伍建设等五大方面入手,推动该市消防工作再上新台阶.
针对基于时频掩蔽的分离方法在多声源场景下的分离效果不佳的问题,论文提出一种利用概率混合模型的理想比率掩蔽多声源分离方法.首先,利用冯·米塞斯分布对时频点处方位角估计进行拟合以及拉普拉斯分布对归一化声压梯度信号向量进行拟合,由此建立概率混合模型.其次,利用期望最大化算法对模型参数进行求解,估计各声源对应的理想比率掩蔽.最后,利用估计出的理想比率掩蔽,从麦克风采集信号中分离得到各声源信号.实验结果表明,与现有基于时频掩蔽的多声源分离方法相比,论文所提方法在欠定场景下具有更好的分离效果.
端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担.本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统.该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符.模型训练生成单一模型,其网络参数为所有语种共享.在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀.
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人.目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题.针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法.该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换.实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音