【摘 要】
:
随着科技的发展,车载语音交互设备的广泛使用取代了原始电子车载设备的手动控制方式,在很大程度上提高了驾驶员的专注度,保证驾驶的安全性。但是由于行车过程中车载环境复杂多变,导致语音交互指令的识别正确率降低,严重影响语音交互过程的体验。因此,从复杂的行车环境中,抑制噪声的干扰并分离出目标说话人语音尤为重要,目前已成为人们研究的热点。论文的主要工作是针对车载环境下,对单通道和多通道的语音分离算法进行研究与
论文部分内容阅读
随着科技的发展,车载语音交互设备的广泛使用取代了原始电子车载设备的手动控制方式,在很大程度上提高了驾驶员的专注度,保证驾驶的安全性。但是由于行车过程中车载环境复杂多变,导致语音交互指令的识别正确率降低,严重影响语音交互过程的体验。因此,从复杂的行车环境中,抑制噪声的干扰并分离出目标说话人语音尤为重要,目前已成为人们研究的热点。论文的主要工作是针对车载环境下,对单通道和多通道的语音分离算法进行研究与实现。首先,论文阐述了语音分离的基础理论和几种主要的语音分离算法,并介绍了麦克风阵列的基础理论和语音分离的性能评价准则。其次,针对频域算法对语音特征提取时,卷积神经网络提取的语音特征感受野较小,提取的特征仅包含局部信息等问题,论文给出一种结合卷积注意力机制的单通道语音分离算法。该算法的主要思路是对语音信号进行短时傅里叶变换,将变换得到的幅度谱信息以及相位谱信息分别输入到双流模块中进行处理,使用卷积注意力机制分别从不同的维度提取语音信号的全局特征。最后,将幅度谱特征输入到GRU网络中进行训练,将训练得到的增强的幅度谱与相位特征结合得到目标语音。实验结果表明,与LSTM比较,网络的参数量大幅度减少。在车载环境下,改进后算法在高信噪比时取得较好的性能,语音的质量和可懂度有一定的提高。在非匹配噪声的条件下,算法的鲁棒性较好。最后,考虑到频域算法应用短时傅里叶变换提取信息时存在误差,论文对基于时域的Wave-U-Net网络进行改进以增强算法的性能。首先将注意力机制与Wave-U-Net网络结合,减少浅层模块学习到的低级特征与深层模块学习到的高级特征相连引起的语义鸿沟。针对均方误差损失函数不能较好的处理异常点值问题,采用平均绝对误差损失函数,保证收敛速度的同时,提升异常点的鲁棒性。实验结果验证了算法的有效性。
其他文献
随着《中国制造2025》战略的逐步落实,国内制造业的发展越来越趋向于信息化与智能化,在药芯焊丝生产车间如何实现对拉丝机生产线设备的优化管理是该行业转型升级过程中急需解决的问题。目前,药芯焊丝生产车间虽然实现了生产过程的自动化,但是车间信息化建设仍处在较低水平,生产过程中的关键信息采集、产品信息记录、设备运行调度等均依靠人工完成。因此设计开发出一套拉丝机生产线设备管理系统对药芯焊丝生产行业的进一步发
随着现代工业进程不断的发展,大量含有铅离子(II)的废水排放到环境中,不仅影响了水中动植物的生存环境,而且威胁着人类的健康,造成极大危害。吸附法因为成本相对较低,操作简单,是处理水中重金属离子的常用方法。MCM-41分子筛是一种介孔二氧化硅材料,具有比表面积大,孔道结构规则,优良的化学稳定性及热稳定性等优点。因此,MCM-41介孔分子筛可以作为吸附水中Pb2+的吸附剂,但是纯硅MCM-41对水中的
“中国制造2025”战略的提出对我国产品的生产质量提出了越来越高的要求,计算机视觉理论的诞生为产品的尺寸检测开辟出一条创新型道路。在工业生产检测目标的过程中,外界的光强或者目标物体本身的属性会造成所采集到的图像存在全局或者局部低对比度的现象,致使无法精确地检测出物体的轮廓和特征点。针对这一现象,开展基于双目视觉低对比度三维几何参数测量方法的研究,主要完成以下几方面的工作:首先,介绍双目视觉研究的背
装配式建筑即构件通过工厂生产预制、运输和现场组装以实现快速建造的一种环保、绿色的建造模式。装配式建筑是建筑工业化的发展方向。根据绿色、节能、发展的理念,装配式建筑是房地产及建筑企业发展市场细分和提升竞争力的必由之路,这一选择也是实施第十九届中国共产党全国代表大会赢得“蓝天防卫战争”的重要一步。我国的预制建筑物的成本高于常规浇筑式建筑物,其中利润是企业发展的血液和生命线。在此阶段,成本过高是限制预制
随着定位技术的快速发展,室外定位导航系统的应用需求已经无法满足人们的生活所需,所以室内定位系统成为基于位置信息服务的重要研究对象。在室内定位中Wi Fi技术、蓝牙技术、基于惯性传感器的行人航迹推算定位技术、超宽带定位技术等都是室内定位的关键技术,Wi Fi网络已经实现大面积覆盖,具有传输距离远,组网简单,可变动性强等优点。蓝牙信标具有便于部署,功耗相对较低。因此,利用Wi Fi技术和蓝牙技术应用到
在互联网、智能移动设备、基于位置的服务软件、GPS服务的高速发展的背景下以及人们对基于位置服务的需求,进而产生了大量的基于位置的行动数据。这些基于时空轨迹的数据也极大的推动了社交网络的发展。有效的利用和挖掘这些时空数据内蕴含的信息是现实生活中亟需解决的问题,这能在现实生活中给企业带来巨大的利润,而且也能给用户增加个性化的服务体验,增加用户使用软件的粘稠度。而且在对移动行为建模和行为预测问题等问题上
近年来,随着智能设备越来越多地融入日常生活,语音合成被广泛应用到各种场景中,凭借人工智能技术和计算机技术的发展,语音合成系统的效果逐渐提高,但现有的语音合成系统合成的语音与生动活泼、感情丰富多彩的人类语言在语音的自然度、可懂度方面还有相当大的差距,并且现有的语音合成算法结构复杂,极大的限制了自身应用场景。因此在人机交互领域,语音合成技术的研究是一个重要课题。论文围绕着端到端的语音合成方法,针对语音
熔铸法成功地制备出了Al-P合金变质剂,并显示出对过共晶铝硅合金具有很好的变质效果。针对如何充分发挥Al-P合金变质剂对过共晶铝硅合金的变质效果的问题,本文以Al-18wt%Si合金为研究对象,采用水淬法制备的P含量为0.92%的Al-P合金对Al-18wt%Si合金进行变质处理。首先研究变质温度、时间和加入量对Al-18%Si合金变质效果的影响规律,在此基础上确定Al-0.92wt%P合金变质A
目前,随着科技和世界工业化的迅猛发展,尤其是现代自动化控制水平的不断提升,关于轮腿混合式四足机器人、含腰关节四足机器人的研究越来越多,轮腿混合式四足机器人兼具轮式和腿式两种机器人的优点,含腰关节四足机器人在爬坡、转弯等情况下运动更加灵活。因此,本文提出一种结构更加丰富的四足机器人,该机器人不仅具有轮腿机构和腰关节机构,而且还有能够改变宽度的躯干结构,其主要由腰关节、躯干和机械腿三部分组成,其中腰关
近年来,AI、计算机视觉成为热点话题,引起大量专家和研究人员的密切关注,引发了对其进行广泛并深入研究的热潮。在无人驾驶、智能安防、人机交互等计算机视觉领域的任务中,行人检测和跟踪是其中的核心技术。在视频监控中,行人是重点的关注对象,目标跟踪算法层出不穷,其中,行人跟踪算法占据跟踪的主流,是当今研究的热点,具有非常鲁棒性的行人跟踪算法一直是研究的难点。由于行人不是一个固定姿态的目标,跟踪时,行人之间