机器运作环境下用于人机交互的语音识别算法设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wf136156491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能的快速发展,使得工厂的生产方式日益智能化,人机交互在生产过程中的应用越来越广泛。语音是人机交互的一种重要方式。现如今语音识别技术已经逐渐成熟,在无噪音的场景下可以准确识别大多数语音指令。然而,工厂的环境不是安静的,会掺杂复杂多变的噪声,这对于语音人机交互会产生严重的干扰,降低语音识别准确率和生产效率。语音增强技术用于将纯净语音从带噪语音中分离出来,提高目标语音的清晰度和可懂度,从而保证人机交互的高效性。传统的语音增强和语音识别方法大多是基于统计估计的方法,方法简单且容易实现,但条件假设单一,没有考虑真实情况。而基于深度学习的语音识别和语音增强方法不必对语音做出任何假设,而是直接建立输入与输出的映射关系,经过多次训练后能很好地利用语音特征推理出目标序列。本文以嘈杂环境下用于人机交互的机械臂为对象,分析和研究语音增强算法和语音识别算法,并设计了基于语音识别的机械臂装配系统,实现其语音交互的功能。主要工作和创新点如下:(1)提出一种基于傅利叶门控卷积神经网络算法的语音增强模型,采用时间卷积模块、类似傅利叶变换和逆傅利叶变换的模块和门控卷积单元对带噪语音进行频域上的特征提取以及时间上的顺序建模,得到较好的纯净语音,有效实现混合语音在时域和频域上的去噪。(2)提出一种包含带有门控单元与残差连接的前馈序列记忆网络和带有交互算法的Transformer的语音识别模型,在声学模型上采用带有残差连接和门控单元的前馈序列记忆网络结构充分利用语音帧上下文信息得到目标音素或拼音,在语言模型上采用带有交互算法的Transformer模型提高音素到文字的推理性能。(3)将语音增强模型和语音识别模型应用到机械臂中,实现机械臂在其运作环境下的语音识别交互,用语音指令指挥其做出相应的动作,例如抓取零件、改变方位放下零件。
其他文献
卷积神经网络自问世以来一直在计算机视觉领域发挥着重要的作用,随着科学研究的进步和技术的发展,卷积神经网络能够胜任愈发复杂的任务。然而随之而来的后果是模型越来越复杂,参数量也在不断地提升,神经网络的训练和推理需要消耗大量的时间资源以及硬件资源。传统的通用芯片如CPU、GPU平台在处理复杂神经网络模型的问题上遇到了瓶颈,于是人们开始把目光投入到专用加速芯片的研究上。研究人员通过针对性的体系结构设计,采
近年来,智能传感器在人们的生活中占的比重越来越大,多传感器微系统在工业界受到广泛关注。传感器的模拟前端主要包括接口电路和模数转换器(ADC),其作用是将各种携带传感信息的非电或电可转换信号转化为电压\电流信号,最终输出数字二进制码。针对于特定架构和功能设计的模拟前端电路不适用于物联网无线多传感器节点系统,因为这些专用模拟前端无法有效利用高度集成微系统中的共享资源。在可穿戴智能设备、生物医疗电子设备
科技改变生活。普通传感器因为非智能化等原因将不能适应万物互连的智能时代。智能时代对传感器提出了更高的要求,因此智能传感器走入人们的视野。智能时代需要更加便携、高效的智能传感器,智能时代对智能传感器内部集成电路提出更高的要求。因为光互连技术能让智能传感器微型化、精准化、高效化,所以光互连技术将成为集成电路领域的研究重点。单片集成是智能传感器微型化和高效化的另一条件。目前的集成工艺多采用标准互补金属氧
人工智能神经网络已成为当下信息处理技术领域的重要发展方向,相对于软件实现人工神经网络,硬件实现人工神经网络有可以大批量并行处理数据的优势。目前大多数硬件实现的神经元电路由MOSFET器件构成,对于规模越来越大的人工神经网络,电路功耗问题日益严峻。随着器件特征尺寸不断减小,MOSFET器件在纳米量级下短沟道效应越来越严重,使器件功耗和性能恶化,限制了低功耗神经网络的发展。而基于量子隧穿原理的TFET
近年来随着人工智能AI(Artificial Intelligence,AI)领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C(Asynchronous Adavantage Actor-Critic,A3C),TRPO(Trust Region
移动机器人建图研究,是近年来快速发展的移动机器人领域中,最为基础与核心的技术。机器人要实现复杂环境下的精确运行,就要以高精度点云地图作为参照。机器人在环境中的自主运动过程可分为以下几个步骤:由各类传感器采集环境数据,将原始数据传输到工控机的机器人操作系统中,按预定规则进行数据运算处理,得到动作指令或姿态位置数据,其中动作指令被传输到电机驱动部分,姿态位置等数据则进行存储及下一步处理。本文提出了一种
随着电子产品的发展,需要满足更高的应用指标,在不增加变换器的体积和重量的前提下,我们不得不追求更高的工作频率来提高开关电源的功率密度。可是与此同时,高频率的开关使得开关损耗非常严重,还伴随着发热现象,其效率也不如人意,并且这也使得电磁干扰变强。为了解决这一问题,软开关技术得以出现,它的目的主要是降低开关的损耗。论文首先对谐振变换器的发展背景以及趋势做出了说明,然后对相关的理论知识尤其是软开关技术展
CAN是一种串行通信协议,开发之初主要用于连接汽车和卡车的传感器和电子模块,由于CAN总线数据传输的高可靠性,在各种电气领域上的应用越来越广泛。外部的雷击和ESD等电气瞬变会对CAN总线数据传输和硬件带来不可预知的损坏,因此,针对CAN总线就需要给出一系列的保护措施,比如在端口上加入TVS保护器件,基于此,文中重点开展了一款保护CAN总线的TVS二极管的设计和分析。主要工作如下:1、针对CAN总线
深度神经网络算法具有很高的精度,因此受到很多智能计算领域的关注。但是深度神经网络算法的高精度是以巨量的参数和计算量为代价的,这阻碍了大规模的神经网络算法应用在存储空间、能量和计算能力有限的智能硬件平台中。理论上,神经网络的剪枝技术可以大幅度的降低深度神经网络的数据规模和计算量。但是,由于经过剪枝处理的稀疏神经网络的数据具有不规则性,现有的硬件平台执行稀疏神经网络算法面临两个挑战。第一、数据的访存效
随着电子技术的发展,人们对于集成度高、效率高、功能多的的工业电子产品的需求越来越大。半桥变换器由于其结构简单,电压应力小于其它隔离式拓扑,在输入电压高于开关管耐压的场合有着广泛应用。本文着重于输出低电压大电流场景的应用,研究与设计了一款集成同步整流技术、应用于半桥拓扑的PWM控制器。本文回顾了PWM控制技术的原理和控制方式,由于电压型模式的抗噪能力强、调试电路较简单,故选择了电压型模式。并且为了提