基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别

来源 :电信科学 | 被引量 : 0次 | 上传用户:lcsuoboger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。
其他文献
<正>随着我国支付体系建设的日渐完善,银行卡业务得到了迅速发展,持有有透支功能的信用卡的人越来越多。为了抢占市场,提高发卡数量,各商业银行的发卡机构纷纷推出了例如集体
对于高等教育来说,对高校实验室的建设和管理进行加强具有极其重要的意义。笔者在本文中对当前高校实验室在管理上可能存在的主要问题进行简要分析,对能够使高校实验室管理得以
凭借被动成像的特性以及能全天时工作的优势,红外成像系统无论是在军事应用中还是民事应用中都逐渐得到越来越广泛的应用。然而由于红外焦平面阵列的制造水平和器件材料等方面的不足,红外焦平面成像具有固定的非均匀性,严重干扰了系统的成像质量。同时由于红外成像的机理,采集到的红外图像存在对比度差,细节不足等缺陷,会对后续的目标检测识别等处理造成很大的影响。因此,目前红外成像图像质量提升技术非常的重要和必要,具有
目的:建立三七总皂苷口含片含量的高效液相测定方法。方法:采用高效液相法进行梯度洗脱,色谱柱为Hypersil NH2(4.6mm&#215;200mm,5μm),流动相为乙腈-1%磷酸二氢钾溶液,流速为1.0mL/min,检
我国放管服改革以"遵循市场规律,激发市场活力"为目标,在教育领域,放管服改革推进了教育机构自主性发展。配合合理的教师激励机制,能够更加有效的发挥放管服对教育改革的促进
为了研究软、硬煤孔隙结构的差异性对煤与瓦斯突出的影响,采用压汞法对桂箐煤矿软、硬无烟煤进行试验研究,分析对比了软、硬煤孔隙结构特征,结果表明:软、硬煤进、退汞曲线均
本文采用增强学习算法解决城市道路拥堵环境下的车辆出行路径规划问题。与传统的监督学习不同,增强学习不会对决策器的输出直接评分,而是通过车辆选取行驶道路在交通道路环境中的反馈,在不断地道路选择探索的过程中,优化车辆的行驶策略,从而获得最大的累计效益。具体的研究工作如下:建立了基于增强学习的出行线路规划模型。模型以车辆为智能体,道路网络为交互环境,通过车辆根据环境状态不断探索找出车辆出行的最优路径。考虑
【正】 踢鼓秧歌流行于山西朔县、平鲁、山阴、右玉、庄云,忻州地区的宁武、神池、原平、代县以及内蒙古南部的托克托县、和林格尔、清水河、呼和浩特市南郊、包头、河套一带
<正>孤立性纤维性肿瘤(solitary fibrous tumor,SFT)是一种间叶来源的成纤维细胞间质肿瘤,确切的发病机制尚未完全阐明。SFT最早在1931年由Klemperer等[1]报道并提出,最初认为
提出一种利用变位产生莫尔偏折来测量溶液浓度的新方法,设计了一套光电探测系统,给出了测量蔗糖溶液的初步结果