融合深度信息的汉语多模态语料库

来源 :天津大学 | 被引量 : 0次 | 上传用户:shashasimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别作为一种最早出现的人机交互方式,在几十年间获得了很大进展,其中,视听双模态语音识别技术对于复杂声学环境下的语音识别效果有显著的提升。标准的视听双模态数据库是开展双模态语音识别技术研究的必备数据基础,然而,相较于国外多样的视听语料库,国内对双模态语料库的研究还远远不够,已经公开的汉语双模态语料库存在着词汇量单一、音视频质量差等问题,并且二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响。本文将深度信息融入双模态语料库中,利用微软第二代Kinect多元传感器开发出一套多模态数据同步采集系统,并预先采集了小规模语料库,通过在该语料库的基础上进行的多模态实验证明,深度信息对于语音识别有很大的帮助。本文设计了语料自动选择算法,制作了无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集,并在专业的录音场景下采集了69位说话人的包含音频、彩色视频、深度图像、3D信息的多模态数据,最终建立了总时长达22.4小时、总存储空间为6TB的融合了深度信息的汉语多模态语料库。最后本文设计了基于多模态语料库的孤立词识别及连续语音识别基准实验,分析了深度数据对语音识别实验的贡献与价值。
其他文献
光照是影响植物生长发育的主要环境因子之一,对植物的形态变化、物质代谢以及基因表达具有重要的调控作用。LED是一种新型高效的节能光源,具有光质纯度高,光谱比例组合便捷和
太阳能光伏/热(photovoltaic/thermal,PV/T)集热器是将太阳能光伏组件与传统平板太阳能集热器组合起来,能够同时产生电能和热能的一种集热器。与单独的太阳能集热器和光伏模
背景:目前的研究表明乙型肝炎(HBV)感染与胰腺癌(PC)发病之间是否存在关联性仍然存在争议。本研究旨在研究两者间可能的关联。患者和方法:对2015.1.1-2017.12.31间于我院就诊确认的胰腺癌患者和符合对照组要求的患者按年龄和性别进行匹配及回顾性分析。通过测试血清样本中乙型肝炎表面抗原(HBs Ag),乙型肝炎表面抗体(HBs Ab),乙型肝炎e抗原(HBe Ag),乙型肝炎e抗体(HB
智能手机内置了丰富的传感器,可以感知与室内位置相关的信息。充分融合多种传感器数据,对提高室内定位精度有重要作用,成为近年来研究的热点问题。手机的磁力计可以感知地磁
无人机在人们的生活中占据着越来越重要的地位,而随着无人机在商业和军事上的运用,更是推动了无人机快速的发展。在不同的领域,无人机面临的任务是不同的。由于环境越来越复
近年来,随着超、特高压的发展,更多高压架空线路不可避免穿过各种复杂的地形地貌,越来越频繁的森林火灾严重威胁着电网的安全稳定运行。尽管国内外对流注放电的实验和理论研
微梁/微板是微机电系统(MEMS)的核心部件之一,多用于制作传感器、致动器和共振器等。一般MEMS器件的几何尺寸处于微米或亚微米级,在金属材料、复合材料、聚合物材料以及硅类
PPP项目自身有着交易结构复杂、项目利益相关者众多、项目周期长等特点,且PPP项目初始合同具有较高程度的不完全性,这使得交易方在签订初始合同时难以预料到所有潜在的再谈判触发事件,从而会导致PPP项目在实际实施过程中极易发生复杂的再谈判,进而会造成徒增交易成本、降低执行效率、项目破裂等负面影响。对此,本文将通过构建基于案例推理的PPP项目再谈判触发事件识别模型来规避PPP项目不必要的再谈判。首先,本
太阳能平板集热器和夜间天空辐射制冷装置在结构上较为相似,在工作时段上呈现互补特点,且都为可再生能源技术。如果将两者进行综合利用,不仅可以实现装置的多功能特点,还能实
超大规模集成电路、半导体技术、无线通信和微机电系统等技术的惊人进步和快速发展,为无线传感器网络(WSN)的发展铺平了道路。由于WSN部署的环境及传感器节点自身条件的限制,