基于深度学习的藏语唇语识别研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:QQainigirl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别(Lip reading)涉及图像,自然语言处理等领域,成为目前计算机视觉领域中的研究热点,通过从连续的唇部图像序列中对时空信息建模,获取特征信息,从而学习到对应的文本内容。唇语识别的运用场景多,可以用来帮助听力障碍者交流,用于嘈杂环境下的语音识别,还可以用于军事,公安侦查和破案。但是,要想得到准确的唇语识别需要克服很多困难。人在说话时会存在不同的姿态以及不同的光照条件会影响唇语识别,丰富的语言内容导致唇部运动变化多样也提高了唇语识别的难度,导致了目前唇语识别的研究进展缓慢。深度学习的研究离不开数据,目前公开的唇语识别数据集较少且主要是英文数据集。首先对目前主流的唇语识别数据集做了综述。其次,我国是多民族融合国家,语言种类丰富,为了给藏语唇语识别奠定良好的基础,本文构建了第一个藏语词级唇语识别数据集,命名为TLRW-50,数据集文本包含50类常用的藏语词语,经过数据预处理保存为一系列的唇形图片序列。并采用了色彩增强、添加高斯噪声、水平镜像、放大、旋转、裁剪六种图片数据增强的方法对唇形图片帧序列进行扩充。数据扩充前对唇语识别视频进行了主观评估。结合唇语识别的难点将D3D算法运用到藏语唇语识别中,该模型对特征提取器进行了改进,将Dense Net里的空间卷积修改为时空卷积,提高了模型的短时依赖建模能力,采用了联结主义时间分类(Connectionist Temporal Classification,CTC)损失,使网络自主学习,输入输出序列在解码的时候能够对齐。通过大量实验,最终在LRW-1000上Top-1分类准确率为34.28%,Top-5分类准确率为50.26%。TLRW-50上Top-1分类准确率为39.65%,Top-5分类准确率为56.73%。表明该方法可用于实现藏语唇语识别。采用了变形流网络来捕获人脸运动变化信息,生成藏语唇语识别视频中人脸的变形流,以自监督方式来训练。为了提高唇语识别效果,使用变形流和原始视频作为双流网络的输入进行计算,每个分支独立地预测每类词的概率。为了使两个分支在训练过程中进行信息交换,采用了知识蒸馏,并利用一个双向的知识蒸馏损失来帮助两个分支在训练过程中互相学习对方的预测。在测试时,融合来自两个分支的预测,以做出最终的预测。我们观察到,与使用任何一个单一分支的结果相比,融合两个分支的测试结果具有更高的分类准确率。表明两个输入源,原始视频和变形流,为唇语识别任务提供了互补的线索。
其他文献
解旋酶是一种利用源自ATP水解产生的能量来分离核酸双链体互补链的分子马达蛋白。Rec Q解旋酶从原核生物到真核生物都高度保守,并在维持机体稳定、保护基因组免受有害化方面起关键作用。WRN在分类上属于解旋酶超家族II中Rec Q亚家族的一类DNA解旋酶。在人体细胞中发现的五种Rec Q解旋酶中,WRN(Werner综合征蛋白),BLM(Bloom综合征蛋白)和Rec Q4的缺乏分别导致罕见的隐性遗传
根是陆生植物生长必需的组成部分,其生长和形态建成是植物发育中的重要一环,受多种内外环境信号和代谢途径的共同影响与调节。其中,染色质修饰起着重要的调控作用。组蛋白乙酰化与去乙酰化修饰是基因转录调控的关键机制之一,与基因表达的活跃和沉默密切相关。组蛋白去乙酰化酶(HDACs)作为在真核生物(包括酵母、哺乳动物和植物)中广泛存在的一个超基因家族,在调节植物生长、器官发育和逆境胁迫响应反应中起关键作用。前
本文主要研究了一类无穷区间上的最优控制问题,其中,状态方程由随机时滞发展方程(SDEE)给出,相应的伴随方程由一类新的超前倒向随机发展方程(ABSEE)给出.首先,文章拓展了It?公式的形式.其次,证明了无穷区间上SDEEs解的存在唯一性定理.第三,建立了ABSEEs解的先验估计,进而得到了无穷区间上ABSEEs解的存在唯一性结果.最后,以Pontryagin最大值原理的形式,建立了无穷区间上最优
表面等离极化激元是一种具有亚波长束缚特性的瞬逝波,它沿金属-介质表面进行传播,不仅可以突破光的衍射极限,还拥有对周围环境和结构介电参数敏感的特性,因而广泛运用于亚波长微型光电子传感器中。在基于表面等离极化激元设计的众多结构中,金属-介质-金属结构因其结构简单、易于集成,在亚波长光学器件中表现出良好的运用前景。Fano共振是连续亮态受离散暗态冲击而形成的。与洛伦兹峰相比Fano峰不仅能增强场的分布,
在当今这个大发展、大融合的社会,需要人们能够说一口标准的国家通用语,以便对话双方能够精准理解,因此提升国家通用语发音水平已经成了个人发展要求。近年来,随着中国西部大开发计划的实施,与内地的经济和文化交流不断加强深入,藏区经济得到了快速发展。在这样的大背景下,藏族人民对学习国家通用语的需求越来越大,有效的帮助藏语语者学习好国家通用语显得尤为重要。因此,有必要针对藏语语者说国家通用语的发音偏误自动检测
反刍动物子宫内膜炎多发生于分娩后,是由病原微生物感染引起的炎症反应。子宫内膜炎会损害子宫内膜和卵巢功能,从而影响胚胎发育和附植导致动物繁殖力下降。反刍动物的子宫内膜炎发病率高且发病原因复杂,致病微生物和其毒力因子是导致子宫组织损伤,引起子宫内膜炎症反应的主要原因。脂多糖(lipopolysaccharide,LPS)是子宫内膜炎致病菌大肠杆菌的主要致病因子,LPS进入机体能够激活TLR4/NF-κ
围产期奶牛能量需求增加与干物质摄入量减少导致的能量负平衡是诱发酮病和脂肪肝等能量代谢障碍性疾病的病理学基础。能量负平衡条件下,机体通过增加储备体脂的动员和分解以改善能量缺乏,致使围产期奶牛血液循环中非酯化脂肪酸(Non esterified fatty acids,NEFA)浓度升高。大部分NEFA进入肝脏氧化来产生能量,从而缓解机体能量负平衡。然而,当肝脏NEFA摄入量超过肝脏的代谢能力时则会产
随着现代经济社会的发展,人民群众物质生活水平的改善和提高,汽车变得越来越普及,人们对道路交通安全问题的关注持续提高,因此智能交通系统步入人们的视线并发挥着极大的作用。而交通标识检测是智能交通系统的核心技术,因此吸引了世界各国专家和学者的研究兴趣并进行了深入研究,并在驾驶辅助系统、无人驾驶技术等方面获得了大量的应用。交通标识是用文字或符号传递禁令、警告或指示信息的道路设施,通常设计为特定的颜色和形状
“互联网+”时代跨步而来,《教育信息化2.0行动计划》的蓝图随之跃然纸上,将人工智能技术应用于教育教学也成为了当今的一个热点话题。“智慧校园”正是在这一背景下应运而生,它将先进的教育理念和新一代信息技术相结合,有效促进了教育信息化的进步与发展。而“智慧课堂”作为教学第一现场,其核心地位也就不言而喻。传统的课堂教学模式往往离不开教师高强度的课上和课下双线工作,而且也面临着由于学生发展水平不均衡导致的
目前,乳腺癌已在很大程度上严重威胁着女性的生命健康,成为全球女性患病率和癌症死亡率最高的慢性肿瘤疾病。前期对乳腺癌的预防及检测,能够有效提高其治愈率,延长患者的存活时间。医学影像法是实现乳腺癌前期普查和诊断的有效手段,医生可以直接观察钙化点进行疾病的诊断,但是在人工进行钙化点检测时会存在着误诊和漏诊的情况。随着计算机辅助诊断技术(Computerized Aided Diagnosis,CAD)的