基于中文发音视觉特点的唇语识别方法研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：jtls

【摘要】

：

随着深度学习的发展，唇语识别技术在英文方面取得了长足的进步，但中文无论是在数据集丰富性还是识别准确率上均存在一定的落差。通过分析中文发音的视觉特点，提出“视觉拼音”，意图规避中文在视觉表达上的歧义性；为了验证视觉拼音的有效性，建立了中文句子级唇语识别模型CHSLR-VP，该模型是一个端到端结构，其中以视觉拼音为媒介，将视频帧序列转换成最终的汉字语句。通过实验得出，相比于其他唇语识别方法，基于视觉拼

【作者】

：

何珊袁家斌陆要要

【出处】

：

计算机工程与应用

【发表日期】

：

2021年02期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

Human motion segmentation based on structure constraint matrix factorization

Dear editor,The human motion recognition based on the segmented datasets is a hot multidisciplinary research topic in the field of computer vision. However, in reality, the collected data is without s

期刊

基于深度学习的三叉神经区域自动检测及TensorRT加速

利用深度学习技术对颅脑核磁共振图像(MRI)中三叉神经区域进行自动检测可为后续三叉神经分割提供可靠的输入图像，从而有效解决人工筛选三叉神经对临床医生专业素养要求高、耗时长等弊端。采用YOLO网络用于自动检测颅脑核磁共振图像的三叉神经区域，为提高推理速度，系统性地评估了NVIDIA TensorRT框架在不同计算平台下的推理性能。实验结果表明通过YOLO目标检测网络能够准确检测出包含三叉神经的区域，

期刊

基于多尺度压缩CNN的表面缺陷快速检测

应用基于各种卷积神经网络算法的图像处理技术对表面缺陷进行检测识别，不仅可以降低人工的成本，还可以大大提高效率和准确度。但是，当前比较热门的图像处理技术普遍存在计算量大、存储成本高以及模型复杂等特点，与工业应用所要求的高实时性以及有限的计算资源相悖。因此提出一种基于多尺度压缩卷积神经网络模型（MC-CNN）进行表面缺陷快速检测，通过网络结构优化、知识蒸馏、网络修剪以及参数量化等压缩方法对网络进行多尺

期刊

基于深度神经网络的像素级别可见光图像配准

图像配准任务要求算法能够将不同视角、不同时间或不同传感器采集到的图像进行匹配，使其达到像素间的对准关系。图像配准是数字图像处理领域的一项关键技术，被广泛应用在医学影像诊断、遥感监测、立体视觉等领域。现有的图像配准算法中，借助图像采集设备参数的方法存在硬件内参难以获得或精度不够的问题，采用匹配图像特征计算图像单应性的方法存在对场景的深度信息利用不全的问题。针对这一现象，提出结合可见光图像与其深度信息

期刊

基于自注意力胶囊网络的伪造人脸检测方法

近年来，以换脸为代表的伪造视频泛滥，有效检测此类视频对保护个人隐私和维护国家安全具有重要意义。为了提高视频伪造人脸检测效果，本文基于可解释性好的胶囊网络，以Capsule-Forensics检测算法为基础，提出了一种结合自注意力胶囊网络的伪造人脸检测方法。该方法使用部分Xception网络作为特征提取部分，降低了模型的参数量。主体部分引入带注意力机制的胶囊结构，使模型聚焦人脸区域。最后使用综合多维

期刊

基于颜色复杂度和结构张量的恰可察觉失真模型

图像的恰可察觉失真（just noticeable distortion， JND）阈值是指人眼能够察觉的最小失真，用于去除图像/视频压缩中的视觉冗余。针对JND模型对颜色和结构特征利用不充分的问题，提出一种基于颜色复杂度和结构张量的JND模型。首先，计算图像的颜色复杂度，转换为与视觉敏感度相关的权值，和对比掩蔽模型结合以提升模型的准确性；然后，利用结构张量对局部特征进行表示，建立基于局部结构特征

期刊

基于超分辨率特征融合的工件表面细微缺陷数据扩增方法

针对缺陷检测中的表面细微缺陷难以检测问题，提出了一种基于超分辨率特征融合的数据扩增模型。设计了包含数据层(Data)、超分辨率特征提取与样本修复层(Super-resolution feature extraction and sample Repair，SR-Re)与数据扩增层(Merge-Augmentation，M-A)的三层结构模型。Data层完成样本划分，并以缺陷特征像元占比小于0.33

期刊

基于深度学习的图像抠图技术

图像抠图技术（Image Matting）是图像编辑技术的基础，广泛应用于影视后期制作和日常生活。基于深度学习的图像抠图网络，通过输入的原图和三元图来估计每个像素的α值。本文在原下采样上采样的图像抠图技术基础上，针对抠图数据集图片差异较大容易造成网络收敛较慢的问题，在每个卷积层后加入了BN（Batch Normalization）层，对输入数据进行归一化操作，加快模型收敛速度，同时参数更新方向更符

期刊

一种三点法求隐伏活动断层产状的计算方法

求解三点问题的传统方法是作图法。目前缺乏利用初等几何学求解三点问题的完整计算方法。基于三点法的原理,利用初等几何学知识推导了求断层面倾角、倾向和走向的计算公式。断层面倾角计算公式是以已知三点之间水平距离和三点之间高差为变量的代数表达式。断层面倾向或走向计算公式是以已知三点之间水平距离、三点之间高差和三点连线的方位角为变量的代数表达式。利用这些新公式易于编制计算程序。提出应用三点法求隐伏活动断层面产

期刊

基于单通道偏振系统的水下降质图像清晰化方法

针对水体浑浊情况下，水中悬浮粒子对光的吸收和散射作用造成图像模糊、对比度低等问题，提出一种基于单通道偏振系统的水下降质图像复原方法。首先，将偏振信息融入水下成像复原模型；其次，通过局部最小值滤波估算水下背景光图像，引入Stokes矢量原理计算偏振度，通过归一化互信息进一步优化偏振度信息；再次，采用形态学的方法重建图像自动估计水下无穷远处背景光值；最后搭建水下环境模拟平台，通过单通道偏振探测器实时获

期刊

基于中文发音视觉特点的唇语识别方法研究

与本文相关的学术论文