基于语音识别的视频字幕自动生成系统设计

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:meiwanmeiliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,视频是重要的数据载体之一,对于非母语者或者有听力障碍的人,字幕可以有效地帮助他们理解视频内容。随着人工智能的迅速发展,视频字幕自动生成成为可能,应用的关键技术就是自动语音识别。传统语音识别方法结构复杂,包括声学模型、发音模型、语言模型三个模块,每一个模块都需要单独训练和优化,训练难度大且难以全局优化。因此,本文将研究重心放在了更有前景的端到端模型上。在语音识别领域的端到端模型中,基于注意力机制的编码器-解码器模型表现最出色,其利用神经网络的记忆能力完成输入到输出之间的映射。但是此模型在数据量不足的情况下,难以有效学习序列间的对齐。因此本文的语音识别模型基于联结时序分类器(Connectionist Temporal Classification,CTC)与注意力机制进行搭建,利用CTC的对齐能力辅助注意力解码器的解码。另一方面,使用基于自注意力机制的基础单元搭建解码器和编码器,相比递归神经网络,其时序特征提取能力更强,并且运算速度更快。根据语音识别的特点,在编码器和解码器的输入端,分别采用二维卷积单元和一维卷积单元用于维度调整和位置编码。此外,为了增强模型语言建模能力,受到其他数据增强方法的启发,提出基于词掩蔽的数据增强方法,在模型训练过程中,以词为单位掩蔽部分频谱特征,提高模型的语言建模能力。通过该方法,在数据集Libri Speech-clean-100上进行初步训练后,在Dev-other和Test-other测试集上的词错误率分别降低了2.4%和2.5%。基于上述方案,最终模型在包含自制数据集的综合数据集上词错误率仅10.3%。基于上述研究成果,结合视频字幕生成场景,本文设计并实现了基于语音识别的视频字幕自动生成系统,并且利用多种分布式中间件构建计算集群,高效协同完成字幕生成任务。进一步验证了本文模型与改进策略的实用性。
其他文献
随着数字经济的蓬勃发展,以及大数据分析技术的迅速广泛应用,更多的发达国家意识到信息是事关各国核心竞争力的关键战略资源。习近平总书记在针对中国大数据发展的系列重要讲话精神中提出,要坚定地将中国大数据发展战略行动向纵深推进,建设以数据为关键要素的数字经济社会,抓住中国信息技术革命的重大历史机遇,积极培养创业新动力,努力开拓国际数字合作新局面,为中国经济社会发展指出了方向,也指明了基本遵循。同时,商业银
目的 评价个体化3D打印导板辅助骶髂关节螺钉置钉治疗骶骨骨折的安全性及临床效果。方法 回顾性分析2018年1月至2021年6月江西省人民医院采用3D打印手术导板引导骶髂关节螺钉内固定治疗的10例骶骨骨折病例资料,男8例,女2例;年龄19~62岁,平均(34.72±12.45)岁;DenisⅠ区骨折4例,DenisⅡ区骨折6例。术前采用3D打印技术获得骶骨骨折模型和骶髂螺钉置钉导板,术中通过导板辅助
“景德镇的民窑青花瓷器生产无论是在地理位置、自然资源、抑或是在人文历史环境方面,都有其得天独厚的优势”。明代时期的景德镇民窑得到了空前的发展,青花写意作为明代陶瓷绘画艺术的代表作品体现着中国传统写意画的文人精神,蕴含着中国传统哲学的美学思想。笔者分别通过留白构图、青白色彩、题材、意境、气韵的艺术审美,分析明代景德镇民窑青花写意作品之美。
目的:通过生物信息学分析,探讨上皮间质转化(EMT)相关的长链非编码RNA(lncRNA)在乳腺癌中的预后作用。方法:从TCGA数据库下载乳腺癌的转录组数据及临床信息,在MSigDB数据库下载EMT相关基因的数据集,然后利用差异分析、共表达分析、Cox回归分析、Lasso回归分析、生存分析等生物信息学方法,构建乳腺癌中EMT相关lncRNA的风险特征,并进一步检验其预测效能。结果:乳腺癌肿瘤组和正
POE教学策略主要由预测、观察和解释3个教学环节构成.运用POE教学策略探索兴奋在神经元间的传递,实现对学生前概念的探查和有效转变.
本课题运用层次分析法对农村信用社改革7年来的绩效进行了客观评价,并针对阻碍本轮改革最终目标实现的"瓶颈",提出促进农村信用社可持续发展的总体思路及在制度架构、法人治理、市场定位等方面的建议。
目前,农产品安全检测技术存在仪器成本高、预处理过程繁琐、操作费时等诸多问题[1],因此,建立一种快速、准确、灵敏的农药残留检测方法非常重要。本工作中,我们基于双模板分子印迹聚合物(MIP)和Ag纳米线@ZIF-8构建了一种新型电化学传感器,用于两种农药2-苯基苯酚和嘧霉胺的同时测定。在此,Ag纳米线@ZIF-8可用来提高传感能力,MIP膜可提供特异性识别位点。在优化条件下,该传感器检测2-苯基苯酚
本文以重庆轨道交通10号线二期兰花路站~南湖路站区间隧道非对称三跨大断面段为研究对象,对其稳定性展开研究。通过理论分析、数值模拟与施工现场实测对隧道围岩压力、隧道围岩与支护结构应力应变、净距以及开挖顺序等内容进行了研究。主要研究成果和结论如下:(1)结合普式理论,通过截面形心这一手段分析非对称三跨小净距隧道附加围岩压力的非对称性质,综合考虑了三种附加围岩荷载作用模式的情况,提出了两种竖向围岩压力作
目的 探讨黄芩苷对游离脂肪酸诱导的非酒精性脂肪肝性肝炎(nonalcoholic steatohepatitis, NASH)细胞模型中甘油三酯积累和炎症的影响,以及与TLR-4调控的凋亡信号通路的关系。方法 制备NASH细胞模型后,用不同浓度的黄芩苷作用于后,通过油红染色观察NASH模型内脂质的含量,通过流式细胞术检测NASH细胞凋亡情况,通过WB及PCR法检测了TLR-4/Caspase-3信
2020年,在党和人民的共同努力下,我国如期完成脱贫攻坚任务,消灭了绝对贫困和区域性整体贫困,但心理贫困在短时间内却难以消除,现阶段部分农民还存在认知偏差、意志力不足等贫困心理问题,如何矫正农民贫困心理,帮助农民心理脱贫,乃是巩固脱贫成果,推进乡村振兴战略的重要任务。