基于语音理解短视频字幕生成系统的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:Ricky_C
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,短视频行业的兴起,使用短视频进行传播信息也越来越多。短视频比传统文字和图片传递的消息更丰富,而且易于理解。但是对于大部分短视频来说,没有相应的字幕,这对很多需要字幕的人来说无疑是个难题,例如听力障碍或者语言障碍等人群。而且通过加一些特效字幕,能提升视频的观赏性。随着教育行业的兴起,英语教育也是一个很重要的部分,提供英文字幕和中文字幕对于这些教育视频来说也是非常重要的,用户可以通过字幕,很容易理解视频内容。此外,由于短视频业务字幕编辑困难,而且需要字幕和语音在时间上同步,对于需要字幕的视频编辑用户来说也是比较耗时的操作,而且手工操作会存在一定的误差。因此本文主要阐述了基于语音理解的自动字幕生成系统,该系统为用户提供自动字幕服务,不仅支持中文字幕,而且支持英文字幕,节省用户大量时间,提升用户的体验感。该系统主要的功能模块包括ASR语音识别模块、AED语音事件检测模块、任务调度模块、ITN数字标准化模块、自助测试模块、字幕模块、API Gateway模块等。本文不仅对系统功能性需求进行详细的描述,对非功能性需求也进行深层次的介绍。其次,对系统的总体架构和层次架构做一个全面的阐述。之后,描述ASR语音识别的特征提取算法MFCC,语音识别模型LSTM+CTC。之后对各个模块涉及到的算法进行详细介绍,对于任务调度模块使用的是拓扑图结构相关算法,对于API Gateway模块使用的是平滑加权负载均衡算法,对于自助测试模块使用的是ARes加权蓄水池抽样算法和编辑距离算法,对于字幕模块使用的是AC自动机多模式匹配算法。该项目使用大量的传统算法,说明了传统算法应用也非常广泛。对于语音识别、语音事件检测,机器学习深度学习在该领域能达到非常好的识别效果。本项目使用传统的C/S架构,使用Linux操作系统、C++语言作为服务器开发,使用python作为客户端开发,使用多集群部署保证系统的可靠性,使用redis作为缓存、hive处理大数据等等。通过Thrift rpc和http来处理请求,通过API Gateway来分发请求到相应的机器上,减缓了系统的压力,保证系统的高可用性。本项目已经在多个短视频软件上提供服务,用户可以通过使用自动字幕系统方便快捷的编辑短视频,为短视频添加字幕。
其他文献
单轨迹车辆包括自行车、摩托车等,由于其机动灵活性和环保性,被广泛应用于交通、竞赛以及军事等方面。相较四轮的乘用车和商用车来说,尽管单轨迹车辆承载着最危险的道路用户,
尽管光学成像领域取得了快速进展,但大多数先进的微结构成像测量设备仍然存在结构复杂和价格高昂的问题,这限制了其在实验室之外的使用。与此同时,资源受限环境中与先进完备的实验室所使用的观测方式,应具有明显不同的定位与要求。在资源受限环境中的这种成像设备应该具有成本低,体积小,重量轻,适当精确,易于未经培训的普通人操作使用的特点。本课题“分波阵面无透镜数字全息技术研究”的目的就是试图设计一种适用于资源受限
背景与目的:累及穿支血管非急性颅内大动脉闭塞是缺血性脑血管病的病因之一。尽管针对累及穿支血管非急性颅内大血管闭塞的药物治疗和介入手术治疗技术不断完善,但正规药物治疗失败后症状性非急性期颅内大血管闭塞,特别是穿支血管丰富的基底动脉(BA)与大脑中动脉(MCA)完全闭塞是否选择血管内治疗尚不明确。我们的研究目的是评估这些患者的血管成形术与支架置入术后中期随访的预后及其影响因素分析。方法:回顾性收集20
随着司法改革的不断深化,我国法治建设取得了突出成就,在理念和制度层面都越来越现代化。近年来刑事诉讼领域的司法改革更是十分密集,检警关系的理论研究面临着崭新的现实语境和时代背景。在多重的司法改革环境下,检警关系研究需对现实进行回应,密切关注到司法改革带来的变化和需求,在新的起点上,探析检察职能和检警关系的新格局。本文主要是以目前刑事诉讼领域的多重改革为背景,以检警关系的现状考察为实践根据,以世界范围
本文依托于国家自然科学基金项目——“基于连续震源的煤层反射式槽波精细探测理论”进行了槽波传播特性分析方法的研究,在利用槽波进行煤层探测时,一方面,随着传播距离的延长槽波出现能量逐渐衰减的现象,导致难以实现槽波远距离探测;另一方面由于波型的转换以及波列拉长的问题,导致接收槽波严重失真,给接收槽波的分析带来了难题。针对上述问题,本文在研究了槽波的形成及其分类的基础上,分析了槽波形成过程中弹性波在煤围岩
随着深度学习的发展,目标检测技术取得了重大的突破,涌现出很多优秀的卷积神经网络模型。这些模型大部分计算量和体积都很大,只能运行在高性能的服务器上。然而目前人们在移动终端上对目标检测有着巨大的需求,受限于移动设备的计算资源和电池容量等问题,要求检测模型在满足检测准确率的条件下,需做到足够小、足够快、足够稳定。因此,本论文将在研究已有检测模型的基础上,从模型的稳定性、轻量化设计及提高检测准确率等方面进
海洋石油开采、船只泄漏、非法排污以及天然石油渗漏都给海洋生态环境和自然资源带来重大损失。为了有效解决海洋溢油问题,遥感手段在溢油检测中发挥关键作用,其中合成孔径雷
我国煤炭存储量极其丰富,其产量位居世界第一。我国更是煤炭消费大国,煤炭消费占我国五大能源体系消费总量的70%左右,在未来相当长的时期内,煤炭的主体能源地位不会改变。在煤炭开采过程中,会引起采区上方地层的逐步下沉,进而造成了地层的离层现象,而离层周围的岩石达到极限后会失稳破断,严重威胁了工作人员的生命安全,因此非常有必要对离层进行实时监测,一旦发现异常立即报警。而传统的离层监测方法只是针对顶板岩层的
近年来,利用金属微纳结构的等离激元模式与荧光分子或量子点等发光体发生耦合作用,从而调制其发光过程的研究受到了广泛关注,在生物传感、光通讯以及集成光子学等方面有重要
由于石油等燃料属于不可再生能源,而如今汽车的保有量一直呈现增长趋势,因此电动汽车技术成为解决能源与环境危机的必然发展趋势。相对于集中式驱动电动汽车,分布式驱动的传动方式可以明显体现出更加良好的动力学操控性,高传动效率以及简化的系统结构,于是分布式驱动电动汽车逐渐开始变成研究热点。本文以四轮独立驱动电动汽车为研究对象,对纵向动力学控制进行研究。利用分布式驱动汽车四轮转矩可独立控制的特点,考虑轮胎的动