基于深度学习的视频语音提取文本系统设计与实现基于深度学习的视频语音提取文本系统设计与实现

来源 :电子乐园·中旬刊 | 被引量 : 0次 | 上传用户：songshuguiyu00

【摘要】

：

摘要：伴随人类社会步入信息化时代，多媒体技术在网络教学当中应用范围愈加广泛，并且，在新冠疫情时期，网络教学自身优势得到充分发挥，但是，现阶段市面上的线上视频编辑平台功能单一，且效率不高。基于此，本文将主要以深度学习为基础，针对视频语音提取文本系统的设计与实现展开探讨。关键词：深度学习;音频语音;文本提取引言：语音识别技术在过去的几十年中取得了一定的发展，目前，大部分语音识别是基于在线云服务平台和电子计算机，嵌入式终端设备采用的离线语音识别技术并不完善，不能满足移动机器人、声控机械设备等在离线终端设备语音识

【作者】

：

彭长岭

【出处】

：

电子乐园·中旬刊

【发表日期】

：

2021年3期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

摘要：伴随人类社会步入信息化时代，多媒体技术在网络教学当中应用范围愈加广泛，并且，在新冠疫情时期，网络教学自身优势得到充分发挥，但是，现阶段市面上的线上视频编辑平台功能单一，且效率不高。基于此，本文将主要以深度学习为基础，针对视频语音提取文本系统的设计与实现展开探讨。

关键词：深度学习;音频语音;文本提取

引言：语音识别技术在过去的几十年中取得了一定的发展，目前，大部分语音识别是基于在线云服务平台和电子计算机，嵌入式终端设备采用的离线语音识别技术并不完善，不能满足移动机器人、声控机械设备等在离线终端设备语音识别要求。

1研究背景

在线远程教育市场持续发展，该领域的教育平台百花齐放，但大多缺乏竞争优势，传统视频解决方案服务平台功能单一，效率较低，用户实际操作复杂，在激烈的市场竞争中，视频语音采集和语音识别功能的开发设计，完成快速的文字转换，提高课堂教学视频的质量，无疑将占据有利的地位[1]。功能齐全、操作简单的视频、视频、语音采集，不仅能以高视频质量吸引学生，也能以优秀的用户体验吸引教师，本系统的开发设计，必将推动互联网科技教育云平台的快速发展。音视频语音采集文字系统软件的首要目标是准确编辑教师教学课堂视频、视频和语音。系统软件智能分为网页和网站后台管理。智能管理系统，网页向教师展示视频仓库控制模块、视频剪辑控制模块、视频编辑控制模块、语音识别技术控制模块、审理控制模块、个人中心控制模块的功能。

2系统总体架构

系统主要由麦克风、音频编解码集成ic、嵌入式CPU、PC四部分组成，麦克风采用MP34DTO1TR规格的MEMS数据麦克风，完成视频和语音信号的记录和采集，输出PDM文件格式的视频信号数据信号;音频编解码集成ic采用WM8994EC超功耗低质保码解码集成ic，用于接收麦克风输出的视频信号数据信号，解压后将数据信号编号输出到嵌入式CPU;嵌入式CPU采用STM32F746NGH6规格的嵌入式MCU，根据集成ic的SAI插座与音频解码集成ic连接完成对输入的音频数据信息的识别，并将识别结果输出到串口端口通讯;由于嵌入式服务平台资源相对有限，无法满足基于深度神经网络的声学材料模型练习的要求，因此使用PC来完成声学材料模型的练习[2]。

3语音功能实现及算法分析

3.1语音识别实现

在语音识别方面，从动态时间整洁模型，到混合高斯函数-隐马尔可夫模型，再到使用机器学习的端到端语音识别模型，最终百度搜索开源系统的PaddlePaddle架构被选中，在DeepSpeech2的基础上开发，选用端到端语音识别技术，应用CTC损失函数，采用双层CNN、RNN深度神经元网络模型进行训练。与传统的DNN/HMM语音识别相比，有很大的命中率和效率提升[3]。一、svm算法：将视频和语音数据库查询中的音频特征提取为电子计算机可以识别的空间矢量数据信息，是进行验尸神经元网络练习的基础，在获取特征时，有两个常用的状态参数作为获取模板的关键，即线性预测分析指数（LPCC）和梅尔倒谱指数（MFCC），LPCC的主要概念是通过多个历史时间和时间信号的线性组合，可以使当前时间数据信号成为可能。MFCC是源自人类听觉系统研究扩声功能，它采用同态求解的方法得到音频数据信号的离散变量傅立叶变换的对数，然后逆变换得到倒谱指数，与MFCC相比，LPCC的完成更容易，响应速度也快，同时，也会对特征解析的信息进行指标值归一化、预处理等实际操作。其次，声学材料模型：一个好的优化算法模型可以逼近基础理论的极限，团队对语音识别的技术性进行了调研，选取了学术界时尚的识别框架和新颖的工艺，并结合具体的业务流程，改变了训练集，完成了课堂教学视频的语音识别系统。

3.2声学模型训练与移植

声学材料模型练习使用Google语音命令数据集作为训练集，应用Tensorflow架构中标准化的交叉熵损失和adam优化器进行练习。大batch size为100，模型更新20000次迭代，原始学习率为5×10-，前10000次迭代后降为10-4。运动数据信息改善环境噪声和任意时移可达100ms，以模拟复杂的环境，提高操作系统的可扩展性[4]。使用ARM开发设计的深度神经网络库amnn创建DS-CNN神经网络架构，将声学材料模型练习得到的各种模型的主要参数键入结构的相应部分。之后创建新的嵌入式项目时，可以移植已经进入声学材料模型主要参数的DS-CNN神经元网络，就可以移植声学材料模型。

4系统设计与实现

4.1后台管理系统

（1）登录模块：后台管理人员输入账号和登录密码完成信息的实际操作。（2）首页模块：在该模块中，还可以对网站系统日志进行查询和管理，并根据浏览量、用户总数、用户在线时间、收入、信息、订单信息等信息进行查询和管理等根据比率图、直方图、折线统计图进行数据可视化，简单明了，提高了管理员对信息的理解。（3）管理信息系统模块：管理信息系统分为用户管理方式和人员角色管理方式，审批用户资料，维护服务平台一般用户和VIP会员用户的资料信息内容。（4）视频存储管理模块：该模块分为三个模块：视频文档管理、用户视频个人收藏、用户变更历史时间管理。能够管理用户的各种类型的视频。（5）语音识别管理模块：网站管理员对用户的声音模型进行管理，保证用户可以在网络平台上选择声音模型完成语音识别。最后，课程内容视频基本不变，提高了学生的课堂体验。（7）审理管理：用户审理信息的管理。

4.2用户Web端

（1）新增用户注册控制模块：门户服务于教师和客户。简单的大数据可视化方式，可以轻松唤起最复杂的操作流程，为用户带来简单合理的管理员账户操作流程管理方法。（2）视频库控制模块：视频库控制模块给出了视频文件格式管理方法功能。客户还可以进行提交、一键下载、删除视频文件格式等操作。此外，控制模块还产生采集、访问、分类等功能。其他省时省力的功能。（3）进一步提升客户体验和工作效率。同时客户可以返回列表页面对所有切片进行监管操作流程，实现简单的xml分析和检查。（4）视频加载控制模块：视频加载控制模块是该方向的重要控制模块，可以将视频分片，获取文字提示和错误的音频集锦。不正确的音频更改包括两种方法：文本智能语音系统系统生成和音频替换。（5）语音识别技术控制模块：一般的文字转语音都有非常明显的机器设备视频和视频语音情况。为了更好更快地满足消费者的感受，新的语音识别技术的使用带来了多种智能语音系统软件实物模型供客户选择，从而达到更细致、更具体的更换实际效果[5]。（6）个人中控模块：客户还可以在个人中控模块中查看个人隐私信息的内容。如果遇到问题，可以通过帮助中心综合服务平台的助手了解问题。

结语：

本文明确提出了当今视频编辑服务平台、整体项目设计、实际语音识别建立方案中存在的一些难点问题，集成k8s和服务网格，完成云端省时省力部署，真正保证语音识别的准确性和效率，实时音文本转换，多种视频传输文件格式，一键切片省时省力，审理信息多元化呈现，用户数据信息形象可视化、服务平台助手正确引导提醒，用户应用方便高效等特点，最终将提升在线教学视频的质量，推动文教行业大数据、智能化、智能化系统的转型发展，以全步骤的数据信息聚合和整合，完成高效的数据共享。

参考文献

[1]姚錦江，程允权. 基于深度学习的视频检索系统设计与实现[J]. 计算机测量与控制， 2019， v.27;No.249（06）：237-241.

[2]许业宽，黄鲁. 基于深度学习的嵌入式离线语音识别系统设计[J]. 信息技术与网络安全， 2019， 38（04）：67-70.

[3]张千，王庆玮，张悦，等. 基于深度学习的文本特征提取研究综述[J]. 计算机技术与发展， 2019（12）：61-65.

[4]梁建胜，温贺平. 基于深度学习的视频关键帧提取与视频检索[J]. 控制工程， 2019， 026（005）：965-970.

[5]胡婕，陶宏才. 基于深度学习的领域问答系统的设计与实现[J]. 成都信息工程大学学报， 2019， 034（003）：232-237.

其他文献

电气自动化在电气工程中的应用探讨电气自动化在电气工程中的应用探讨

摘要：电气工程自动化设备的质量决定着电气系统的运作速度与效率，因此，智能化技术对电气设备系统起着决定性因素的同时也是电气设备控制的核心因素，是我国电气工程行业的重要发展方向。所以我国应该重视电气自动化与智能化技术的双面提升，从而保证我国的电气质量，为国家未来的基础建设奠定良好基础，并进一步做出重要贡献。关键词：电气自动化;电气工程;应用分析一、论智能化技术在电气工程自动化中的作用（一）为电气自动化的稳定运作奠定坚实的基础健全的电气自动化工程包括多种设备线路的集成以及由不同的部分组成，因此在设计管制模型时要

期刊

高压电气设备的电气试验及安全管理理念的应用实践微探高压电气设备的电气试验及安全管理理念的应用实践微探

摘要：随着人们的生活水平的不断提高，对于高压电气设备的要求越来越严格，为了确保整个电力系统能够规定的运行，就必须对高压电气设备进行电气试验，只有这样才能够真正的提高安全性能。在整个实验过程当中存在较多的危险因素，所以必须强调安全管理理念，切实地做好安全保护措施，从而提高整个供电的综合效益。关键词：高压电气设备;电气试验;安全管理;综合效益对高压电气设备进行试验工作，检查并且准确判断设备的安全性能以及运行状况。只有这样才能够真正满足市场的实际需求，并且有效地提高供电的稳定性和安全性，做好电气设备绝缘性能的检

期刊

氯雷他定治疗慢性荨麻疹93例临床疗效观察

期刊

协同0A系统在企业集团中的设计与应用协同0A系统在企业集团中的设计与应用

摘要：协同0A系统是现代化一站式办公自动化管理系统，将该系统应用于企业集团活动中，实现了办公活动的自动化与智能化，工作效率显著提升，是未来企业办公的重要发展趋势，对促进企业发展，提高经济水平有着重要的意义。为了进一步掌握协同0A系统涉及模块以及应用功效，本文对该系统模块设置等特点进行了研究分析，这对于深入掌握、高效应用协同0A系统是十分有必要的。关键词：协同0A系统;企业集团;办公效率;管理模块前言：互联网信息技术已经成为时代发展的一个标签，掌握高科技手段的企业往往能够占据竞争优势，而协同0A系统正是科学

期刊

骨髓间充质干细胞移植治疗Becker型肌营养不良症58例临床分析

期刊

项目质量管理在汽车零部件开发中的应用分析项目质量管理在汽车零部件开发中的应用分析

摘要：在现阶段汽车零部件开发行业，产品实现成功开发，一方面是由于我国科学技术的进步发展，也就是科学技术的创新，带动了产品的进步;另一方面，则主要归功于企业的项目管理工作。企业要想在世界上生存并实现持续发展，并且在激烈的市场竞争中占据主导地位，那么就必须要加强项目管理工作。本文主要围绕项目质量管理在汽车零部件开发中的应用进行研究分析。关键词：项目质量管理;汽车零部件开发;应用分析在我国市场经济体制改革的背景下，市场竞争越来越激烈，从事汽车制造的企业越来越多，这就使得企业对于汽车零部件的开发和其质量的要求越来

期刊

装配式住宅附着式升降脚手架的安全问题与对策装配式住宅附着式升降脚手架的安全问题与对策

摘要：伴随着社会的不断进步和发展，施工现场采用的附着式升降脚手架也逐渐增多。附着式升降脚手架作为一种新型脚手架，在具体的运用过程中，因架体比较重且存在多种不确定因素，若控制不合理或者防护设施失效，會导致非常严重的工程事故发生。基于此，本文以某工程为例，阐述了附着式升降脚手架施工中存在的问题，并提出了相应的解决对策，仅供同行参考和借鉴。关键词：装配式住宅;附着式升降脚手架;安全问题;对策建筑施工中，脚手架是极为重要的临时设施之一，并且随着建筑行业的不断发展，脚手架的结构及形式也呈多样化发展[1]。附着式升降

期刊

无锡历史文化街区建筑色彩的地域性研究

期刊

检察委员会工作机制研究

期刊

建筑施工企业定额中劳动定额的编制探讨建筑施工企业定额中劳动定额的编制探讨

摘要：当前我国建筑施工企业的定额情况并不理想。企业定额中除了人工消耗量这一部分，其他部分在建筑施工企业中差距并不大，由于企业管理因素不同，各个建筑施工企业的人工消耗量也是大不同，因此需要加强对劳动定额编制方法的深入研究。提出新型的劳动定额编制思路，创新传统的编制方法，希望可以为建筑施工企业实现高效率编制劳动定额的目标奠定良好的基础。关键词：建筑施工企业;劳动定额;编制措施对于大部分建筑企业而言，定额编制工作目前起步阶段，仅有少部分企业拥有企业定额。随着信息技术水平的不断提高，信息技术得以广泛应用，并且为劳

期刊

基于深度学习的视频语音提取文本系统设计与实现 基于深度学习的视频语音提取文本系统设计与实现

与本文相关的学术论文

基于深度学习的视频语音提取文本系统设计与实现基于深度学习的视频语音提取文本系统设计与实现