基于Raspberry Pi的语音传输及识别系统的设计与实现

来源 :山西大学 | 被引量 : 2次 | 上传用户:wh104311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以人类语言和计算机进行交互一直是近几十年自动语音识别(Automatic Speech Recognition,ASR)研究的主要方向。20世纪下半叶,各种ASR技术如雨后春笋应运而生,例如:梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)、高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔科夫模型(Hidden Markov Model,HMM)等。这些理论与技术的提出为ASR发展带来很好的契机。在21世纪的第二个十年里,由于移动终端的普及,ASR又迎来了研究的高潮,各种新技术、新模型被提出并应用于实践。为了降低系统的成本,方便携带、安装以及配置,本文基于树莓派(Raspberry Pi)设计一种语音传输识别系统,可以对火车站的广播语音实现采集、传输和识别功能。本文设计的ASR系统避免传统语音采集传输设备体积大、成本高、工作量大等问题,还可以远程终端连接,从而更加灵活方便地修改系统配置。本系统包括软件和硬件两个部分。其中,硬件由Raspberry Pi、拾音器等构成,主要实现语音的采集功能。软件方面则分为两个模块,一个模块是转发服务模块,用python语音开发,主要是将拾音器采集到的音频流转发至识别模块及其他相关模块;另一个模块是识别模块,实现音频数据的接收、识别、存储结果的功能。其中识别模块使用RNN+CTC(Recurrent Neural Network,RNN)(Connectionist temporal classification,CTC)的模型结构,这块模型结构使用Python语音实现,引用TensorFlow等包进行开发。系统的目标是实现多点音频数据的实时传输、存储及语音识别。本文首先提出系统的整体设计方案,之后详细阐述了语音传输系统和ASR系统的各个模块的工作原理及相关算法。
其他文献
纵观人类文明史,农业化、工业化和城市化是人类活动影响土地资源利用的最主要方式。当前经济发展的“新常态”正处于供给侧结构性改革的深化时期,在跨越“刘易斯拐点”和“中
运用MATLAB软件对篮球运动轨迹进行数据分析.针对影响篮球空间运动轨迹的主要因素进行研究,通过单因素轮换实验方法,仿真出单因素方面对轨迹的最终影响效果,从而找出各参数的
在物理概念教学中,其引入方法是否恰当,不仅会影响学生对物理概念本身的理解和掌握,而且还会影响到能否激发学生对学习物理的兴趣,调动积极性而参与教学活动。
<正> 一、概述 以中国自行车协会理事长王凤和为团长,由来自江苏、上海、浙江、湖北、广东、天津、河北等省市自行车生产企业和外贸单位所组成的中国自行车协会赴德国科隆参
教育要讲究策略,又没有固定的方法,所有的教育方法都不能满足各种需要。而乐趣教育法可以提升政治教学质量,教师在使用时要灵活变通,推陈出新,以便引起学生的兴趣。本文对初
<正>在加州理工学院,我认识了化学系教授Robert Grubbs,他与Yves Chauvin、Richard Schrock因对有机化学中的贡献一起被授予2005年诺贝尔化学奖。他为人亲切、随和,教书育人
随着计算机仿真技术的发展,其应用范围也越来越广泛。本文先对空气阻力系数进行了简介,并运用运动捕捉技术获取篮球的运动数据,然后根据计算公式对理论曲线和实验曲线进行了
<正>一、教材分析(一)教材内容和地位1、教材内容:《念故乡》是根据德沃夏克的《第九交响曲》第二乐章中,由英国管吹奏的主旋律改编而来,不仅歌唱性强,同时还表现了一种孤独
通过差示扫描量热仪(DSC)、X射线衍射仪(XRD)、热台偏光显微镜(POM)和红外光谱仪等手段研究了Gemini表面活性剂在硝酸乙基铵(EAN)中构筑的溶致液晶体系(lyotropic liquid cry
服务贸易是一种跨越国界进行服务品交易的商业活动。我国服务贸易近年来发展较快,但与发达国家相比,在贸易水平、贸易法规、贸易人才及规模等方面仍处于明显劣势,服务贸易结