基于低资源语音识别系统的硬件实现

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:kunjian99_Gmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言识别技术作为人工智能机器学习的一个重要分支,在物联网技术和软件开发上具有重要的地位,而在普通的声学模型当中,语音识别系统处在低资源条件下时,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,本文提出了基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足。该模型在声学特征方面,通过基于瓶颈(B N,Bottle Neck)层的神经网络来进行提取,从而提高声学特征的可区分性与鲁棒性,同时在训练过程中引入Dropout策略来防止过拟合问题;在声学模型方面,采用子空间高斯混合模型(SGMM,Subspace-Gauss Mixture Model),使得模型参数规模有明显地降低。这两方面的改进也提升了低资源语音识别系统的识别率,本文的实验证明,采用BN-SGMM-HMM低资源语音识别系统,能够在有限的训练语料下训练出良好的识别效果。而在硬件实现部分,以BN-SGMM-HMM声学模型为基础,采用开源中文语料库进行训练,并将训练好的声学模型在树莓派上得以实现,并用麦克风作为语音的输入,通过Kaldi内部解码器对输入的语音进行识别,最终将识别结果显示在终端上。该语音识别系统的优点是低成本,无需申请昂贵的语料库或者API授权,且全程无需联网。该语言识别系统的创新点在于:在软件开发方面,采用BN-SGMM-HMM声学模型作为基础模型并采用Kaldi语音识别工具包来训练模型,该工具包内部拥有特征提取脚本以及语言模型生成工具,改变了以往语音识别开发需要经验丰富的工程师的局面,减少了语音识别系统开发人员的周期;而在硬件移植方面,由于硬件实现使用的是开源硬件树莓派,用户广泛且内部环境开源,相较于其他ARM系开发板以及ASIC而言降低了开发难度以及流片所带来的成本。
其他文献
近年来,随着信息技术的发展,时间序列的应用越来越广泛,如灾害监测、安全分析、金融商业等领域都包含海量带有时间属性的数据。这些数据具有规模大、类型多等特征,蕴藏着巨大的价值。因此,如何对时间序列进行精确分类,是流式数据事件分析和数据挖掘的基础,也是数据流领域研究的重点和难点。时间序列数据是按某一给定采样频率,对某一过程进行监测得到的一段实值数据波形,随时间戳变化连续记录,不受系统环境等因素影响。时间
信息时代产生了海量数据,这些数据中潜藏着巨大的信息价值,对人们的生活、工作起着愈发重要的作用。但在实际应用中,数据缺失现象在工业、医学、商业和科学研究等诸多领域中普遍存在,存在不完整数据集。如何使缺失数据充分的为人所用,挖掘出缺失数据中潜在的有价值的信息对于我们来说十分重要。若缺失值处理不当会在数据聚类中造成较大误差或错误结果,因此不完整数据聚类问题已经成为不完整数据分析中的一个重点。首先,为了解
随着互联网技术的不断进步发展,个性化推荐技术逐渐成为计算机领域的研究热点。随着教育的重要性日益提高以及互联网和大数据等技术的发展,越来越多的研究人员将大数据研究应用于教育领域。在教育大数据应用中,对新用户的教育资源推荐易导致信息量不足,从而产生冷启动推荐问题。冷启动推荐问题是指新用户刚刚进入系统,无任何历史行为,无法依据历史数据获得用户偏好,从而给推荐带来巨大挑战。如何进行冷启动推荐,同时保证推荐
近年来,随着通信、网络、集成电路领域的高速发展,对于数据的传输量和传输速度都有了更高的要求。但传统接口电路受技术所限,已经无法满足高速信号传输的需求。为解决这一问题,低压差分信号(Low Voltage Differential Signaling,LVDS)接口技术和电流模逻辑(Current Mode Logic,CML)接口技术应运而生。本文基于SMIC 180 nm CMOS工艺,分别设计
随着各种语音和视频即时消息传递方法的兴起,大屏幕,高像素和便携性已成为移动手持终端发展的主流趋势。尤其是可穿戴设备的出现,对数据传输速度,功耗和接口集成提出了更高的要求。为了降低不同模块之间通信的复杂性并使其易于集成和标准化,制造商开发了各种标准协议。其中,移动工业处理器接口(MIPI)标准由于其完整的技术和强大的适用性而被广泛用于移动手持终端显示应用中,因此具有极高的研究价值。本文以MIPI D
许多集成电路中都需要时钟信号,如本文设计的为时间-数字转换器所提供的多相位时钟信号。而对于高精度多相位时钟电路来说,一个小的抖动就有可能造成相位之间的混乱,进而扰乱后续电路的时序,因此对时钟信号质量的要求也更加严格。锁相环为时钟电路提供本振时钟信号,所以一个高杂散性能、高噪声性能的锁相环不可或缺。本文设计的亚采样锁相环,可以避免电荷泵锁相环中因电流失配等非理想因素而造成杂散性能的降低,并且因为环路
多目标跟踪是发展智能交通,智慧驾驶的关键技术。分析跟踪获得的车辆目标数量,车辆行进轨迹,能够有效提高道路监控、车流量统计、辅助驾驶和驾驶习惯分析等方面的综合管理水平。近年来,深度学习推动了计算机视觉领域的发展,学者们提出了大量基于深度神经网络的多目标跟踪方法。这类方法将网络获取的目标检测结果进行逐帧关联,以检测为基础实现多目标跟踪,提高了跟踪方法的性能。然而,车辆目标形态各异,移动速度高,且存在严
随着移动网络的快速发展,移动设备逐渐成为人们首选的网络终端设备。与此同时,安卓操作系统也逐渐成为中国市场首选的移动端操作系统。安卓操作系统的大量应用使得更多的不法人员试图攻击安卓设备来获取非法利益,这也导致了安卓恶意软件的泛滥。近年来,安卓恶意软件的逃逸技术在逐渐升级,安卓恶意软件检测的难度不断加大。面对当前移动网络安全的严峻形势,如何高效精准的检测安卓恶意软件是一个重要课题。首先,提出基于增强深
煤矿微震是在采矿过程中由岩体破裂导致的动力现象,较大能量的微震事件引起煤矿事故,进而影响煤矿生产。随着矿区规模扩大,煤矿微震灾害事故也随之增多。国内外对煤矿微震事件的监测和分析进行了大量研究,取得了一定的研究成果,但在煤矿微震监测系统下对煤矿微震事件震级计算和煤矿微震事件的判识仍需要进一步研究。微震传感器监测是监测煤矿冲击地压、瓦斯突出等灾害事故常用的监测方法,微震监测的事件震级和能量是煤矿灾害事
随着时代的不断迈进,科技逐渐的发达,网络给人们建立起了一条又一条的“高速公路”,人们的日常生活、工作以及学习都越来越离不开网络。随着无线网络为了提供更优质的服务向下一代发展,无线Mesh网络(WMN,Wireless Mesh Network)作为其中一种关键技术越发受到研究人员和设计者的关注,已经成为宽带家庭网络、社区网络和企业网络等许多应用的关键技术。传统的无线网络深受互联网连接“最后一公里”