关于语音识别的研究

来源 :东方教育 | 被引量 : 0次 | 上传用户：laoye1111

【摘要】

：

【作者】

：

周萌

【出处】

：

东方教育

【发表日期】

：

2016年8期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：计算机出现和发展，为很多领域带来发展可能。在此之前，模式识别信号处理技术和声学等，仅能够独立研究和使用。而计算机不仅提供了融合平台，也使其得以交互，创造更加出色的功能。本文所研究的语音识别技术，便是通过上述学科实现。语音识别技术，主要应用在医学、交通、军事，工业生产等领域。特别是近年来技术成本降低，民用市场不断扩大，这也对语言识别技术的要求，有了进一步的提升。因此，本文对语音识别进行研究，借助其发展趋势和技术结构的阐述，帮助读者认识该技术。同时希望借助本文的研究，为相关研究者提供一定的理论借鉴。
　　关键词：语音识别；研究趋势
　　一、语音识别技术简介
　　语言是人类的基本功能，也是展现思维、进行沟通的重要载体。而语音，是由人类人体天赋转化下，所形成一种表达方式。在科学视野中，这种天赋的转化，被称之声学表现。然而，不可否认的是，虽然语音仅作为一种“天赋表象”，却是人类目前最为有效的交流手段。
　　二、语音识别技术的发展历史
　　科技引入到声音的声学研究，在人类历史上发起较晚，始于上世纪50年代，研究人员才致力于声学和语音学的基本概念。第一次实现研究突破是在1952年，学者AT& T Bell在其实验室，进行了一组当前视野来看，并不复杂的实验工作。但最终实现了一个单一发音人，孤立发音10个英文数字的语音识别系统，方法主要是度量每个数字的元音音段的共振峰；1956年，RCA Lab 基于Bell的人的研究基础，寻求另一个方向的实践研究工作，力求识别单一发音的10个不同的音节，同样采用了度量共振峰的方法；1959年，组织University College的研究学者，以谱分析和模板匹配的方式，借助构建音素识别器的理念，实现了识别4个元音和9个辅音；1962年，东京大学相关研究部门，对音素识别器的硬件进行实践性研究工作。以过零率方法分离语音信号的不同部分的识别方式，成为目前较为理想的研究手段之一；1963年，日本NEC Lab对数字进行语音识别技术进行尝试，并获得了相对可靠的研究成果。并创造NEC研究语音识别的模板，由此开创了语音识别技术的新领域。值得注意的是，在近四十年来，语音识别技术并未出现质的突破。但是，上述内容60年代所进行的研究，却成为了支撑人类语言识别技术近半个世纪的基础。而其最为重要的贡献，便是通过理论深度研究，于1969年提出时间归正法。
　　三、语音识别技术的应用及前景
　　随着声学研究的发展，语音识别技术已然具备了应用的基础。从现状来看，中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统就更高。随着科学技术的发展，集成电路的应用，帮助以往过度复杂的识别体系，能在更小的空间的内实现。从在西方经济发达国家来看，大量的语音识别产品已经进入市场和服务领域。包括手机等移动电子设备，多配备了相对完善的语音机制。并且盲人所使用的电子设备中的语音识别系统，已经达到了以往的军用标准。用户将借助移动通讯网络，以语音识别的口语对话系统，完成日常生活中，如订购票务、酒店等事宜。据调查统计结果，目前85%以上的使用者，对语音识别信息查询服务系统的功能性、准确性表示满意。由此，也可以进行预测：在未来的十年内，语音识别系统的应用范围将逐渐扩大，而基于各类语言、需求的产品涌现，或借助市场调节机制，有效降低此类系统的应用成本。由此更进一步满足各类语音需求。但是，以当前的技术来看，语音识别系统的局现性，或将成为阻碍其发展的根本原因。
　　四、语音识别技术的系统结构
　　不可否认，语音识别系统是复杂的。但是，在人类漫长研究中，不断的归纳和总结，最终找到可以大范围区分的“节点”。由此，帮助语言识别系统的构成更加清晰化。从相关研究发现，一个完整的基于统计的语音识别系统可大致分为两个部分：
　　1、语音信号预处理与特征提取
　　语音识别的基本工作特征，在于识别单元的选择，这也是能否获得识别结果的重要基础。然而，对于单元的选择，需要合理的区分各个要素，包括单词（句）、音节和音素三种。在选择适合的要素后，才能够进行后续的识别工作。
　　单词（句）单元广泛应用于中小词汇语音识别系统，但不太适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂。故此，看似简单识别通道，却因为复杂性降低了时效，最终导致难以准确的完成识别任务。
　　音节单元是基于我国语言特征，所提出的特殊识别要素。由于汉语言与英语等拉丁语系语种的差异性。我国发展语音识别技术，或难以借助他国成熟经验。但是，由于汉语音节总数为1300余个，其中包括408个无调音节，对比于大量多音节的拉丁语系，汉语言基础上的音节单元要素识别，将具备更高的时效性。这也是我国语音识别技术能够“后发制人”的关键。
　　音素的识别，主要借助线性预测（LP）实现。LP分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型为纯数学模型，未考虑人类听觉系统对语言的处理特点。
　　2、声学模型与模式处理
　　作为语音识别系统的第二个模块，也是其重要的基底模块。声学模型主要用于搭建声音体系，并借助特征算法，帮助后续的模式处理，对语音进行深度识别。而模式处理的重要性，在于保证识别结果的准确。通常对语音模型的处理，在理论和数据参数上，已经具备良好的基础。但是，在识别方面，却一直难以达成成效。这也是模式处理能力不足所带来的主要困境。从基本理论层面来看，声学模型作为语音识别系统底层模型，其关键性不言而喻。而聲学模型存在的意义，在于提供计算语言的特征矢量序列，以及合理区分每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元体积对语音训练数据量大小、系统识别率，以及灵活性有较大影响。
　　五、语音识别技术的发展障碍
　　1、技术智能化不足。例如，同一说话者在不同语态时，语音信息有所差异；即使同一说话者以相同方式说话时，其语音模式也受长期时间变化的影响。
　　2、缺乏模糊语音处理能力。说话者在讲话时，不同的语词可能听起来很相似。
　　3、无法兼顾发音变化。单词或单词的一部分在发音过程中其音量、音调、重音和发音速度可能不同，使得测试模式和标准模型不匹配。
　　4、无法消除环境音响。为了提升语音识别技术的准确性，必须提升其收纳声音的范围。而这样的选择，无疑会放大环境因素的影响。原因在于语音识别系统的声音基础，是在相对安静的环境中创造。所以，无法应对自然环境中的噪声和干扰。而且，在采用抗干扰模式下，语言识别和接受能力又会大幅度下降。这也让技术遇到两难的选择。
　　参考文献：
　　[1] 施超群，陈坚刚.浅析语音识别原理[J].浙江工商职业技术学院学报，2011（03）：94-96.
　　[2] 韩纪庆，张磊，郑轶然.语音信号处理（第二版）[M].北京：清华大学出版社，2013.
　　[3] 陈永彬.语音信号处理[M].上海：上海交通大学出版社，1991.

其他文献

计算机网络技术在企业信息化过程中的应用研究

摘要：随着技术的快速发展，计算机网络技术已经被广泛应用于各个行业，正如2015年的热词“互联网+”，各行各业在激烈的社会竞争中，要想取得竞争优势，就必须掌握最新的技术，而计算机网络技术的猛速发展正改变着企业的生产经营方式，把互联网技术应用到企业中是大势所趋。尤其在信息化高度发达的今天，如何把计算机技术和企业信息化有效结合起来，成为各大企业面临的问题。只有加强计算机网络技术的应用，才会最大程度提高企

期刊

循环经济发展的对策及建议

摘要：我国资源配置不合理，资源利用率低，发展效率慢。在很多地方还处于粗放型的经济发展方式，这制约着我国产业发展方式的转变。在这样的背景下，循环经济的发展给中国现有经济方式有着进步作用，所以本文探讨就是循环经济发展的对策以及建议　　關键词：循环经济；发展方式；产业园　　一、调整能源消费结构，降低能源消耗　　（一）建立多元化能源消耗体系　　能源的结构对能源需求量和整体布局有很大的影响力，能源结构的发

期刊

浅谈道家审美的超世俗功利性

摘要：道家意义上的美与俗美有很大的区别，因为道家认为只有精神意义上的幸福才是最深层的幸福，追名逐利者难以获得这种美感，它是超世俗功利的。道家这种审美的超世俗功利性，与儒家佛家的审美有一定相同性，而对后来的道教也有很大影响。　　关键词：道家；审美；超世俗功利性　　审美的“超功利性”最初是在康德的《判断力批判》中被清晰系统地提出，他认为“美是无一切利害关系的愉快的对象。” [1]即审美活动是一种超越一

期刊

关于公安行政管理体制改革的思考

进入改革开放新时期以来，公安工作的改革一直备受社会的关注。尽管各级公安机关近几年来进行了多方面的探索和尝试，也取得了一些初步成效，但是，由于公安机关现行管理体制的制约，对现行公安管理体制是否需要改革以及如何改革的问题还需要进一步的探讨。只有抓住和解决好这些问题，才能继续深化公安工作的其他改革措施，增创新时期公安工作的新优势，从而全面推进公安事业的发展。　　一、当前的“以块为主”的管理体制存在的问题

期刊

画册设计中的品格

摘要：画册的品格决定了设计的成败，如何提升画册的品格，也是设计中的重要课题，从技术角度来看，我们可以找到一些原则：版式结构、画册色调、画册设计独特性等等，但是，最终还是要提高设计者自身修养和见识，因为，设计工作更多的是一种创造性的思维方式。　　关键词：结构；色调；独特性　　画册设计在各行各业的应用相当广泛，展览会，企业介绍，产品推广，画家介绍，市场营销等等，画册的品格决定了设计的成败，要把一本画册

期刊

贵州省贵阳市房屋征收与补偿问题研究

摘要：财产权是公民的一项基本权利，国家层面与贵州省层面针对房屋的征收与补偿出台一系列规范，然贵阳市的房屋征收与补偿仍面临诸多问题，公共利益的界定与把握不清，市场价格认定出现问题，评估机制存有漏洞等等，如何更好地实行与完善这一制度仍需做出进一步探讨，对此，我们提出一些畅想与建议：公共利益的概念在法律上进行类型化，赋予被征收人价格评估的复核权，弥补规范的不足，补充原则性条款。通过实施一系列有效地措施，

期刊

新媒体艺术与传统艺术的碰撞

摘要：新媒体艺术已经在不经意中深入到了现代艺术的各个领域中。本文从参与模式、创作人员与受众面、科技应用、创作方式等方面，来比较新媒体艺术与传统艺术（本文特指绘画、雕塑、摄影等）的异同性。指出新媒体艺术的出现对于传统艺术表现形式来说是一个挑战，同样对传统艺术的发展也是一个促进。科技的艺术化表现和艺术的科技化表达，缩短了艺术、科技与观众的距离，成为每个观众都能看懂，都能有新鲜感官感受的艺术，让大众更能

期刊

浅谈我国食品质量与安全特色建设

摘要：食品安全与人们的健康息息相关，因此做好食品质量及安全方面的工作非常关键。本文在分析我国食品质量现状的基础上，进一步对我国食品质量安全特色建设策略进行探究，希望以此为我国食品质量的提高及安全性的增强提供一些具有价值的参考建议。　　关键词：食品质量；安全特色建设；参考建议　　食品质量及安全问题，一直是我国重点关注的问题。与此同时，食品安全和民生健康也息息相关。在确保食品质量及安全性的基础上，才能

期刊

浅析如何准确的区分大小调体系和民族调式体系

摘要：本文主要是从大小调体系和民族调式体系的区别入手，分别从三个方面进行详细的阐述和论证。　　关键词：大小调；民族调式；区别　　我们接触到大小调体系和民族调式体系这个概念是在乐理课程中学到的。乐理课程里有针对两种调式调性非常详细的讲解与分析，但是对于两者之间的差别却很少提及。在视唱练耳、和声分析、曲式等科目中，调式调性的区分也是常常用到，但是学生经常会混淆。接下来就从三个方面对大小调体系和民族调式

期刊

NFC前景分析及其在农业物联网中的应用实现

摘要：本文对NFC的技术特点进行了分析，并与多种方式进行了对比，突出了NFC在某些领域的应用优势，从而对NFC近场通信在各大领域应用前景进行了分析，最后结合RFID技术，提出了一种适应于农业物联网农产品安全溯源的综合型解决方案，高效实用。　　关键词：NFC；RFID；NFC-SIM；农业物联网　　一、前言　　NFC（Near Field Communication），即近场通讯，是一种短距离的高频

期刊

关于语音识别的研究

与本文相关的学术论文