基于人工神经网络的语音LIFE-LOG分类识别

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:ZY5158598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会需求是推动理论和技术发展的原动力。信息科技高速发展的今天,语音与我们的日常生活息息相关,每人每日的各种活动,都会存在各式各样的声音。而可移动便携设备---作为信息时代的产物,越来越受到广泛的关注,渐渐成为人们不可或缺的生活物品。利用我们随身携带的智能通讯设备能够记录下来的一天、一周甚至一个月的语音数据,组成的便是一个个人的语音日志(Life-Log)数据库,这些数据不仅可以作为对过去事情的美好回忆,还可以为今后的生活做必要提示作用。理论和技术的积累为应用的实现提供了可能。但是想要从Life-Log庞大的语音数据中,快速锁定所需要的片段,查找有用信息,对于研究者来说,很有研究价值。  本文主要讨论了语音Life-Log的实用性,并针对Life-Log语音数据的分类识别做了相关分析和研究。介绍了语音信号的特点、语音信号的分析与特征提取、语音识别的模型。在语音特征值提取阶段,重点介绍美尔频率倒谱系数(MFCC)与短时能量(Short-Term Energy)等特征值,并根据Life-Log语音不同于一般标准语音数据库的特性,推荐将 MFCC与短时能量二者结合成为混合参数进行提取,以更好的使自然界各种声音精准分类。同时介绍了几种经典的语音识别建模方法,根据Life-Log特点,调整、完善多层人工神经网络(ANN)的构建,对语音进行分类识别。ANN模型之所以比较成功地解决了Life-Log语音识别中的问题,主要在于人类发音的复杂性和特殊性,很难利用线性模型很好地进行分类,而ANN恰恰利用了非线性的理论,这使得Life-Log分类识别成为可能。要做好语音Life-Log的分类识别,关键还在于理论必须与实际应用相连。  实验结果显示,根据Life-Log语音的特殊性,需要具体问题具体分析,并根据需要设计ANN模型。为了提高系统性能,需要对Life-Log语音特征提取、现有的分类识别模型进行改进,本文设计优化的ANN模型可以很好地支持Life-Log语音分类,利用MFCC与短时能量混合参数作为特征值,可以降低传统上只采用MFCC特征参数进行训练识别的误差,缩短训练时间,提高了6%的识别率。为今后的开发出更多 Life-Log的实用性功能,并应用于人们的生活,提供了必要的准备。
其他文献
统计学习理论是一种专门研究小样本情况下机器学习规律的理论,支持向量机方法是在该理论基础上发展起来的通用学习方法,它具有全局优化、适应性强、理论完备、泛化性能好等优
网络时代的出现和发展使越来越多的人融入到信息社会中来,各种信息、知识的获取以及娱乐节目的收看等媒体信息服务被越来越多的人们所希望,而对应于这些需求,出现了各种各样
随着计算机网络技术的不断发展和普及,数据量正在以一个爆炸式的趋势增长,数据的复杂度也更加多样化,而要从海量的数据中获取有价值的信息也变的非常困难,这给数据挖掘技术带来一
孤立点挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测。孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某
在当前网络蓬勃发展的今天,TCP/IP作为层次性网络体系结构的主流技术体系存在不少弊端,目前有两个方面的解决方案:在TCP/IP体系结构下的改进(如IPv6),开创新型网络体系结构。
随着多媒体技术和视频成像技术的快速发展,出现越来越多的图像显示设备,如手机、电视、平板电脑、笔记本电脑等。图像有固定分辨率,一幅图像在不同的显示器上显示时会发生导
随着信息化步伐的加快,软件危机呈现出愈演愈烈的趋势,如何有效维护现存软件以缓解危机的研究也变得更加紧迫。软件再工程通过利用重新抽象出设计模型、将新的技术和需求应用
频繁项挖掘作为数据挖掘领域研究的重要主题之一,已被证实具有一定的理论价值,并且在市场选择、决策支持和商务管理等方面得到广泛的应用。随着科学理论和技术的发展,金融,传
随着移动通信技术的飞速发展,信息的安全保密变得越来越重要,为了确保商业信息的安全,对通信的保密尤为重要。据统计,目前我国GSM网络[1] [13]已覆盖全国绝大部分地区,用户数
随着网络浪潮一浪高过一浪的今天,越来越多的公司部门也在加大力度进行网络建设,计划不久的将来要实现与海关、银行、工商、政府等部门的网络互联,包罗万象信息共享。开发远程传