基于语音识别的农产品价格信息采集方法

来源 :中国农业科学 | 被引量 : 0次 | 上传用户:RedLenov
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】将语音识别技术应用到农产品价格信息采集中,面向非特定人和限定词汇量的汉语普通话连续语音识别,提出一种适合于农产品价格采集环境的语音识别鲁棒性方法;以隐马尔科夫模型为基础,训练出适合该环境下的声学模型,以缓解因测试环境和训练环境不匹配而导致的识别率降低,进一步提高识别率。【方法】在数据采集和处理阶段,首先根据要识别的限定词汇按照一定的语法规则构建转换文法,利用该文法生成的脚本指导训练集和测试集录音;然后选择不同的农产品价格采集环境和不同的说话人进行语音采集,并进行准确的人工切分,最后构建出语音语料库;在模型训练阶段,选择自左向右无跳转结构的连续混合密度隐马尔科夫模型,对训练集中的数据提取39维的MFCC特征向量,用于模型训练。首先以单音素为建模单元,并分别训练基于隐马尔科夫模型的男声模型、女声模型及男女混合声学模型;然后,考虑到单音素稳定性差和易受协同发音现象影响等因素,以上下文相关的三音素为识别单元建模,重新训练上述模型;针对三音子建模单元带来的模型数量大量增加,进而造成的训练样本不足问题,采用决策树状态聚类方法来改善该问题;决策树的构建过程中,利用语音学知识,根据声母发音方式、发音部位的不同以及韵母构成、韵头的不同,划分出若干声韵母集合实现了二值问题集的设计;在此基础上,用增加混和高斯分量的方法来进一步使得模型描述更加精确;最后,为了解决信道的乘性噪声问题,在采用上述策略的同时利用CMN和CVN方法来缓解测试环境与训练环境不匹配问题,最终训练得到了相应的男声模型和女声模型。在测试阶段,对采用上述各方法后得到的不同模型,分别采用相同的测试集进行试验,得出不同方法下的句子识别率、词识别率以及精准度。【结果】三音子声学模型的识别性能明显优于单音素声学模型,女声模型和男声模型的性能均优于男女混合声学模型,决策树聚类方法对识别率的提高不明显但可以明显减少三音子模型的数量,混合高斯分量的增加对识别率具有一定提高但同时带来计算量的增加,CMN和CVN方法可以明显提高系统的识别性能。通过对不同地点和不同说话人进行测试,最终识别率男性为95.04%,女性为97.62%。【结论】语音识别技术应用到农产品价格信息采集过程中是可行的。本文提出了一种农产品价格采集环境下提高语音识别率的方法,试验证明通过该方法训练出的模型具有较好的识别性能,本研究方法为日后应用系统的开发奠定了基础。
其他文献
对钛白粉生产中的副产物硫酸亚铁进行综合利用 ,以微生物为催化剂 ,在常温常压下用空气为氧化剂氧化硫酸亚铁 ,经水解、聚合反应生成聚合铁。制得的聚合铁酸度低 ,盐基度高 ,
文章从电磁辐射的生物效应、手机电磁辐射的动物实验、手机使用人群的健康调查等方面分析了手机电磁辐射对人体健康的危害,并介绍了手机电磁辐射的量度和测定方法,最后归纳出
经济全球化的大背景,在为人力资源管理创新提供机遇的同时,也加剧了人力资源管理的挑战,对人力资源管理提出了有别于国内市场人力资源管理的要求和标准。本文主要分析了经济
在HASTAC和麦克阿瑟基金会的支持下,2011年Mozilla公司推出了开放勋章(Open Badges)计划,目的是通过勋章为在非正式环境下获得的技能的认证找到一个可靠、稳定的模型。文章的
口腔颌面部恶性肿瘤具有较高的淋巴道转移倾向,颈部淋巴结转移的诊断和治疗是口腔颌面部肿瘤治疗中的重要内容。为与国际接轨,统一国内诊治标准,便于学术交流,特制定口腔颌面
岁时佛俗指岁时活动中的佛俗。岁时本是民间一年四季的常规性活动,带有浓厚的传统民俗色彩,但随着佛教的传入,佛俗亦与我国的岁时活动相互交融,或佛教行我国的民俗,或佛俗演变为我
介绍了国外硅粉粒径的研究进展,并对国内硅粉粒径研究提出了发展建议。
岁时佛俗指岁时活动中的佛俗。岁时本是民间一年四季的常规性活动,带有浓厚的传统民俗色彩,但随着佛教的传入,佛俗亦与我国的岁时活动相互交融,或佛教行我国的民俗,或佛俗演变为我
人力资源开发在中小企业生存和发展中扮演着重要的角色。就目前而言,我国的中小企业存在的一些问题是社会迫切关注的话题。本文主要从中小企业人力资源管理培训与开发存在的
本文详细介绍了交流矢量处理器AD2S100的工作原理和使用方法,并介绍了几种它在实际交流传动矢量控制系统中的应用实例。