语音识别噪音场景库的设计与实现

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:lang_tianhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别噪音场景库的建设对于语音识别技术及评测技术都具有重要的研究意义.噪音场景库的设计包括对噪音场景进行分布估计、聚类分析、自动分类等流程.本文首先用统计学的抽样方法对噪音场景进行了分布估计和噪音数据采集,接着用基于声学特性的方法对噪音场景进行了聚类分析,随后提出了一种新颖的噪音场景聚类分析方法,它是采用数理统计学方法分析噪音场景对于语音识别系统性能的影响效应,依据效应分析结果来实现对噪音场景的聚类.最后设计语音识别实验对聚类的合理性和有效性进行了验证.聚类完成之后利用支持向量机SVM实现了噪音场景的自动分类.另外还通过实验,分析和比较了真实场景与合成场景对系统性能的影响效应. 通过对噪音场景的聚类分析,我们将真实应用环境中的噪音场景聚成了有限的四大类,并估计出各场景类的分布比例.按照聚类结果和分布比例设计语音识别评测中的训练集和测试集,通过实验验证了聚类的合理性以及在语音识别评测数据设计中的有效性.同时本文提出的基于数理统计学的噪音场景聚类分析方法是本文的一个创新点,该方法同样可以用于分析其他影响系统性能的因素,如信噪比、口音等,可以在评测数据设计中发挥重要作用.另外本文对于真实场景与合成场景的分析比较得到了一些有新意的结论.
其他文献
图灵机模型假设输入信息已经位于机器纸带之上,可以被转移函数直接获取;然而对于三元计算,信息不仅仅存在于数字空间,还广泛存在于物理世界和人类社会。因此,三元计算的一个重要
语音识别技术经过几十年的艰苦探索和研究,已经获得了极大的发展,并开始逐步应用于日常生活中。但语音识别技术中存在的一些问题,特别是儿童语音识别,成为阻碍该技术进一步推广的
大规模的双语句子对齐语料库及双语词典等数据资源是构建高质量统计机器翻译系统的重要数据基础.本文提出了若干统计机器翻译预处理中数据资源的使用策略,目的在于尽可能地挖
无线传感器网络集成了计算能力、无线传输能力以及对物理世界的感知能力,具有广泛的应用范畴。在大规模的周期性数据收集型传感器网络中,如何高效的利用传感器节点的能量、保证
学位
随着互联网、通信等信息技术的飞速发展,全球数据正在以前所未有的速度积累,如何从这些海量数据中挖掘有价值的信息已成为学术界和工业界关注的焦点。数据规模的快速增长伴随着
众核处理器的片上网络对于提高处理器的性能与可扩展性具有重要作用。随着处理器芯片规模的增长,片上网络面临着诸多问题的挑战:一方面,多应用同时运行使得每个应用的网络性能
人类基因组中超过70%的区域能发生转录,但只有1%~2%的部分区域能编码出蛋白质,其余大面积的区域称为非编码区域,这些区域转录出的RNA分子都不具备蛋白编码能力(无蛋白质产物生成),被称
随着计算机技术的不断发展,软件复杂度有了很大的提高。软件中存在的问题越来越突出。因此,提高软件质量及可靠性已成为当前软件工程领域的重要任务。软件测试是保障软件质量
信息技术的飞速发展引发了人类生活方式的巨大转变,RFID、穿戴式传感设备、智能家居等新技术的普及加速了物理世界和赛博空间的融合。三元计算理论是在这一背景下出现的新型计
自1950年图灵测试提出以来,问答系统一直是人工智能领域研究的重要课题之一。相对于英文问答系统的迅速发展以及语义信息处理技术的广泛应用,目前语义分析的方法在汉语问答系统