针对语音识别的语音训练数据清洗方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:rgy1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别系统的性能是影响语音识别实用化的关键因素之一。语音训练数据的规模和质量对声学模型的性能有很大影响。在当今的信息化社会,大规模训练数据的获取越来越容易,但是质量不高的训练数据的增加并没有带来声学模型性能的大幅提高。对此,本文将语音数据质量问题分为两类:大段语音质量问题(包括非普通话语音、非语音和低信噪比语音)和局部标注质量问题(包括纯净语音和高信噪比语音的文本标注含有插入、删除和替换错误),并开展了如下研究:   首先,对于第一类数据问题,本文使用文本相关语言模型对语音数据进行识别,清洗识别结果和文本标注大段不一致的部分。其次,对于第二类数据问题,使用通用语言模型对第一步保留结果进行识别,保留识别结果和文本标注一致的部分。最后,利用声学模型得分信息对第二步中不一致的部分进行决策选择。   本文分别从数据质量和语音识别性能两方面对本文提出的数据清洗方法进行评价。对于数据质量评价,本文详细标注了新闻类和访谈类电视录音数据的语音类别和文本,构建了10小时的语音数据质量评价数据库。通过本文方法清洗后,相比清洗前,该库新闻数据和访谈数据中适合声学模型训练的数据(包括纯净语音和高信噪比语音),其语音比例相对提高分别为9.05%和5.20%,标注字错误率相对下降分别为58.92%和56.80%。对于语音识别性能评价,从1345小时的电视节目录音数据中挑选出的795小时数据训练得到的声学模型,相比用未清洗数据训练的声学模型,语音识别字错误率相对下降21.88%。
其他文献
如今,各种移动设备已广泛地应用于人们生活,其中手机更是成为日常生活不可缺少的工具。因此,移动设备的可用性问题也引起了研究者的日益关注。传统方式的可用性测试需要在配置了
多任务联盟问题(Multi-Task Coalition Problem,MTCP)是一个复杂的组合优化问题,由于其求解模型可在分布式监控网络、突发灾难救援和电子商务等领域中得到广泛应用,所以一直
随着互联网技术的发展,电子商务、网络银行等网络交易活动也蓬勃发展;但随着网络交易活动的增加,使得这些活动在信息安全领域面临重大挑战。尤其是重要信息的传递和控制非常困
Web服务是一种分布式技术,是基于Web技术的最新成果,被称之为IT技术的第三次革命。Web服务是自包含、自描述及模块化的应用程序,其通过标准的Web协议使得不同平台的应用服务
近年来,随着Internet的快速普及,人们生活方式和认知世界的途径发生了翻天覆地的变化。由于互联网规模和覆盖面的迅速增长,人们主动或被动获取的信息也越来越多,同时,人们想
随着Internet的不断发展和Web服务技术的日益成熟,越来越多稳定、易用的Web服务共享在网络上,然而,单一的Web服务提供的功能毕竟有限,如要想定制、生成满足自身需求的业务,必
射频识别技术(RFID,Radio Frequency Identification)是利用射频原理通过非接触式双向通信方式来交换数据以识别目标的一项技术。随着RFID技术在军事领域、社会公共安全以及商
Internet网络传输和处理能力的大幅度提高以及音频和视频压缩技术的发展和成熟,使得网上音频、视频应用成为Internet上最重要的应用之一,出现了如视频点播、视频会议、远程学
近年来,随着多媒体网络通讯技术的飞速发展,图像和视频编解码技术已经成熟。但是现有的图像视频编解码方法只能以时间或空间为代价,获得解码质量的提升。因此如何以更小的代
利用静电悬浮结合落管来研究无容器微重力条件下材料的本征特性,是研究亚稳态新材料的重要手段。通过温度和图像传感器可测量样品体积和温度的变化,从而得到样品密度、比热、表