基于生成对抗网络的中文语言模型数据增强技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:thardway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文语言模型是一种用于表达中文词序列的概率分布的数学模型,是语音识别系统的关键技术之一,其优劣程度直接影响系统整体性能。由于高质量的中文数据集的稀缺,以及实际自然语言场景中中文词汇组合形式上的多样性,训练出来的中文语言模型常常会出现数据稀疏问题。针对此种现象,一般采用两种解决办法:一种是对用来训练的文本语料进行扩增,即数据增强,另一种是针对用来训练的文本语料的数据分布,改进其平滑算法。然而由于一些算法本身的局限性和存在的缺点,目前较多研究是对训练语料进行数据增强来提高语言模型的性能。针对上述中文语言模型数据稀疏问题,本文提出了一种改进的基于生成对抗网络的文本复述模型来扩增中文文本语料,训练新的语言模型来改善数据稀疏问题,采用分层长短期记忆网络和多级奖励方法增强了对长文本序列的处理能力以及对生成的多样化文本序列的区分能力。实验表明该模型能够较好地的处理中文长文本序列,并能对文本序列输出具有区分度的奖励,解决了常见分类模型判别器反馈信息不足的问题。同时,利用文本复述对原始数据做数据增强,并使用改进的生成对抗网络模型生成的采样数据和原始数据分别训练不同的语言模型,将训练好的两个语言模型进行插值,提高了语言模型对未知数据进行参数估计的鲁棒性。用新语言模型对语音识别的多个候选结果进行择优选取作为最终识别结果,在公开数据集THCHS30和AISHELL上相比较原始数据训练的语言模型性能更好,对语音识别的识别效果有所提高。
其他文献
本文通过对福州市螺洲大桥主桥进行外观检测,结果发现该桥主要存在桥面铺装的磨光、露骨与局部坑槽、伸缩缝与泄水孔的堵塞和钢部件的脱漆、生锈等病害。本文针对这些病害进
随着新一轮重点工程项目的加快推进,一些影响社会稳定的矛盾和问题逐步显现,如果把握和处理不当,不稳定因素就可能被激化和放大。维护工程项目建设领域的稳定,对于顺利推进“重大
本文研究了深点食螨瓢虫在贵州施秉县西山桔园对桔全爪螨的控制效果。结果表明:深点食螨瓢虫较好地控制了桔全爪螨的危害;并且在果园内安全越冬,第二年已建立稳定的种群。
建筑业作为国内传统的支柱产业,在国民经济快速健康发展的新形势下,也正在得到快速地发展,一大批大型基础设施和公共建设项目在各地区不断涌现。大型建设项目是一个复杂的系
我院于2004年引进了最新GSO晶体PET,型号为Allegro。机器运行至今没有出现大的故障,但是近段时间该设备总是不定时的自动关机,且频率越来越高。由于一旦PET非正常关机.操作系统就
PACS(Picture archive and communication system,医学影像存档和转输系统)是现代医院综合化信息管理中的一个重要组成部分.我院已在2000年通过"军卫一号"信息工程系统初步实
我国土壤污染导致的环境生态安全问题已不容小觑,应当引起足够的重视,近期印发的《土壤污染防治行动计划》中明确提出开展土壤环境保护工作,深入开展土壤环境质量调查,推进生态文明建设,实现可持续发展的要求。纵观我国土壤中有机污染物,呈现多种类、多持久、可迁移、可富集、难修复等棘手问题。急需找寻有效的方法针对种类繁多、新型频出的有机污染物进行分析测定,为后续修复保护工作提供有力保障。本文建立了土壤中78种有
维持性血液透析(MHD)患者常常合并钙磷代谢紊乱,而高钙、高磷血症以及钙磷乘积升高是其发生心血管疾病的重要危险因素.临床上高磷血症更常见且更难以纠正,限制了活性维生素D3的
根据西南岩溶山区的地域环境特性。结合可持续发展的内涵,提出了西南岩溶山区实施可持续发展的战略目标和科技对策措施。指出西南岩溶山区应把生态建设和环境保护与科技水平的