中英文混合语音识别中的数据增广方法研究

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户:China_BILLGATES
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着深度学习技术的不断发展以及数据的持续积累,语音识别相关产品已在语音输入、人机交互等领域逐渐达到实用门槛并日臻成熟。但是,中英文混合场景下的语音识别仍然面临技术挑战。为提升中英文混合场景语音识别的准确率,本文提出一种中英文混合文本以及语音数据的增广方法,大幅提升中英文混合场景的训练数据覆盖度。
  关键词:语音识别;中英文混合;数据增广
  引言
  近年来,语音识别作为人工智能领域最为热门的研究方向之一,已经在医疗、车载、会议、庭审等领域广泛应用。语音识别不仅成为语音交互的新入口,更能将非语音快速转换成文本,以提升相关从业人员的工作效率。随着深度学习的不断发展,语音识别的准确率突飞猛进,但在商用过程中仍然面临着诸多挑战,如多语言混合语音识别、低资源语音识别等。其中,伴随着语言信息文化交融的日益加深,多语种混合说话风格越来越频繁的出现在各种场合。因此,以中英文混合场景语音识别为代表的多语种混合识别已成为亟需优化的难点问题。
  本文先简单介绍目前中英文混合场景语音识别的难点和传统方法的局限性,然后提出一种中英文混合文本以及语音数据的增广方法,能够生成高自然度的中英文混合语料,提升中英文数据的覆盖度,解决中英文混合训练语料不足的问题。
  一、中英文混合语音识别的概述
  在传统语音识别系统中,对于不同语种一般采用不同的建模单元进行独立建模。而对于中英文混合场景,如何针对不同的语种进行建模单元的有效融合和区分至关重要。当前方法通常利用语言学知识,寻找不同语种间的联系进行建模单元的融合。如将英文单词按照中文建模单元进行发音词典的构建,以实现建模单元的全共享;或采用中文和英文的建模单元在辅音部分共享、元音部分独立的方式等。这些方式对于多语言混合场景中的语种区分度的改善相对有限。而针对中英文场景训练语料短缺的问题,一般通过搜索替换等方式对纯中文文本语料中的部分中文直接替换为英文。该方式替换类型较为单一,生成的文本语料与实际场景中的中英文风格差异性较大。同时,直接拼接的中英文语音自然度欠佳。因此,基于传统语音识别框架的中英文混合语音识别难以达到实用的门槛。
  随着端到端语音识别技术的推广,中英文混合问题的解决有了新的方向。对于端到端语音识别框架,建模单元的选择空间更大,如中文可以采用汉字建模、英文采用子词建模。这使得中英文场景下的中文、英文的区分性有了明显改善,相互间的串扰有所减少。但是,因中英文混合场景的效果对于数据的强依赖性,数据稀疏化的问题仍待解决。因此,本文提出一种中英文混合文本以及语音数据增广方法。
  二、中英文混合数据增广方法
  (一)中英文混合文本数据增广方法
  常见的中英文混合使用场景包括两种:第一,当无法找到合适的中文表达或中文表达相对拗口时,常采用英文进行替换。如“我们的party开始了(我们的派对开始了)”;第二,为了表达形式的简洁性,也会选择性的使用中英文混合的表达形式,如“你check-in了吗(你办理登机手续了吗)”。这些规律虽然存在,但是无法总结出明确的替换列表以生成真实的中英文语料。因此,本文提出一种基于指针生成网络和对抗网络的中英文文本数据增广方法,利用模型学习这种表达形式的规律性。
  该方法借鉴端到端模型结构,构建一种中英文混合文本语料的生成模型。具体结构如图1所示。模型采用基于注意力机制的编解码器网络结构,其中编码端对双语数据进行编码;注意力机制对输入进行选择并生成上下文向量;解码端学习中英文混合的语法并生成词典概率分布。为了保证模型输出仍在双语句子所含词的范围内,模型同时采用了指针生成网络结构,即在计算最终输出词的概率分布时,将双语句子中词对应的注意力系数与输出层概率分布进行插值,插值系数通过模型学习得到。而模型训练所需要的平行数据,需要借助翻译模型生成。然而,由于真实中英文数据量较少,我们在指针生成模型的基础上增加对抗训练,对抗训练的生成网络(G)即前面的指针生成网络。判别网络(D)输入G生成的数据和真实的中英文数据,并对两者进行判别。通过生成数据和真实数据之间的对抗训练,指针生成模型能够利用更多的纯中文和纯英文数据,生成与实际场景中的中英文表达风格一致的数据。
  (二)中英文混合语音数据增广方法
  基于上文生成的中英文文本语料,本文提出一种拼接合成结合音色转换的语音数据增广方法。首先,利用中英文混合语音合成模型,合成出整句中英混合文本“今天weather很不错”对应的音频,同时获取音频英文词“weather”的发音位置。为了丰富英文发音的多样性,合成模型需要包含多个不同说话人。由于采用整句合成,音频中的英文词包含了上下文的韻律,比单独合成英文词更加自然。然后,将音频中的英文词“weather”切割出,替换掉原始中文音频中的中文词“天气”对应的片段。此时,中英文音频里的中文部分为真实音频,英文词为合成音频。为了保证整句音频音色一致并具有相同的说话人风格,将该音频再经过音色转换模型,从而将整句话的音色转成同一个说话人。因此,合成出的中英混合音频既保留了原始的中文词发音,同时保证了韵律、音色都很自然。
  三、展望
  得益于深度学习的快速发展,中英文混合场景的语音识别效果越来越接近实用。如何构造大规模的中英文混合训练数据成为了解决中英文混合语音识别的关键。本文提出的中英文混合文本以及语音数据增广方法,为语音识别提供覆盖度更高、更符合实际使用场景风格的训练语料。随着以中英文混合为代表的多语种混合语音识别研究的不断深入,将能够更大程度的提升语音识别效果在不同场景的适用性,真正更好的契合信息的全球化潮流。
  参考文献:
  [1] Winata G I, Madotto A, Wu C S, et al. Learn to Code-Switch: Data Augmentation using Copy Mechanism on Language Modeling[J]. 2018.
其他文献
摘 要:随着乡村振兴战略的深入推进,民宿作为乡村旅游重要组成部分蓬勃发展,社会效益、经济效益与技术水平的平衡是民宿设计与建造所面临的最大现实挑战。如何契合地域建筑特征并探索出适合本地的民宿发展模式,已成为影响民宿发展的重要课题。本文通过伊河山庄实践探索,运用建筑策划理论与方法,基于地域性和适宜性视角提出具体的空间营造模式,为乡村民宿设计提供参考。  关键词:乡村;民宿;设计;策划  一、现状与问
期刊
摘 要:随着信息技术的不断发展,其被广泛运用到各个行业领域当中,传统的室分系统已经无法满足时代发展的需要。对此,通过开展基于皮基站架构的室分系统的硬件和软件研发,并对其在未来的应用中产业化的发展方向以及为企业提供的经济效益等进行探究。  关键词:皮基站架构;室分系统;研发;产业化  0引言  扩展型Smallcell是由京信率先在业内提出的Smallcell新产品形态,通过扩展交换汇聚单元和远端
期刊
摘 要:甘肃省地质环境复杂,成矿作用显著,矿产资源相对富集。是国内目前较大的矿产综合资源基地。而位于甘肃省文县境内的某金矿是目前新发现矿点。本文拟通过对该金矿点地质特征的研究,分析其成因,为后续找矿勘查工作提供相关资料。  关键词:文县某金矿;矿床地质特征;成因;找矿标志  前言:该金矿大地构造位置隶属于上扬子板块,主要位于其西北缘。北侧与秦岭造山带相连,以文县-康县断裂带为界,南侧以青川-勉县
期刊
摘 要:随着科技的迅猛发展人们的生活水平已经得到了显著提高,家家户户都配备了电视、电脑等众多娱乐电子设施,这对于电视的发展来说是一个机遇,但这也就意味着竞争也越来越激烈,电视节目想要发展就必须推陈出新这样才能赢得挑战最终的胜利,而新媒体技术的出现给电视节目的制作提供了更加新颖的方法来吸引观众的注意力,提高了电视节目在众多电子娱乐项目中的竞争实力。  关键词:新媒体技术;电视节目;制作  引言: 
期刊
摘 要:现阶段,随着我国通信技术的不断发展,通信工程的地位日益提升。通信工程与信息技术的发展密切相关,同时,通信技术涉及到的领域比较多,除了移动通信和计算机通信与安全技术之外,还有语音处理、多媒体技术、宽带、卫星、光纤通信等。由于通信工程与人们的生活密切相关,可以保证人们能够充分享受到移动通信所带来的优势,随时随地享受到语音通信等服务,还可以保证网络信息资源得到共享,因此,通信工程对于人们生活的
期刊
摘 要:本文在研究中以大型智能化工程项目管理为核心,从过程管理、重点管理、问题管理和质量管理等方面入手,构建大型智能化工程项目管理体系,提高管理效率和管理水平,促进大型智能化工程项目最大效益的实现,并为相关研究人员提供一定的借鉴和帮助。  关键词:大型智能化工程;项目管理;过程管理  随着智慧城市建设和发展,大型智能化工程项目数量逐渐提升,项目管理工作事关重要,聘请外部专业监理单位,提高对大型智
期刊
摘 要:社会经济的快速增长使大众的提升了日常用电需求,对于用电质量的要求也逐渐升高。电力系统内部为了保证电力企业能够稳定输电就需要以配电自动化系统为基础,采取合理的配电管理措施,从而使电力系统供电质量得到一定的保证。本文基于新时期配电自动化与配电管理实施了分析与探究。  关键词:配电自动化;配电管理;探究  新时代的到来使信息化技术的普及范围不断扩大,科学技术在各行各业都得到了较为广泛的使用。电
期刊
摘 要:深度学习技术属于AI领域的一个分支,它在语音识别以及计算机视觉等方面都具有十分飞速的发展,特别是高新技术的快速发展,人工智能领域也得到了有效的推动,图像识别技术作为人工智能领域的重要课题,包括分类识别和特征提取两大模块,同时深度学习广泛应用在图像识别、语音识别等众多领域。笔者就深度学习在图像识别中的应用进行深入分析,主要从人脸识别、遥感图像分类等诸多方面进行阐述,其目的是为相关从业人员提
期刊
摘 要:为避免或减少雷击灾害后形成的人身伤亡和财产损失,进一步提升已建加油站的安全系数,防雷装置的日常巡检与维护显得尤为重要,本文通过日常巡视、定期检测和管理制度三部分,阐述了加油站防雷装置的巡检与维护。  关键词:巡视;检测;维护  完好可靠的防雷接地装置对降低雷击风险,保护人民生命财产安全有至关重要的作用,除了对防雷设计、施工和竣工验收进行严格的把关外,还应加强在工作中的巡检和维护,把隐患消
期刊
摘 要:本文介绍了一种智能立体停车库中所用的超薄型夹持式汽车搬运器,可实现无基坑自由交换汽车。文章详细分析了搬运器的工作原理和结构组成。使用力学仿真软件有限元建模,对搬运器进行各工况下变形和强度的力学分析。分析结果表明,整机安全裕度符合设计指标要求。  关键词:夹持式汽车搬运器;汽车交换;立体车库  引言  近年来,随着经济的发展,停车已成为各个城市越来越难解决的问题,高密度的仓储式机械车库成为
期刊