论文部分内容阅读
摘 要:随着深度学习技术的不断发展以及数据的持续积累,语音识别相关产品已在语音输入、人机交互等领域逐渐达到实用门槛并日臻成熟。但是,中英文混合场景下的语音识别仍然面临技术挑战。为提升中英文混合场景语音识别的准确率,本文提出一种中英文混合文本以及语音数据的增广方法,大幅提升中英文混合场景的训练数据覆盖度。
关键词:语音识别;中英文混合;数据增广
引言
近年来,语音识别作为人工智能领域最为热门的研究方向之一,已经在医疗、车载、会议、庭审等领域广泛应用。语音识别不仅成为语音交互的新入口,更能将非语音快速转换成文本,以提升相关从业人员的工作效率。随着深度学习的不断发展,语音识别的准确率突飞猛进,但在商用过程中仍然面临着诸多挑战,如多语言混合语音识别、低资源语音识别等。其中,伴随着语言信息文化交融的日益加深,多语种混合说话风格越来越频繁的出现在各种场合。因此,以中英文混合场景语音识别为代表的多语种混合识别已成为亟需优化的难点问题。
本文先简单介绍目前中英文混合场景语音识别的难点和传统方法的局限性,然后提出一种中英文混合文本以及语音数据的增广方法,能够生成高自然度的中英文混合语料,提升中英文数据的覆盖度,解决中英文混合训练语料不足的问题。
一、中英文混合语音识别的概述
在传统语音识别系统中,对于不同语种一般采用不同的建模单元进行独立建模。而对于中英文混合场景,如何针对不同的语种进行建模单元的有效融合和区分至关重要。当前方法通常利用语言学知识,寻找不同语种间的联系进行建模单元的融合。如将英文单词按照中文建模单元进行发音词典的构建,以实现建模单元的全共享;或采用中文和英文的建模单元在辅音部分共享、元音部分独立的方式等。这些方式对于多语言混合场景中的语种区分度的改善相对有限。而针对中英文场景训练语料短缺的问题,一般通过搜索替换等方式对纯中文文本语料中的部分中文直接替换为英文。该方式替换类型较为单一,生成的文本语料与实际场景中的中英文风格差异性较大。同时,直接拼接的中英文语音自然度欠佳。因此,基于传统语音识别框架的中英文混合语音识别难以达到实用的门槛。
随着端到端语音识别技术的推广,中英文混合问题的解决有了新的方向。对于端到端语音识别框架,建模单元的选择空间更大,如中文可以采用汉字建模、英文采用子词建模。这使得中英文场景下的中文、英文的区分性有了明显改善,相互间的串扰有所减少。但是,因中英文混合场景的效果对于数据的强依赖性,数据稀疏化的问题仍待解决。因此,本文提出一种中英文混合文本以及语音数据增广方法。
二、中英文混合数据增广方法
(一)中英文混合文本数据增广方法
常见的中英文混合使用场景包括两种:第一,当无法找到合适的中文表达或中文表达相对拗口时,常采用英文进行替换。如“我们的party开始了(我们的派对开始了)”;第二,为了表达形式的简洁性,也会选择性的使用中英文混合的表达形式,如“你check-in了吗(你办理登机手续了吗)”。这些规律虽然存在,但是无法总结出明确的替换列表以生成真实的中英文语料。因此,本文提出一种基于指针生成网络和对抗网络的中英文文本数据增广方法,利用模型学习这种表达形式的规律性。
该方法借鉴端到端模型结构,构建一种中英文混合文本语料的生成模型。具体结构如图1所示。模型采用基于注意力机制的编解码器网络结构,其中编码端对双语数据进行编码;注意力机制对输入进行选择并生成上下文向量;解码端学习中英文混合的语法并生成词典概率分布。为了保证模型输出仍在双语句子所含词的范围内,模型同时采用了指针生成网络结构,即在计算最终输出词的概率分布时,将双语句子中词对应的注意力系数与输出层概率分布进行插值,插值系数通过模型学习得到。而模型训练所需要的平行数据,需要借助翻译模型生成。然而,由于真实中英文数据量较少,我们在指针生成模型的基础上增加对抗训练,对抗训练的生成网络(G)即前面的指针生成网络。判别网络(D)输入G生成的数据和真实的中英文数据,并对两者进行判别。通过生成数据和真实数据之间的对抗训练,指针生成模型能够利用更多的纯中文和纯英文数据,生成与实际场景中的中英文表达风格一致的数据。
(二)中英文混合语音数据增广方法
基于上文生成的中英文文本语料,本文提出一种拼接合成结合音色转换的语音数据增广方法。首先,利用中英文混合语音合成模型,合成出整句中英混合文本“今天weather很不错”对应的音频,同时获取音频英文词“weather”的发音位置。为了丰富英文发音的多样性,合成模型需要包含多个不同说话人。由于采用整句合成,音频中的英文词包含了上下文的韻律,比单独合成英文词更加自然。然后,将音频中的英文词“weather”切割出,替换掉原始中文音频中的中文词“天气”对应的片段。此时,中英文音频里的中文部分为真实音频,英文词为合成音频。为了保证整句音频音色一致并具有相同的说话人风格,将该音频再经过音色转换模型,从而将整句话的音色转成同一个说话人。因此,合成出的中英混合音频既保留了原始的中文词发音,同时保证了韵律、音色都很自然。
三、展望
得益于深度学习的快速发展,中英文混合场景的语音识别效果越来越接近实用。如何构造大规模的中英文混合训练数据成为了解决中英文混合语音识别的关键。本文提出的中英文混合文本以及语音数据增广方法,为语音识别提供覆盖度更高、更符合实际使用场景风格的训练语料。随着以中英文混合为代表的多语种混合语音识别研究的不断深入,将能够更大程度的提升语音识别效果在不同场景的适用性,真正更好的契合信息的全球化潮流。
参考文献:
[1] Winata G I, Madotto A, Wu C S, et al. Learn to Code-Switch: Data Augmentation using Copy Mechanism on Language Modeling[J]. 2018.
关键词:语音识别;中英文混合;数据增广
引言
近年来,语音识别作为人工智能领域最为热门的研究方向之一,已经在医疗、车载、会议、庭审等领域广泛应用。语音识别不仅成为语音交互的新入口,更能将非语音快速转换成文本,以提升相关从业人员的工作效率。随着深度学习的不断发展,语音识别的准确率突飞猛进,但在商用过程中仍然面临着诸多挑战,如多语言混合语音识别、低资源语音识别等。其中,伴随着语言信息文化交融的日益加深,多语种混合说话风格越来越频繁的出现在各种场合。因此,以中英文混合场景语音识别为代表的多语种混合识别已成为亟需优化的难点问题。
本文先简单介绍目前中英文混合场景语音识别的难点和传统方法的局限性,然后提出一种中英文混合文本以及语音数据的增广方法,能够生成高自然度的中英文混合语料,提升中英文数据的覆盖度,解决中英文混合训练语料不足的问题。
一、中英文混合语音识别的概述
在传统语音识别系统中,对于不同语种一般采用不同的建模单元进行独立建模。而对于中英文混合场景,如何针对不同的语种进行建模单元的有效融合和区分至关重要。当前方法通常利用语言学知识,寻找不同语种间的联系进行建模单元的融合。如将英文单词按照中文建模单元进行发音词典的构建,以实现建模单元的全共享;或采用中文和英文的建模单元在辅音部分共享、元音部分独立的方式等。这些方式对于多语言混合场景中的语种区分度的改善相对有限。而针对中英文场景训练语料短缺的问题,一般通过搜索替换等方式对纯中文文本语料中的部分中文直接替换为英文。该方式替换类型较为单一,生成的文本语料与实际场景中的中英文风格差异性较大。同时,直接拼接的中英文语音自然度欠佳。因此,基于传统语音识别框架的中英文混合语音识别难以达到实用的门槛。
随着端到端语音识别技术的推广,中英文混合问题的解决有了新的方向。对于端到端语音识别框架,建模单元的选择空间更大,如中文可以采用汉字建模、英文采用子词建模。这使得中英文场景下的中文、英文的区分性有了明显改善,相互间的串扰有所减少。但是,因中英文混合场景的效果对于数据的强依赖性,数据稀疏化的问题仍待解决。因此,本文提出一种中英文混合文本以及语音数据增广方法。
二、中英文混合数据增广方法
(一)中英文混合文本数据增广方法
常见的中英文混合使用场景包括两种:第一,当无法找到合适的中文表达或中文表达相对拗口时,常采用英文进行替换。如“我们的party开始了(我们的派对开始了)”;第二,为了表达形式的简洁性,也会选择性的使用中英文混合的表达形式,如“你check-in了吗(你办理登机手续了吗)”。这些规律虽然存在,但是无法总结出明确的替换列表以生成真实的中英文语料。因此,本文提出一种基于指针生成网络和对抗网络的中英文文本数据增广方法,利用模型学习这种表达形式的规律性。
该方法借鉴端到端模型结构,构建一种中英文混合文本语料的生成模型。具体结构如图1所示。模型采用基于注意力机制的编解码器网络结构,其中编码端对双语数据进行编码;注意力机制对输入进行选择并生成上下文向量;解码端学习中英文混合的语法并生成词典概率分布。为了保证模型输出仍在双语句子所含词的范围内,模型同时采用了指针生成网络结构,即在计算最终输出词的概率分布时,将双语句子中词对应的注意力系数与输出层概率分布进行插值,插值系数通过模型学习得到。而模型训练所需要的平行数据,需要借助翻译模型生成。然而,由于真实中英文数据量较少,我们在指针生成模型的基础上增加对抗训练,对抗训练的生成网络(G)即前面的指针生成网络。判别网络(D)输入G生成的数据和真实的中英文数据,并对两者进行判别。通过生成数据和真实数据之间的对抗训练,指针生成模型能够利用更多的纯中文和纯英文数据,生成与实际场景中的中英文表达风格一致的数据。
(二)中英文混合语音数据增广方法
基于上文生成的中英文文本语料,本文提出一种拼接合成结合音色转换的语音数据增广方法。首先,利用中英文混合语音合成模型,合成出整句中英混合文本“今天weather很不错”对应的音频,同时获取音频英文词“weather”的发音位置。为了丰富英文发音的多样性,合成模型需要包含多个不同说话人。由于采用整句合成,音频中的英文词包含了上下文的韻律,比单独合成英文词更加自然。然后,将音频中的英文词“weather”切割出,替换掉原始中文音频中的中文词“天气”对应的片段。此时,中英文音频里的中文部分为真实音频,英文词为合成音频。为了保证整句音频音色一致并具有相同的说话人风格,将该音频再经过音色转换模型,从而将整句话的音色转成同一个说话人。因此,合成出的中英混合音频既保留了原始的中文词发音,同时保证了韵律、音色都很自然。
三、展望
得益于深度学习的快速发展,中英文混合场景的语音识别效果越来越接近实用。如何构造大规模的中英文混合训练数据成为了解决中英文混合语音识别的关键。本文提出的中英文混合文本以及语音数据增广方法,为语音识别提供覆盖度更高、更符合实际使用场景风格的训练语料。随着以中英文混合为代表的多语种混合语音识别研究的不断深入,将能够更大程度的提升语音识别效果在不同场景的适用性,真正更好的契合信息的全球化潮流。
参考文献:
[1] Winata G I, Madotto A, Wu C S, et al. Learn to Code-Switch: Data Augmentation using Copy Mechanism on Language Modeling[J]. 2018.