论文部分内容阅读
本文介绍了面向智能手机语音识别技术应用的大规模汉语语音数据库,本数据库也可以作为 训练和测试样本用于语音识别的研究与产品化。考虑到实际应用场景,本数据库共采集1200人语音,每人分别在安静和噪声环境下以朗读、自由回答等方式录制150句,语料内容涵盖手机应用的各种情况,每份语料各不相同,同时手机设备覆盖目前主流的四款智能手机操作平台,并且对发音人性别、年龄、方言区进行了很好的均衡。除语音文件外,本数据库对多种噪声进行了详尽的转写标注,提取并校对了囊括了词频和拼音信息的汉语发音字典。