多语言单词字音转换的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:na2222222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音识别和语音合成的应用系统中,经常会遇到发音词典中没有的单词,因此需要提供一个模块自动的为这类单词注音,这个任务称为单词的字音转换(grapheme-to-phoneme conversion)。在几十年的研究历史中,研究者试图从两个方向解决这个问题,即利用基于专家知识的手写规则方法和数据驱动的基于机器学习的方法。近年来的实践表明,后者在转换准确性、语言独立性等方面都超过了前者,但是对于英语这样的发音规律性很差的语言,现有的方法还不能达到满意的性能。本文针对字母语言的单词字音转换问题做了细致深入的研究,主要贡献和创新点归纳如下:   1.改进了基于决策树的字音转换方法。在已经提出的诸多基于机器学习的方法中,基于决策树的方法获得了很好的效果,但是现有文献中缺乏对实现中一些关键因素的讨论。本文通过实验分析了这些因素对系统整体性能的影响,证明通过细致的调节,可以大幅提高字音转换的准确率。另外,还提出了两个新的方法,解决了词典的字音对齐和快速寻找最优剪枝参数的问题。   2.提出了基于Bagging和随机森林的字音转换方法。决策树方法虽然可以很好的描述训练数据,但是泛化能力有限:泛化错误可以分解为模型的偏倚和方差,单一的决策树无法同时降低这两部分。Bagging和随机森林都属于聚合分类器,它们通过在训练过程中引入随机因素,使用相同的训练数据得到许多不同的决策树分类器,将它们的分类结果投票产生最后的输出,同时降低了偏倚和方差,因而降低了泛化错误率。实验证明,使用这两个方法可以取得明显优于决策树的字音转换准确率。   3.提出了基于AdaBoost的字音转换方法。AdaBoost方法通过对训练样本加权,根据分类错误调节权重,迭代训练若干分类器,最后将这些分类器的结果加权投票产生最终的分类结果。AdaBoost使用自适应调节权重的方法,使分类器更侧重于对分类错误率高的训练样本进行分类,通过投票的方式可以将所谓的“弱分类器”组合为“强分类器”,得到很好的分类能力。本文提出的基于AdaBoost的字音转换方法也取得了比决策树方法更高转换准确率。   4.将本文提出的几种方法整合为一个融合系统,在NETtalk和CMU两个英文词典测试集上得到的转换准确率高于已发表文献中的最高水平。
其他文献
开放式数控系统是各发达国家在20世纪90年代开始争先发展的新型控制器。目前,数控技术正在发生根本性变革,由专用、封闭、开环控制模式向通用、开放、实时动态、全闭环控制模
随着火电厂电力生产向着大容量机组方向发展,锅炉过热汽温对象的惯性和延迟也越来越大,使得控制起来更加复杂。传统的PID参数整定方法因其过分依赖于被控对象精确的数学模型,忽
近年来,随着互联网的迅猛发展和普及,在线新闻浏览已经成为社会媒体中用户获取信息的重要途径。同时,当社会事件发生时,人们也会积极地参与其中:发表观点、表达意愿,并由此产生了
本文采用跟随领航者法研究多水下机器人(Unmanned Underwater Vehicles,UUVs)的队形控制,研究内容主要包括三个方面:设计基于运动学模型的多UUVs队形控制器;将该队形控制器结合机
当前,在军事及民用领域中,空中机器人有着广泛的应用价值。比如侦察巡逻、自然灾害的监视与支援等,这些一直受到国内外政府和民间的普遍重视。空中机器人技术也吸引了各国专
交通事故已逐渐成为当今社会的“第一杀手”,据相关数据表明,疲劳驾驶是造成交通事故的一个主要原因。因此,如何有效地检测和预防疲劳驾驶,对降低交通事故的发生具有重要的现实意
在三维散乱点云模型曲面重建领域中,隐式曲面重建技术因具备易于实现交、差、并等集合操作,能准确表示拓扑结构复杂的几何形体,对轻微的噪声不敏感等特点,受到国内外专家学者的高
生物特征识别技术是近年来计算机视觉和模式识别领域中的一大热点问题。作为这项技术的一个新成员,手背静脉识别受到越来越多的关注。目前这种技术存在三个难点,第一是可见光下
学位
粗糙集理论作为一种强有力的数据分析和知识获取工具,正被越来越多的学者尝试应用到实际的生产过程分析中,然而面对日益庞大的数据库记录以及丰富的不确定信息,现阶段粗糙集理论
城市公共交通是与人民群众生产生活息息相关的重要基础设施。改革开放以来,我国城市公共交通有了较快发展,但随着经济社会发展和城镇化进程的加快,我国各大中城市交通拥堵、群众