SVM-HMM和基于纠错反馈驱动学习方法在汉语韵律短语预测中的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:mahw9866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展,语音合成技术也得到快速的发展并逐步渗透到社会生活的各个领域。但现阶段汉语语音合成中还存在一些问题,主要体现在输出语音的可懂度和自然度上。本文在对汉语韵律结构层级、声学特性以及目前最常用的几种汉语韵律短语预测机器学习方法调研的基础上,提出了一种基于支持向量机和隐马尔科夫混合模型(Support Vector Machine and Hidden Markov Model,SVM-HMM)的韵律短语边界预测方法;与此同时,为了进一步提高汉语韵律短语边界的准确度,本文还引入了一种基于纠错反馈驱动的学习方法来作为SVM-HMM模型的后处理方法,并实现了一个全自动的汉语韵律短语边界预测及标注系统。现阶段,在汉语韵律短语边界预测任务中广泛应用的统计模型为隐马尔科夫模型、最大熵马尔科夫模型以及条件随机场模型。其中最为成功的统计模型为条件随机场模型。本文所采用的SVM-HMM模型结合了支持向量机模型和隐马尔科夫模型各自的优点,同时克服了隐马尔科夫模型中的严格独立假设和难以引入任意特征等问题。和传统的机器学习方法相比,该模型仅用有限的训练数据进行训练就能够取得较好的预测效果。当前,SVM-HMM模型已经被应用在一些自然语言处理问题中,如:词性标注,汉语切分等。本文首次将支持向量机和隐马尔科夫的混合模型应用在汉语韵律短语边界预测任务中,并通过实验表明,在使用相同特征模板的情况下,SVM-HMM模型稍优于条件随机场,和最大熵马尔科夫相比更适合于汉语韵律短语的预测。   通过对SVM-HMM模型在汉语韵律短语预测实验结果的分析可知,单纯利用SVM-HMM模型的方法来预测韵律短语边界信息会带来一些很明显的错误。而这种错误的结果是由于系统在训练学习时的一些固定模式所导致的结果,因此为了进一步提高韵律短语边界预测的准确度,本文提出了一种基于纠错反馈驱动的学习方法(Transformation-baseed Error-Driven Learning Method,TBL)来对SVM-HMM标注模块所标注结果的错误部分进行了后处理,取得了很好的效果。
其他文献
当今,很多场所都已经安装了监控设备,为了获得并保存重要的视频数据,目的是保障安全。如果有人故意针对其进行恶意篡改来达到不良目的,可能会对个人和社会造成很大程度上的负
随着信息技术的飞速发展,越来越丰富的信息传播方式出现并影响着人们的生活。短文本是指长度较短(通常少于160个字)的文本,它通常以手机短信、微博、网页评论等形式广泛存在于
随着信息量的爆炸式增长,信息存储技术显得越来越重要。个人计算机磁盘容量也越来越大,企业的存储容量更是以较快的速度增长。许多企业要求它们的数据不仅全面而且可靠。黑客、
软件体系结构关注系统的全局组织形式,描述系统的高层抽象结构;其核心要素包括构件、连接件和配置(约束)。软件体系结构对于控制软件系统复杂性、改善软件质量、支持软件开发
学位
车载自组织网络(Vehicular Ad Hoc Network,VANET)作为移动自组织网络(MANET)在智能交通系统(Intelligent Transport System,ITS)中的重要应用,可以有效实现城市道路上车辆之间
随着高等教育的快速发展,教育模式渐渐由精英教育向大众教育转变,教学质量更加被人们关注。教学质量是培养高素质人才的基本保证,随着高等教育规模的发展和社会对人才质量要求的
随着软件的开发对可复用性越来越重视,软件可复用性从原有的构件复用逐步上升为整个软件体系结构的复用。本文基于领域工程的思想和研究理论,结合济南市大气颗粒物监控预警管理
网络蠕虫经常被用来盗取用户的私人信息、毁坏用户的系统和发起DoS攻击等,给网络安全造成了严重的威胁。近年来,随着P2P网络应用的不断增加,P2P蠕虫也随之迅速发展起来。由于P2P
随着移动终端设备的普及和它各种性能不断提高,人们对移动终端设备的依赖性逐渐增加,不再满足于移动终端设备简单的通信功能,而是希望移动终端设备能像普通电脑一样,通过无线通信