基于AMEMM的汉语韵律短语预测系统的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:hjss2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机智能技术的飞速发展,语音合成已经越来越广泛地应用于社会生活的各个方面。其中合成自然度不够高的问题一直困扰着语音合成的发展。   本文在对汉语韵律结构预测研究的历史和现状做了较为完整调研的基础上,采用统计机器学习的方法,提出了一种基于最大熵马尔可夫模型的汉语韵律短语边界预测方法;与此同时,为减少制作韵律标注库时的手工工作量,本文引入一种应用于最大熵马尔可夫模型的主动学习方法,并实现了一个汉语韵律短语边界标注及预测的原型系统。   目前,对于汉语韵律短语边界的预测最成功的当属最大熵模型。本文采用的最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)结合了最大熵模型和隐马尔可夫模型的优点。目前,MEMM已被应用于自然语言处理的一些方面,例如:词性标注,文本分割等。本文实验比较了最大熵模型和最大熵马尔可夫模型的预测效果,指出在使用相同特征模板的情况下,最大熵马尔可夫模型更适合于汉语韵律短语的预测。   在使用传统的机器学习方法进行分类时,为了得到好的训练结果就需要一个很大的训练集。而对训练集的人工标注是一件很费时费力的工作,尤其是针对语音合成所使用的汉语韵律语料库,迄今为止可利用的资源又很有限。本文基于主动学习的原理,引入一种应用于最大熵马尔可夫模型的主动学习方法,并将该方法应用于汉语韵律短语边界的预测,从而实现了一个原型系统。本系统通过人机协作的方式,在一个部分标注的训练集的基础上由计算机寻找出最需要被标注的数据,然后由人工来标注,如此迭代直到训练出的模型达到用户满意。多组实验证明应用该方法可以较好地解决韵律标注的主动学习问题,从而达到在大大降低人工工作量的基础上,利用部分已标注数据,仍然可以较好地完成汉语韵律短语边界预测的目的。
其他文献
目前的语义Web服务发现方法,由于受用户所处环境上下文信息的约束,所发现的服务尚不能很好地满足用户的期望。如何有效地整合上下文信息以实现Web服务的发现成为新的研究热点
随着Internet和计算机技术的迅猛发展,以视频点播、远程教育为代表的流媒体业务不断涌现,在Internet上开展流媒体直播或点播业务是未来的发展方向。为满足流媒体对带宽、实时
结合定性推理、空间推理[1]与人工智能产生的定性空间推理,已成为人工智能的一个研究热点。定性空间推理研究的是人类对几何空间中的空间对象及其关系定性认知常识的表示与处
实体关系抽取是在自然语言文本中识别实体之间语义关系的任务。本文首先提出了一套新颖的基于复合型核函数的中文实体关系抽取方法,它定义在两个独立的核函数基础上,其中一个
人脸检测和特征提取作为人脸信息处理中的关键技术,近年来,在模式识别与计算机视觉领域,己经成为一个受到普遍重视、研究十分活跃的课题。人脸检测与特征提取被广泛运用于人
目标人体识别是一个非重叠多摄像系统中人的重现(person re-identification)问题,该技术在智能视频监控领域中具有重要的应用,主要包括目标人体提取、非重叠摄像系统目标跟踪
软件测试是保障软件质量的重要手段,软件测试在软件开发中的地位也日益重要。其中数据流技术作为一种白盒测试技术,能提供充分的代码覆盖,已经被广泛应用到面向对象软件测试
脉冲时滞神经网络是时滞大系统的一个重要组成部分,它不仅反映了过去状态对当前状态的影响,而且反映了脉冲在系统中的重要作用,具有十分丰富的动力学行为。事实上,它已成为刻
随着互联网的飞速发展,越来越多的用户愿意通过互联网发表自己的观点。对这些主观性文本进行分析和挖掘,从而识别出其中所蕴含的情感倾向,对于电子商务、舆情监控等众多领域
随着在我国数字化校园概念的提出,校园一卡通系统在校园里得到了广泛的应用。校园一卡通系统代替了传统的校园管理模式,给校园的日常管理,生活带来了方便。对于校园一卡通系