基于半监督学习的汉语韵律短语预测研究

来源 :天津师范大学 | 被引量 : 4次 | 上传用户:ashwingangel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是当今计算机智能应用领域的研究热点,目前它越来越广泛地应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益。随着当今社会计算机技术的快速发展,语音合成技术研究的不断深入,人们不但越来越需要了解自然话语的韵律结构,而且努力寻找通过文本信息预测韵律结构的方法,以便更加有效地提高合成语音的自然度和语音识别的准确率,同时加深自然语言理解的深度。语音合成,特别是汉语文语转换,首先需要在前端为输入的文本确定韵律结构来实现韵律合成。目前,文语转换的前端可利用的一般只有来自文本分析的信息,而缺乏韵律的信息。因此,值得探索的一个热点便是如何在文本信息的基础上来预测可能的韵律结构。现如今,这方面已经有各种各样的探索,也提出了一些较为有效的方法。不过,这方面还有潜力可挖,也有必要寻找更为全面的预测方法。因此本文主要研究的韵律结构预测,对于改善语音合成系统的自然度具有重要的应用意义。韵律结构预测的研究往往需要制作较大规模的标注语料库,于是就会产生大量的手工工作,特别是针对语音合成用的韵律语料库,到目前为止可利用的资源又非常的有限。为了减少标注训练语料库所需要的大量的时间以及人力,本文将基于互训练的半监督学习方法用于汉语韵律短语预测。由于条件随机场模型(Conditional Random Fields,CRFs)克服了隐马尔可夫模型中的严格独立假设和最大熵马尔可夫模型中的标注偏置问题,因此,本文将CRFs用于半监督学习中的初始分类器。本文实现了一个全自动的汉语韵律短语预测系统,该系统利用少量的已标注数据以及大量的未标注数据进行汉语韵律短语预测。多组实验证明,在同等规模训练集上,应用互训练的半监督方法可以有效提高模型训练得到的预测准确率,进而降低了人工的工作量,并且利用少量己标注数据完成对汉语韵律短语的预测。
其他文献
Web技术的广泛应用给人们的工作和生活带来了巨大的影响。由于Web技术具有开放性强和平台独立等特点,极大的降低了软件与网络通信系统的设计、开发和维护的工作量,减少了人员
多智能体系统(Multi-Agent System,MAS)通过建立一种有效的协作机制,使得相互独立、功能简单的智能个体协作完成复杂的目标任务。MAS技术已广泛应用于智能交通的建模、机器人足球
随着互联网行业的进展,越来越多的数据出现在各行各业中,极大地推动了社会的进步和时代的发展。而随着海量数据的增长,各种技术应运而生。另一方面,固态硬盘等硬件的应用,又使得数
随着网络的发展,特别是云计算时代的到来,分布式系统的安全问题越来越重要。基于角色访问控制是一种很有效的保证系统安全性的技术。然而现有的基于角色访问控制还不能完全适应
近年来,互联网技术飞速的发展,一些实时的、无限的、连续的、有序的数据应用范围越来越广,这种形式的数据被称之为数据流,它应用于传感器数据分析、互联网流量监控、金融行情分析
无线传感器网络技术是近几年来在信息获取领域研究的一个热点,它融入了信号分析、电子信息工程、无线通信技术、无线传感器技术、计算机信息处理技术等多个领域,具有明显的众多
随着传统互联网在扩展性、移动性和安全性等方面面临着越来越巨大的挑战,软件定义网络(software-defined networking,SDN)随之应运而生。OpenFlow技术作为SDN体系结构的实际
自然科学、工程技术、社会科学中存在着大量的偏微分方程(PDEs).然而,许多PDEs的真解很难得到,或以实用的表达式表出.因此,为获得PDEs的近似解,发展高性能的PDEs数值解法是十分必
目前,企业级用户的广域网传输问题主要来自两方面,即链路与应用。链路问题包括带宽受限、网络时延大、丢包率严重等;应用的问题则集中于大数据量的传输,以及应用自身在广域网