基于句法特征的汉语韵律边界预测的研究

被引量 : 0次 | 上传用户:jimchenstong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学与技术的发展,高自然度的语音合成成了人工智能、语音信号处理以及人机交互领域一个重要的研究课题。现阶段的语音合成技术研究重点是实现汉语文语转换系统(CTTS),将输入的文本按语音处理规则自动地转换为声学信号输出。为了更准确预测出输入文本的韵律边界信息,提高输出语音的自然度,本文建立了文本语料库,统计分析了语法特征、句法特征和韵律结构的关系,对比分析了词性、词长和邻接度等各个参数对韵律边界预测的影响,最终利用TBL算法来实现对汉语韵律边界的预测。论文的研究结果对于揭示文本与语音之间的关系、提高合成语音的自然度具有重要的理论意义和应用价值。论文的主要研究成果和创新如下:1.设计并建立了一个含句法信息的大规模的汉语文本语料库。本文利用面向web基于XML的中文信息处理平台——语言技术平台LTP,对句子进行句法结构拆分;语料信息标注结果均通过了专家的抽样检查,达到了科研要求,可用于韵律边界的预测。该语料库包含约10000句标准语法的汉语文本语料,平均句长为52字。2.统计分析了语法特征、句法特征和韵律结构的关系,提出了一个用于汉语韵律边界预测的新特征——邻接度。对文本信息的统计分析表明:文本语料中语法词在该句子中的句法层级和韵律结构有很大的相关性。本文提出用邻接度(Adjacent Degree,AD)这一概念来描述文本语料中语法词在该句子中的句法层级,并将它作为新的韵律结构的预测参数,反映句法结构和韵律结构的关系。因此,标注汉语语料时追加了邻接度这一反映句法特征的信息。3.提出将词性、词长和邻接度等特征作为韵律预测的参数,并对比分析了词性、词长和邻接度等特征对韵律边界预测的影响。本文对汉语语料库的文本信息进行了统计分析,根据分析结果选用了词性、词长和邻接度等特征作为韵律边界预测的重要参数。4.提出了一种能有效预测韵律边界的统计学习算法——TBL算法。TBL算法是一种基于转换的错误驱动学习算法,它能在人工规则模板不适用时自动地从实例中学习新规则,并将新规则添加到已有的规则模板中。实验结果表明,该方法在测试集上韵律词的预测精度达到了98.4%,韵律短语的预测精度达到了82.7%,均优于现有的同类研究结果。
其他文献
福田作为深圳的新中心区,具有得大独厚的区位优势.自1990年建区以来,辖区经济保持持续高速增长态势,"大经济"格局已初具规模,市场经济体系进一步健全,投资发展环境及配套设施
目的:观察电针百会、神庭配合康复训练治疗脑卒中后认知障碍的临床疗效。方法:50例脑卒中后认知障碍患者,随机分为对照组和治疗组各25例。对照组进行常规认知康复训练,治疗组
庄子作为文化史上的著名人物,他的文章在哲学、文学和美学上均达到了极高的境界。本文对《庄子》中的梦意象从三各方面分别作了阐释和论述。第一章简要介绍了庄子所处的时代背
在基础教育新课程改革进程中,大量存在的教学观念与教学行为背离现象促使我们去审视其原因。从主体外部来看,诸多制约因素呈现为茧式状态;从主体自身来看,亦有许多因素使教学观念
本文介绍了美国杜邦公司生产的芒纶产品Kevlar的各项性能。由于Kevlar纤维强度极高、模量极大、绝缘性和热性能稳定,使它成为光缆产品绝佳的增强材料,在全球的光缆行业中已愈发确立了其不可
目的探讨自体多种细胞因子诱导的杀伤细胞(CIK)生物免疫疗法联合放化疗治疗局限期小细胞肺癌(SCLC)的临床疗效。方法选取2007年1月—2010年2月于郑州大学第一附属医院收治的
素质教育是当代先进教育理念下的一种教育模式,它既不同于西方教育模式,又不同于应试教育模式,它是我国现代社会发展的产物,是与时俱进具有中国特色的现代教育模式.
农村是我国行政区划体系中最基层的一级。农村集体经济是公有制经济的重要组成部分,是稳定和完善农村基本经营制度的重要内容,也是加快农村全面建成小康社会的重要保障。分析
超级电容器是一种新型的储能装置,因其超高的比功率和良好的循环寿命而引起了许多学者的研究兴趣。它有效地结合了物理电容器高功率密度及传统电池高能量密度的优点,因此,其应用
创新是人类主观能动性的一种高级表现,是推动社会进步和发展的不竭动力.对教师而言,培养学生的创新能力不仅是教学目标,更是新时代的要求.数学作为一门以逻辑思维为主的学科,