论文部分内容阅读
当前,随着计算机技术的飞速发展,语音学和言语工程技术(包括语音识别和语音合成)也获得了日新月异的进展,并且越来越多的应用到了实际产品中去,语音输入系统、人机对话系统、计算机辅助语言学习系统等等不断涌现出来,为人们的生活和学习提供了越来越好的服务。与此同时,语音学和言语工程技术还面临着许多新的挑战。语音科学目前正处于从处理孤立话语向处理连续话语过渡的重要时期,许多新的问题涌现出来,其中最重要的就是韵律问题。 过去的韵律研究大多是基于朗读语料和小语料库基础上的研究,从而无法真实全面地反映人们实际语言的特点。研究表明,自然话语与朗读语料之间存在着很大的差异,因此,要想真正弄清自然话语的韵律特征和规律,就必须采用较大的自然口语语料库作为研究材料,然后在其基础上展开研究,才能最终找到破解韵律难题的钥匙。 本文的选题正是结合当前这种实际研究和应用的需要,在阅读了大量前人文献的基础上来确定的。论文以数小时的真实的自然口语语料库为基础,通过对其韵律特征的统计分析,试图揭示汉语自然口语中韵律节奏的实现规律,希望以此来推进语音韵律研究的进展;进而,在此基础上,运用计算机语音处理技术研制一个汉语口语的韵律自动标注系统,以加快语料库的标注工作,节省时间和人力的投入,同时还可以验证韵律研究的结果,为自然口语对话系统中韵律信息的分布和使用打下基础。 本文的主要工作是: 首先,提出了一个能够最大限度覆盖语料中所有三音子的挑选算法,以大型自然口语语料库CADCC为基础,挑选出了一个能够比较全面反映自然口语特点的口语语料库,并在此基础上,初步讨论了自然口语与朗读话语的差异,为进一步开展自然口语的研究提供了必要的参考。 接着,本文使用C-ToBI韵律标注系统,对所挑选的语料库进行分层标注(包括音段、韵律结构、重音结构等信息),在此基础上,对韵律的声学相关量进行统计分析,分别考察了不同层级的韵律边界和重音的声学表现,初步归纳了它们的表现规律,并找出了韵律边界和重音的主要声学征兆,为正确的预测和识别自然口语中的韵律边界和重音提供了重要依据。 最后,本文采用决策树(C4.5)方法,研制了一个汉语自然口语的韵律自动标注系统,可以大大降低语料库的韵律标注过程中的人工参与,不但提高了语料库的标注效率,而且有助于提高韵律标注的一致性。测试结果表明,对韵律边界自动标注的正确率达到70%以上,基本达到了实际应用的要求。重音自动标注的测试结果则相对较差,仅有40%的正确率和30%的召回率,远未达到实用的标准,这表明重音的预测和识别是一个相当复杂的问题,还有待于进一步更深入的研究来解决。 论文的创新有三:一是使用了自然口语语料为研究材料,并对比分析了自然口语与朗读话语的差异,这是前人研究中很少涉及到的;二是采用了语音学和言语工程技术相结合的研究思路,以语音学理论为基础,运用计算机语音处理技术来协助研究,对各级韵律边界和重音的声学表现进行了系统的定量分析,并得到了相应的区别特征矩阵;三是应用了大规模语料库的研究方法,通过对大量语料的统计分析来得出一些普遍性较强的规律,以作为自动标注的依据。 论文的不足之处在于未能在己有语料的基础上,将各种句式和各种情绪进行分类处理,以便进一步得出各种句式的语调模式以及各种感情的表达方式;另外,重音的声学表现还需要从句法、语义和语用等多个层面的细致分析,以便制定更准确的特征集,从而提高重音自动标注的正确率,使之达到实用水平。