论文部分内容阅读
语音工程的研究已有数十年的历史,至今仍有些基本的瓶颈无法突破.在语音合成方面,最大问题是输出语音的自然流畅度仍与自然语音有距离:在语音识别方面,最大的问题则是辨认率仍可再加强.探究其原因,主要因为几乎所有的研究基础都是经验性的资料(empirical data),以工程处理的方式做各种处理,而缺乏理论基础.所谓的理论,是指对语言的产生和语言的感知二方面的掌握不多,对掌理语言的产生与感知的内部机制(人脑)如何运作,没有充分的掌握,而只从机制产生的外在讯号(语音)下手.以汉语的语音合成为例,最明显的例子,就是以单音节为合成语音的基本单位,先从音段下手,尽量如何处理音段曾在单位连接时的千变万化,等音段连接的处理到了一个可以接受的阶段,再进一步处理自然度的问题.主要的方法是串接与加入段勤务员,再从分析大量语料的结果,来解决串接时连接部位的问题.近数年来韵律现象与韵律结构的相关课题之所以灸手可熟,主因是由于发现所谓语音流畅自然所涉及的讯息,主要在超音段面,这个次的问题,指的是节奏、重音、音长、声强、句调等.这些讯息不以音段,它们的物理信号所代表的意思是相对的而不是绝对的,在语音学上一向被视为次级讯号(secondary cue),因此以往并非研究的重点,以致文献有限:它们的相对性,也使得量化后作为编写程式的依据的困难度提高很多;如何从声学方面弄清超音段讯息与音段互动的关系,至今也还没有好的处理方式.此外对于语音结构与句法及语意结构的互动关系也还缺乏深入的研究.实用的中文句法结构分析工具也付之关如,如涉及语意,难度则更高.而语言学加入语音工程,多半停留在语音工程的后期作为部分,不外是利用语言学的已知,处理工程处理的结果.但因为语言学本身研究方法或课题重点的限制,并不能处理对工程处理的结果随时提供解决方案,而需要即时的配合语言工程的问题再做研究,这些研究多半也是从处理语音或语言信号本身切入,仍停留在经验性资料的方面,而不是从这些现象产生的源头去解决,所以效果有时也并不太彰.