论文部分内容阅读
摘 要:语言是人类互动的基本手段也是人机交互的重要方式,是通信的必要手段。语音是语言存在的形式。语音和语言的研究日益受到重视,语音研究的目的是揭示言语交际的机理,获取自然语音中的各种知识和信息,并为人类的信息交流服务。因此,语音处理成为目前发展最为迅速的一个研究领域,并形成了一门新兴的交叉学,而语音数据库中语料的设计是建立数据库首要的和关键的一个环节,本文从语料的单词、词语、数字、句子、短文等几个方面做了研究。
关键词:汉语;方言;语音;数据库;语料;设计
中图分类号:TN912.3;TP311.13
汉语是世界上使用人数最多的语种之一,汉字一字一个音节,400多个无调音节和四声构成了丰富多彩的汉语词汇和语句。汉语不但有很多独特的个性特点,而且,即使讲普通话,不同地区的人也都带着浓厚的方言口音。为此,从语音识别的需要出发,很有必要建立一个包括不同地区(口音)、不同性别、不同年龄的发音人,具有自己特色而实用的汉语方言语音数据库,这对于语音识别、语音分析甚至语言理解方面的研究工作都将有很大帮助。
汉语方言在各个地方是应用比较广泛的语言,它在发音、韵律、词汇及其词的形态变化、组织句子结构、文章的构成等许多方面都具有各自独特的特性。汉语方言语音数据库建设是汉语方言研究的不可缺少的部分。随着对汉语方言研究的深入,比如机器翻译、语音合成、语音识别、文字识别、智能检索等的研究,汉语方言各个特性的量化描述需求越来越大。正是汉语方言语音数据库,为汉语方言研究提供了确凿的数据。
1 语料设计的原则
语料设计是指选取语音数据的内容或选取录音文本。语音库语料的构成和取样是按照明确的语言学原则并采取随机抽取方法收集语料的。语料库作为自然语言运用的样本,就必须具有代表性。目前的计算机语料库可以通过控制抽样过程和语料比例关系来增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围;再就是确定语料的分层结构,进行分层抽样。从各种语料的抽样比例上又可分为“均衡抽样”和“塔式抽样”。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。语料库作为自然语言运用的样本,通过观察而得到的自然语言运用数据仍然是主要的可靠研究依据。
2 语料的设计
2.1 单词的设计
汉语语言的基本单位是字,对应于语音学中的音节,汉语有调音节大约1270个左右,不考虑声调差异的无调音节为400个左右,直接采用音节作为语音学单元显然是不经济的,而清华大学的语音数据库选了汉语的全部单音节字。在吴语文语转换中语音合成与韵律控制的研究中也只选了很少的单字。因此,笔者在方言语料文本设计时只选择了很少的一部分,该部分特别能反映本地方的方言特色及与普通话的区别。
2.2 词语的设计
为了尽可能地反映各地汉语方言词汇的面貌,笔者选的词汇只限于方言中当地城区中年人口语常用的基本词语,没有选书面的词语和新词,结合已有的成果不仅选了两音节的词汇,而且选了三音节和四音节的词汇。所选词汇都来自中国社会科学院语言研究所所长沈家煊主持的中国社会科学院重大课题《现代汉语自然口语语料库》和北京大学中国语言文学系语言学教研室编的《汉语方言词汇(第二版)》中的词汇。此外,笔者还根据方言的特点选了一些代词(如人称代词、指示代词、疑问代词等)、形容词、动词和短语。
2.3 数字的设计
目前,一些语音数据库都研究了数字的语音,但是他们都局限于0~9单个数字的语音学层面上的研究,而只有云南民族汉语语音数据库考虑到了数字串的设计,但是他们只是为了识别连续数字,与笔者所要识别的方言有着不同的地方。因此,笔者所设计的文本,既继承了传统的0~9单个数字的文本设计,又考虑了连续数字串发音中语音学的问题,如音联引起的单个数字的音变问题和连续数字在不同方言中的发音情况。
2.4 句子的设计
话语中包含着音韵结构和停顿等语言学现象。连续语音中存在着不同的韵律结构,这些结构和句法结构有一定的关系,但又不是一一对应的。韵律结构对于提高语音合成系统的自然度、进行语音识别系统的后处理是十分重要的。为了使语料库包括不同的韵律结构,笔者设计的语料文本包括了汉语的几个不同句型。
2.5 短文的设计
目前,国际上关于连续语音语料库的言语类型可分为三类:第一类是朗读言语,第二类是流畅言语,第三类是自由言语。这三类的语言学问题都包括音段和韵律两方面。连续语流中极为复杂的语音现象——音变,为言语工程带来了许多困难,笔者认为在目前阶段首先考虑音段中的语境音变是比较合适的而短文语料属于一种流畅言语。
中国科学院声学研究所在1994年研究的汉语普通话语音数据库选了13篇短文,全部是现代语言大师的作品:含政治、经济、哲学、散文、诗歌等内容。笔者要研究的汉语方言与普通话不同,因为以上这些内容涉及很多专业性的专有名词而且绝大部分都是书面语,很可能还有音译外来词,这些内容如果要用汉语方言表达出来有一定的难度而且不一定是纯方言。因此,笔者结合已经研究的一些语音数据库,选择了来自863合成库的“北风和太阳”、“乌鸦和瓶子”两篇小短文。
3 结束语
汉语方言语音数据库的设计是一个全新的领域,关系到语音识别、语言辨识。尤其是中国方言极其复杂,大方言区下划分次方言区,次方言区还可以划分,方言划分的标准没有统一。语音数据库建设总的发展趋势有以下几个特点:规模大:方言言语材料内容数量大,发音人多。言语材料也从简单的数字,到基本覆盖音节和语音现象,乃至多方言多地域多语言的大型语音数据库。言语材料设计和发音人的选取,早以成为语音数据库建设庞大而复杂的重要组成部分。用途广:既考虑应用与言语处理系统,如训练和评价识别系统等,也可用于如言语产生、言语知觉建模等声学语音学的基本研究。最初的语料库多是为简单的语言识别,如数字识别、说话人口令识别等设计的,而今,随着计算机言语技术的不断发展,语音数据库也进入了计算机语音技术的各个领域,为更复杂高质量的言语技术提供着有力的支持。层次高:从元音、辅音、孤立音节开始,逐渐扩大到词、句乃至文章段落,向自然语言发展。语音数据库的层次也是随着计算机言语技术的层次不断提高的。由最初的孤立词识别与合成,到现在的基于自然语言连续语音技术不断发展与成熟。标准化:用统一的选材原则和方法建立资料库,使用各种言语的数据库之间的数据可以交流,不同语言之间可以比较。
参考文献:
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]丁玉美,高西全.数字信号处理[M].西安:西安电子科技大学出版社,2001.
[3]葵莲红,黄德智,葵锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.
[4]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.
[5]董绍克.汉语方言词汇差异比较研究[M].北京:民族出版社,2002.
[6]Thomas W.parsons.VOICE AND SPEECH PROCESSING.McGraw-Hill Book Company,1986.
作者简介:沈伟(1980-),男,江苏泰州人,讲师,研究方向:计算机技术。
作者单位:泰州职业技术学院,江苏泰州 225300
关键词:汉语;方言;语音;数据库;语料;设计
中图分类号:TN912.3;TP311.13
汉语是世界上使用人数最多的语种之一,汉字一字一个音节,400多个无调音节和四声构成了丰富多彩的汉语词汇和语句。汉语不但有很多独特的个性特点,而且,即使讲普通话,不同地区的人也都带着浓厚的方言口音。为此,从语音识别的需要出发,很有必要建立一个包括不同地区(口音)、不同性别、不同年龄的发音人,具有自己特色而实用的汉语方言语音数据库,这对于语音识别、语音分析甚至语言理解方面的研究工作都将有很大帮助。
汉语方言在各个地方是应用比较广泛的语言,它在发音、韵律、词汇及其词的形态变化、组织句子结构、文章的构成等许多方面都具有各自独特的特性。汉语方言语音数据库建设是汉语方言研究的不可缺少的部分。随着对汉语方言研究的深入,比如机器翻译、语音合成、语音识别、文字识别、智能检索等的研究,汉语方言各个特性的量化描述需求越来越大。正是汉语方言语音数据库,为汉语方言研究提供了确凿的数据。
1 语料设计的原则
语料设计是指选取语音数据的内容或选取录音文本。语音库语料的构成和取样是按照明确的语言学原则并采取随机抽取方法收集语料的。语料库作为自然语言运用的样本,就必须具有代表性。目前的计算机语料库可以通过控制抽样过程和语料比例关系来增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围;再就是确定语料的分层结构,进行分层抽样。从各种语料的抽样比例上又可分为“均衡抽样”和“塔式抽样”。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。语料库作为自然语言运用的样本,通过观察而得到的自然语言运用数据仍然是主要的可靠研究依据。
2 语料的设计
2.1 单词的设计
汉语语言的基本单位是字,对应于语音学中的音节,汉语有调音节大约1270个左右,不考虑声调差异的无调音节为400个左右,直接采用音节作为语音学单元显然是不经济的,而清华大学的语音数据库选了汉语的全部单音节字。在吴语文语转换中语音合成与韵律控制的研究中也只选了很少的单字。因此,笔者在方言语料文本设计时只选择了很少的一部分,该部分特别能反映本地方的方言特色及与普通话的区别。
2.2 词语的设计
为了尽可能地反映各地汉语方言词汇的面貌,笔者选的词汇只限于方言中当地城区中年人口语常用的基本词语,没有选书面的词语和新词,结合已有的成果不仅选了两音节的词汇,而且选了三音节和四音节的词汇。所选词汇都来自中国社会科学院语言研究所所长沈家煊主持的中国社会科学院重大课题《现代汉语自然口语语料库》和北京大学中国语言文学系语言学教研室编的《汉语方言词汇(第二版)》中的词汇。此外,笔者还根据方言的特点选了一些代词(如人称代词、指示代词、疑问代词等)、形容词、动词和短语。
2.3 数字的设计
目前,一些语音数据库都研究了数字的语音,但是他们都局限于0~9单个数字的语音学层面上的研究,而只有云南民族汉语语音数据库考虑到了数字串的设计,但是他们只是为了识别连续数字,与笔者所要识别的方言有着不同的地方。因此,笔者所设计的文本,既继承了传统的0~9单个数字的文本设计,又考虑了连续数字串发音中语音学的问题,如音联引起的单个数字的音变问题和连续数字在不同方言中的发音情况。
2.4 句子的设计
话语中包含着音韵结构和停顿等语言学现象。连续语音中存在着不同的韵律结构,这些结构和句法结构有一定的关系,但又不是一一对应的。韵律结构对于提高语音合成系统的自然度、进行语音识别系统的后处理是十分重要的。为了使语料库包括不同的韵律结构,笔者设计的语料文本包括了汉语的几个不同句型。
2.5 短文的设计
目前,国际上关于连续语音语料库的言语类型可分为三类:第一类是朗读言语,第二类是流畅言语,第三类是自由言语。这三类的语言学问题都包括音段和韵律两方面。连续语流中极为复杂的语音现象——音变,为言语工程带来了许多困难,笔者认为在目前阶段首先考虑音段中的语境音变是比较合适的而短文语料属于一种流畅言语。
中国科学院声学研究所在1994年研究的汉语普通话语音数据库选了13篇短文,全部是现代语言大师的作品:含政治、经济、哲学、散文、诗歌等内容。笔者要研究的汉语方言与普通话不同,因为以上这些内容涉及很多专业性的专有名词而且绝大部分都是书面语,很可能还有音译外来词,这些内容如果要用汉语方言表达出来有一定的难度而且不一定是纯方言。因此,笔者结合已经研究的一些语音数据库,选择了来自863合成库的“北风和太阳”、“乌鸦和瓶子”两篇小短文。
3 结束语
汉语方言语音数据库的设计是一个全新的领域,关系到语音识别、语言辨识。尤其是中国方言极其复杂,大方言区下划分次方言区,次方言区还可以划分,方言划分的标准没有统一。语音数据库建设总的发展趋势有以下几个特点:规模大:方言言语材料内容数量大,发音人多。言语材料也从简单的数字,到基本覆盖音节和语音现象,乃至多方言多地域多语言的大型语音数据库。言语材料设计和发音人的选取,早以成为语音数据库建设庞大而复杂的重要组成部分。用途广:既考虑应用与言语处理系统,如训练和评价识别系统等,也可用于如言语产生、言语知觉建模等声学语音学的基本研究。最初的语料库多是为简单的语言识别,如数字识别、说话人口令识别等设计的,而今,随着计算机言语技术的不断发展,语音数据库也进入了计算机语音技术的各个领域,为更复杂高质量的言语技术提供着有力的支持。层次高:从元音、辅音、孤立音节开始,逐渐扩大到词、句乃至文章段落,向自然语言发展。语音数据库的层次也是随着计算机言语技术的层次不断提高的。由最初的孤立词识别与合成,到现在的基于自然语言连续语音技术不断发展与成熟。标准化:用统一的选材原则和方法建立资料库,使用各种言语的数据库之间的数据可以交流,不同语言之间可以比较。
参考文献:
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]丁玉美,高西全.数字信号处理[M].西安:西安电子科技大学出版社,2001.
[3]葵莲红,黄德智,葵锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.
[4]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.
[5]董绍克.汉语方言词汇差异比较研究[M].北京:民族出版社,2002.
[6]Thomas W.parsons.VOICE AND SPEECH PROCESSING.McGraw-Hill Book Company,1986.
作者简介:沈伟(1980-),男,江苏泰州人,讲师,研究方向:计算机技术。
作者单位:泰州职业技术学院,江苏泰州 225300