论文部分内容阅读
北京大学2013年“国际嗓音研讨会:生理、语言和文化”于10月9日至12日在北京大学英杰交流中心召开。会议由北京大学中文系语言学实验室和教育部重点文科基地中国语言学研究中心联合主办,北京大学社会科学部和中国语言学研究中心联合资助。出席本次会议的专家分别来自美国哥伦比亚大学、瑞典皇家理工学院、天津大学、香港大学、北京大学、中国科学院、中央音乐学院、中央戏剧学院、中国音乐学院、同仁医院、解放军301医院、上海师范大学、西北民族大学、延边大学等单位,共76人。会议由林幼菁博士主持,北京大学中文系主任陈跃红教授、中国语言学研究中心主任陈保亚教授和语言学实验室主任、本次会议组织委员会主席孔江平教授分别在开幕式上致辞。
北京大学中文系主任陈跃红教授代表中文系致辞。陈教授在讲话中提到,本次研讨会围绕生理、语言和文化不同的视角来探讨语言的产生,并应用国际前沿研究方法来探讨嗓音的生理、声学特征,具有非常重要的意义,不仅对语言学的深入和跨学科的研究、交流有着重要的影响,同时对于嗓音的临床病理研究、言语工程研究以及言语合成等方面研究都起着很大的推动作用。
北京大学中国语言学研究中心主任陈保亚教授代表中心致辞。他说,嗓音研究是对人类言语产生的最根本的研究,更是多学科理论渗透和方法应用的专业高端研究。希望在这次跨学科的国际嗓音研讨会上,各位与会专家探讨和碰撞出更多的前沿思想和研究方法。
本次研讨会围绕嗓音这一核心主题展开,包括:嗓音生理、嗓音声学、嗓音合成和建模以及嗓音病理等多个视角,涉及嗓音在西方歌剧歌唱、中国戏曲歌唱、言语产生、临床病理、嗓音临床评估以及艺术嗓音训练等各方面的具体研究,还特别关注了多个少数民族不同口传文化中多样化的嗓音发声类型和演唱方式的研究。
嗓音是人类语言和口传文化的基础,本次会议以嗓音和人类复杂行为系统为主题,以多学科的视角,从嗓音生理学、嗓音病理学、言语科学、言语工程、声乐学、语言学等不同领域讨论了嗓音科学的学科前沿、各学科之间的相互关系和中国嗓音科学的发展前景。研讨会邀请了六位著名学者作了主题报告:
嗓音是由三种主要机制的协同作用产生的。第一个机制是呼吸器,用于压缩空气,在声带下方形成超压气流。第二个机制是声门,即两片声带中间的缝隙。嗓音产生的第三个机制是声道。它的作用是同这些以波峰波谷为特征的谐波产生共鸣。
在西方古典歌剧演唱中,声音是按照基频范围分类的。女高音演唱的范围最高,大致在220~1047赫兹之间,低音在80~350赫兹之间。音高的幅度与声带的长度有关,高音的声音同低音的声音相比声带更长。嗓音的响度是由声门下的气流压力控制的,可以在一个宽的范围内变化。在0.3米的距离时,它通常会达到100分贝左右的声压级(SPL),但实质上,基频和最低共振峰的频率都会影响声压级。第一共振峰的正常数值取决于元音,大致在250~800赫兹之间变化。
女性通常以高于第一共振峰正常数值的基频歌唱。然而,她们避免基频超过第一共振峰。因此,在音高高时,她们以第一共振峰稍高于基频的方式发那些元音。通过这种方式她们可以不用增加声门下的压力而是利用声道共鸣增加声压级。西方歌剧男演唱者会使第三、四、五共振峰聚集起来,导致频谱包络的峰值接近2800赫兹。在这个频率范围里西方管弦乐队有许多相对低的泛音,这就造成了歌唱家的声音甚至穿透了管弦乐队的高声伴奏。在这种情况下,演唱者利用共鸣提高声压级而不是增加声门下的压力。从这个意义上来说,西方歌剧的男女演唱家都应用了声带省力原则。
声源频谱中最低的泛音,即基频,在西方歌剧演唱中典型性很强。它是应用了适度的声门紧收产生的,而这与西方流行音乐的演唱方式有所不同。歌剧演唱中经常提高声门紧收程度,产生了一个弱化声带音。描写一种声带类型的特征需要详述基频的典型变化范围、声门下压和声门紧收程度,这些描写可以用三维视图来表示,并凭借嗓音合成技术来证明嗓音音质的相关效应。
美国哥伦比亚大学及纽约医学院Ron Baken教授做了题为《国际视角下的嗓音生理学》的主题报告。人们一直被人类语音的本质和功能所吸引,然而人类对认识这个精妙的交际工具的结构、功能和潜能所作的努力远不及对古文物的研究。受制于不成熟的科学方法,极其有限的调查技术以及对自然界不充分甚至错误的认识,关于嗓音产生的早期理论从现代常识的角度来看普遍缺乏准确性和预测性。当然,历史上也出现过一些真正的科学上的突破。例如,大约公元150年,希腊解剖学家盖伦(Galen)使用实验方法正确地识别了喉返神经的功能。与之相反,公元1500年左右,达芬奇(DaVinci)——西方科学史上最伟大的人物之一,经过对人体和动物样本的认真解剖后,错误地认为嗓音是喉心室中旋风的产物。观察喉部功能的更好的方法——尤其是1850年前后西班牙人加西亚(Garcia)发明的间接喉镜检查方法,以及相关科学领域的进步对于理解嗓音发声的机制起到了巨大的推动作用。早在1843年德国人缪勒(Müller)就提出了现代嗓音发声原理的基础理论。
20世纪中叶荷兰人van den Berg提出了嗓音生理学的气动理论(myoelastic aerodynamic)。该理论假定声带是自振的,声门周期性地开合将肺部呼出的气流切分成湍流脉冲。这些脉冲是由声带刺激产生的。他认为声带自振的频率,以及由此产生的气流脉冲频率主要取决于声带的自然生理属性,尤其是声带的长度和张力。而嗓音的强度则同气流压力的大小直接相关。总的来说,声带的这些特征是可变化的,可调控的。频率、强度和音质都可以自主地调节。过去的半个世纪,人们对这些可调节机制做了细致的研究,并取得了巨大进步。这源于调查方法的改进以及复杂数学模型的详尽阐述。这些模型提供了重要的视角和理解,反过来又促成了更先进的观察技术和更完善的数学模型的发展。科学上的成就很显然是国际性的,它对许多领域和学科都产生了重大的影响,比如外科手术、言语合成、教育学和语言康复等。 中国对于嗓音发音的兴趣有着悠久的历史,特别是在古老而独特的口传音乐方面。此外,中国境内的语言大都是声调语言,这就表明还有许多令人感兴趣地而未解决的发音控制问题有待于广泛而系统的探索。我们有理由相信中国在这方面有许多值得我们学习的地方。
瑞典皇家理工学院(KTH)言语与音乐计算研究组的负责人Sten Ternstrom教授做了题为《人类嗓音的数字建模》的主题报告。嗓音模型可以通过几种层级来表现。为了制作合成的言语,只需模拟嗓音中辐射的声音。这通常采用“黑箱”(black box)方法,可以不用考虑嗓音是如何发生作用的。然而,对于语言和临床应用来说,我们需要这些模型,它们表达的是语音产生的详细过程而不仅仅是言语信号,因而我们可以把声学和物理方面观察到的一些现象同喉头与声道内的活动联系起来。但目前的难点在于嗓音产生的物理属性极其复杂;从某种程度上来说,对嗓音进行真实而全面的模拟在技术方面仍不具备可行性。Sten教授阐述了数字嗓音建模涉及到的一些问题并在各种复杂层面对其进行讨论。同时演示了许多现实生动的例子,例如:传统的声源滤波合成器,交互式发音合成器,以及未来的全方位物理场嗓音发声模拟器的雏形等,目前这些技术正在由欧洲Eunison项目进行研究。
天津大学计算机科学与技术学院本多清志(Kiyoshi Honda)教授做了题是《发音器官的磁共振成像研究》的主题报告。磁共振成像(MRI)不仅是一项医疗成像技术,同时也是一种应用于人体可视化基础研究的工具。近十年来,它一直是观察发音器官生理功能的有效工具。本多教授于三十年前开始从事元音发声和音高调控机制方面的观察研究。从那时起,就一直把MRI作为一种主要的研究手段,将其应用于相关的课题研究,来考察发音器官的生理功能。使用了20年的MRI技术在动态成像方面一直存在不足,话语的实时影像更像是把许多静态图片串联起来。然而,放射科医师所获得的一张动态影像吸引了人们,因为它证实了纵向的咽部位移是沿着颈椎进行的。从图像上可以清楚地看到,颈椎前突面环状软骨的升降运动刺激环甲软骨韧带机制的运动。这个意料之外的发现使我们揭示了众多机制中的一个,该种机制涉及喉部结构的言语中音高的调节功能。
最近,与日本昭和音乐大学的一个小组(Showa University of Music)合作,做了一个关于女高音嗓音的磁共振成像研究。这项研究使人们对这个问题有了新的认识,因为其中的一个演唱者在演唱高音调时,中部的咽缩肌肌肉有明显的紧缩。由于咽部肌肉的半圆收缩使得后咽壁膨胀。这个肌肉从前面附着在u形舌骨上,因而同其他肌肉协同运动以保持舌骨位置的稳定,从而控制发声。
咽部肌肉在言语发声过程中起着重要作用,因为咽壁作为独立的发音器官可以改变咽腔形状。在吸气和发音时,咽腔分别有不同程度地扩大和缩小。通过改变下咽形状也有助于调节说话和演唱中嗓音的音质。这个区域包括梨状窝和喉腔,这些空腔可以在更高的频率下通过改变频谱类型的方式作用于音质。希望在此次研讨会中,诸位同仁能够将磁共振成像技术应用于那些尚未探索的领域,例如咽部研究,以期更加精细地揭示出发声控制的生理功能,从而获取新的发现。
香港大学声线研究所姚文礼教授做了题为《基于医学视角的声线科学与言语语音》的主题报告。嗓音科学通常属于语言学中语音领域研究的内容。现如今人们已经意识到除了语音学的知识,心理学、物理学、声学、数学和医学(解剖学、神经生理学以及病理学)对于理解声音的产生与感知是至关重要的。这次演讲将要讨论声线科学和语音障碍的各个方面以及如何运用科学的方法进行研究。姚文礼教授长期进行嗓音病理和嗓音保健研究,对嗓音的职业保护、嗓音评估方法、嗓音评估标准等都有大量深入的研究,他的报告不仅全面阐述了嗓音医学保健和相关科学的关系,而且介绍了嗓音评估的先进方法以及嗓音职业保健的社会重要性。
北京大学中国语言文学系孔江平教授做了题为《基于多模态的汉语嗓音生理声学模型研究》的主题报告。报告介绍了他利用目前国际最先进的高速数字成像技术,以每秒钟2000至4500帧的采样率,采集了大量不同语言发声类型的声带振动样本,通过图像处理技术,得到声带不同发声类型的动态声门,经过提取参数研究声带振动和动态声门的最基本特性,在研究的基础上,建立了汉语普通话动态声门模型。动态声门模型不仅能够模拟不同的嗓音发声类型很声调等语言常用的声带振动方式,还能够模拟病变嗓音,并最终合成出不同发声类型的声波。这项基础研究不仅对研究嗓音的基础生理机能、声带仿生语音合成和声乐教学有重要的理论意义,而且对嗓音病理和嗓音手术治疗有实际应用价值。另外,孔江平教授还介绍了基于年龄和性别的汉语普通话多维嗓音统计模型及评测系统,该系统可作为嗓音诊断和嗓音评价的有效工具。最后,孔江平教授还向与会者介绍了他的研究团队建立的汉语普通话唇形、呼吸和声道生理模型。
会议还邀请了戏曲学、临床医学等嗓音发声研究和嗓音病理研究方面的相关学者为研讨会作特邀报告:
中央戏剧学院徐平教授的报告题目为《艺术嗓声训练中的保护问题的思考与实践》。艺术嗓声训练是每个从事艺术创作实践的人都必须经历的一个基础训练之一。然而,在这个过程中,每个参与其中的人,不论训练者,还是被训练者,都面临着如何认识艺术嗓声,如何认识自身的嗓声条件,如何有效地使用自身的嗓声条件来达到艺术嗓声创作的需要的问题。其中,在训练与使用嗓声的过程中如何能够有效地对嗓声进行保护就变的极为重要。在训练过程中,训练者通常会对受训者提出的一系列的要求,这些是在日常的训练中值得注意和思考的。
解放军总医院于萍医生的报告题目是《嗓音质量评估模型的标准化研究》。嗓音是一种复杂的多维现象,它既是一种呼气流作用下的声带振动产生声音的声学现象,又是一种主观心理听感知现象,同时还是一种社会、人际、情感和交流现象。嗓音质量的评估分为主观听感知评估和客观参数测试。她认为,嗓音客观测试参数的有效性、敏感性和稳定性,只有通过嗓音的主观听感知结果来检验,并决定着其数据化结果的内涵。另外,嗓音质量的客观参数测试嗓音的客观分析主要是通过对发声的声学参数、气流动力学参数和生理学参数的检测来评估嗓音质量。但是如何综合各种测试参数来量化嗓音质量,仍然是嗓音分析在临床应用中的重要课题。 首都医科大学生理学与病理生理学系、首都医科大学附属北京同仁医院耳鼻咽喉头颈外科医生谢燕和徐文的报告题目是《发音训练在治疗不同类型嗓音疾病中的作用》。正确的发声方法有助于保护发声器官,预防并治疗嗓音疾病。对2010年9月至2013年8月在我院就诊的200余例嗓音疾病患者进行发音训练,包括痉挛性发音障碍、慢性咽喉炎、声带小结等发声障碍患者。她们认为发音训练可以帮助各类嗓音疾病患者改变不良的发声习惯,是一种有效的辅助治疗手段。但不同的嗓音疾病具有不同特点,需有针对性、个性化训练,而且是一项长期系统性工作。
中央音乐学院黄露和韩丽艳教授的报告题目是《男高音唱高音难的生理及其技术原因调查》。男高音唱高音难的问题一直是困扰许多声乐学生、年轻的歌唱家、声乐教师们的一个很大的问题,如何唱好high C 成了很多男高音梦寐以求、努力奋斗的目标,也是很多声乐教师喜欢研究的一个重要课题。采用问卷调查、嗓音临床检测、歌唱状态评估对比的方法对中央音乐学院30 名男高音学生进行了研究,从调查结果中发现,换声点、话声音高、声道与声部的符合率较高,因此这三项可以作为声乐教师分析判断声部的重要依据。
香港大学言语与听觉科学系燕楠和吴明华教授的报告题目是《不同粤剧演唱风格之间的声学比较:长时平均频谱分析》。尽管粤剧在中国尤其是南方沿海一带十分流行,但是目前还没有人对其不同演唱风格的语音质量进行过客观研究。由于粤剧在演唱时具有不断变化的性质,所以传统声学分析在对其进行研究时受到很大限制,并且成效甚微。所以需要一种新的研究方法来对这种不断变化的声学活动进行研究。而在对连续发音样本进行分析时,长时平均频谱分析(LTAS)可能是一种有效的途径。目前正在进行的研究就是使用LTAS对不同粤剧演唱风格相关的音质特征进行声学分析。
北京大学中文系汪锋副教授的报告题目是《剑川白语的嗓音变异》。剑川白语的声调系统一直因基频和发声类型的复杂性而广受关注。他的研究是基于EGG信号提取基频、开商和速度商三个嗓音参数来验证声调特性。研究发现在8个声调调类中,有2种非常规的发声类型,刺耳声和压迫声以及其他不同的基频模式。在白语研究中,同一特殊发声类型在不同的发音人之间有着很大的差异,而同一种特殊发声模式甚至在同一个音节中也会发生变化。因此,如何通过嗓音参数来定义不同的发声类型还需要进一步研究。
北京大学信息工程学院于延锁和吴玺宏教授的报告题目是《SHRC- Ginkgo语音合成系统概述》。本文介绍在2013年英文语音合成国际大赛(Blizzard Challenge 2013)上推出的SHRC- Ginkgo语音合成系统。在使用有声读物语料库的基础上,他们采用了单元选取的方法来开发这套语音合成系统。针对从数百个小时的语音材料中归纳出来的具有粗略标记的语料库,系统在语音识别方面采取了对声学模型采取轻度监测的方法,从而选取纯净的语音数据,提供准确的文字材料。此外,为了改进传统的声学模型,系统使用的是丰富的句法语境而不是韵律结构。为了解决大规模语料库的内存空间扩展和声学模型训练的长时运行负担问题,还找到了一个可以保证声学模型准确性的快速训练方法。
中国科学院声学所冯永强,闫晓,Ludo MAX, 颜永红教授的报告题目是《在得到音高变化带来的听觉反馈时普通话声调发音的相应调整》。在发声和言语中,听觉反馈起到了至关重要的作用。目前的研究旨在弄清普通话使用者是否能够适应两种音高移位情况(f0的升高与降低),并通过听觉反馈,将其分别应用到对高平调与低降调的识别之中。首先他们进行了相关的语音学实验,在实验中设置了不同的情况,并就相关主题收集到了良好的实验数据,不过目前我们仅对Z情况中的三个主题的声学数据进行了分析。初步的实验数据表明,对普通话使用者来说,同时适应两种不同的音高变化、将其分别归于高声调和低声调是非常困难的。
香港大学言语与听觉科学系声线研究所汪高武博士和姚文礼教授的报告题目是《普通话播音员的语音和嗓音能量分析》。他们的研究,目的是通过播音员与普通人的对照,比较其语音和嗓音(喉部振动)能量,来探寻播音员发音和共鸣方式的特点。实验组是32名播音员(播音主持专业高年级学生),对照组是37名普通大学生。语料为持续元音a,分自然状态和大声状态。用数字录音仪测量语音的输出声压(音量)、用测振仪测量喉部皮肤表面振动能量。研究发现,无论是自然还是大声状态,播音员的共鸣放大系数都显著高于对照组。这说明播音员的发音效率更高,即可以用较少的嗓音能量,输出较高的语音声压。普通人主要是靠提升嗓音能量,而播音员还通过更好的共鸣来达到更大的声音输出效果。
延边大学外国语学院李英浩副教授和张京花博士的报告题目是《基于EPG和EGG的朝鲜语塞音和塞擦音的发音生理分析》。朝鲜语三分对立的塞音和塞擦音在世界语言语音中比较特殊,在四个发音部位上(双唇、齿龈、龈腭以及软腭)均存在三个对立的音位。他采集了朝鲜语发音人的同步动态电子腭位(EPG)和嗓音信号(EGG),分析朝鲜语东北方言(即中国延边朝鲜族地区使用的朝鲜语方言)的三分对立的塞(擦)音的发音生理特征。研究结果发现,紧音的生理表征表现为声门和声门上发音器官的状态最为紧张,辅音持阻段的舌腭接触面积最大,后接元音的声门状态较紧;送气音的声门上发音器官的动作调整与紧音接近,但是其声门状态与紧音存在较大差别;松音的发音器官动作比较松弛,舌腭接触面积最小,同时声门状态比较松弛。
北京大学中文系语音乐律实验室的董理、孔江平教授和JohanSundberg教授的报告题目是《两个昆曲男性行当的共振峰和声源特性》。研究分析了两个男性昆曲行当(净和老生)的声门气流波和电声门参数以及共振峰频率与泛音的关系。声门气流波和电声门参数都显示,净和老生行都使用比较紧的嗓音,二者都表现出低的归一化振幅商和高的接触商。在低频区域,净的嗓音要比老生更紧。有三个演员的接触商和第一、二谐波差分别与基频呈正相关、负相关,暗示着他们都随着基频的提升而增加声门的内收。 西北民族大学中国民族信息技术研究院李永宏副教授的报告题目是《蒙古长调民歌嗓音发声方式研究》。研究发现长调民歌演唱者运用非常多样化的嗓音发声模式以及颤音、喉音等演唱方式。其研究旨在探讨作为非物质文化遗产的蒙古民歌的发声技巧的生理表现和对比分析男女声嗓音特征的异同,从而总结长调的不同发声方式的嗓音特点及参数之间的相互关系,为今后更系统、深入地研究歌唱发声类型提供理论基础。
上海师范大学计算机学院讲师潘晓声的报告题目是《基于情感语音的声带状态分析》。在聆听音乐、欣赏诗词朗诵时,听众可以感受到表演者的情绪变化并引起情感共鸣,由此可知情感信息通过一定的方式附加在语音上来表现出来。他认为情感对语音的影响会体现在更多方面,比如人的血压、脉搏等生理特征。嗓音作为一种重要的发音生理特征,被认为是歌唱技巧的几大要素之一,可以用于表达不同的歌唱心境。为验证在普通人说话时,其嗓音特性是否同样会受情感变化的影响。他使用歌词、散文和古诗词为语料,对三个男性发音人的嗓音数据进行了特征提取,并对其进行了初步分析。
北京大学中文系语音实验室博士后韩启超的报告题目是《昆曲念白声学实验分析》。他的研究课题主要进行昆曲念白声学实验分析,选取样本为国家一级昆曲演员,南昆代表性旦行(闺门旦)名家的三段昆曲念白:《惊梦》、《玉簪记》、《刺虎》。声音样本分表演念白和中州韵本调两种类型。研究集中在三个方面:其一,昆曲念白的声调。包括韵白调值拟测;韵白与本调调值比较;韵白声调特征。其二,昆曲念白的时长。包括韵白时长统计;本调时长统计;韵白与本调时长比较;韵白时长与节奏关系分析。其三,昆曲念白的音高。包括韵白的音高统计;本调的音高统计;韵白与本调的音高比较;韵白音高与字声、旋律、曲情的关系。
北京大学中文系语音乐律实验室张锐峰的报告题目是《禹州话四声的声学感知研究》。禹州话作为河南方言之一很少受到研究者的关注,本文对该方言的四个声调进行了一系列的研究探索,并有诸多发现。在其声调感知研究中,基频模式起主要作用,发声类型起补偿作用,在基频区别力弱的情况下,发声对感知的作用就会变大,在基频区别力强的情况下,发声对感知的贡献就会变小。本研究只讨论禹州话单字在脱离语境单念时的调值,不涉及由禹州方言语调引起的声调调值变化。
北京大学中文系语音乐律实验室桑塔的报告题目是《藏语安多话塞音的VAT研究》。VAT(Vocal Attack Time)是指声带开始抖动到声带接触的时间,它主要是分析嗓音起始端的特征。本文按照不同发音方法把藏语安多语的塞音分成了五大类,分别提取了相关的VAT值,考察了VAT与不同的发音方法和发音部位的相关性。 这些发音方法包括清不送气的单辅音和复辅音、清送气单辅音,浊音和鼻化浊音。最后通过嗓音的VAT值把藏语安多话的塞音分为三大类,即清送气、清不送气和浊音。清送气多半是正值,是软起动启动嗓音(soft voice);清不送的声带开始振动和到声带接触几乎是同时的。浊音的VAT多半为负值,且其值较大,是属于硬启动嗓音(hard voice),这说明在嗓音的起始端声带有一个长时间的闭合。同时,浊音的一部分VAT与清送气一样变为软启动嗓音,这一点有可能是塞音清化的一个生理基础。还有发音部位和前缀与VAT没有相关性。
本次大会还以板报(poster)形式展示了部分研究成果,这些成果主要有:1)北京大学信息科学技术学院朱风云和其导师吴玺宏教授的《高质量语音-歌唱”合成系统》;2)北京大学中文系语音乐律实验室吴韩娜的《韩国学习者的汉语嗓音音质加工方式》;3)北京大学中文系语音乐律实验室姚云的“声区实时绘制系统”;4)北京大学中文系语音乐律实验室张春连的《汉语嗓音不同年龄段的EGG研究》;5)北京大学中文系语音乐律实验室方华萍的《不同年龄段汉语普通话多维嗓音MDVP分析》; 6)北京大学中文系语音乐律实验室张锐峰和孔江平的《普通话四声的VAT研究》;7)北京大学中文系语音乐律实验室张锐峰和孔江平的《普通话不同音高层级和元音的VAT研究》;8)中央音乐学院屈歌的《歌唱中的普通话单元音声学特性》;9)北京友谊医院的李革临、俞方、李莉的《呼麦声源振动模式—假声带振动模式的研究》;10)山西大学语言科学研究所、山西警官高等专科学校杨俊杰的《口音韵母、鼻化韵母、鼻韵母的语图判别法研究》。
另外,科学院颜永红研究员的团队展示汉语普通话声调反馈学习系统;北大吴玺宏教授的团队展示了高自然度的语音合成系统和汉语歌唱合成系统,吴玺宏教授团队的这个语音合成系统在今年的国际评比中获得第一名。北大孔江平教授的团队展示了汉语普通话声道、唇形、动态声门和呼吸生理模型以及汉语多维嗓音评价模型和实时声区展示系统。这些模型和系统展示了中国汉语及民族语言在言语科学和工程领域的研究的成果,得到了国际学界的高度评价。
本次嗓音研讨会是国内首次邀请国际著名嗓音专家、国内多个嗓音研究领域的学者进行直接对话深入交流的探讨和总结,不仅对嗓音的生理、声学特征表现和研究方法进行深入分析和交流,而且是不同学科、不同领域的嗓音研究和应用的探索,促进了嗓音研究与理论创新、方法提升的紧密结合。与会学者在嗓音研究相关的言语产生、嗓音建模、嗓音艺术、嗓音病理、嗓音训练以及嗓音评估等各个方面展开了热烈的讨论,在嗓音研究具体方法方面进行了深入的交流,在嗓音研究领域拓展了视野,也为各个分支的嗓音研究和方法的结合打开了新的思路。最近,北京大学中文系和中国语言学研究中心以语言学实验室为基础同香港中文大学和台湾联合大学系统(台湾清华大学、交通大学、阳明大学和中央大学)共同成立了“语言与人类复杂系统联合研究中心(Joint center for Language and Human Complexity)”。作为联合研究中心的一次学术活动,我们主张多学科和多领域相互交叉、借鉴和融合。这次会议不仅为中国和国际嗓音的学术研究提供了一个平台,同时也为这个领域的国际合作奠定了一个良好的基础。 文稿:孔江平,方华萍等
摄影:于谦
《国际视角下的嗓音生理学》
——美国哥伦比亚大学及纽约医学院Ron Baken教授
人们一直被人类语音的本质和功能所吸引,然而人类对认识这个精妙的交际工具的结构、功能和潜能所作的努力远不及对古文物的研究。受制于不成熟的科学方法,极其有限的调查技术以及对自然界不充分甚至错误的认识,嗓音产生的早期理论从现代常识的角度来看普遍缺乏准确性和预测性。当然,历史上也出现过一些真正的科学上的突破。例如,大约公元150年,希腊解剖学家盖伦(Galen)使用实验方法正确地识别了喉返神经的功能。与之相反,公元1500年左右,达芬奇(DaVinci)——西方科学史上最伟大的人物之一,经过对人体和动物样本的认真解剖后,错误地认为嗓音是喉心室中旋风的产物。观察喉部功能的更好的方法——尤其是1850年前后西班牙人加西亚(Garcia)发明的间接喉镜检查方法,以及相关科学领域的进步对于理解嗓音发声的机制起到了巨大的推动作用。早在1843年德国人缪勒(Müller)就提出了现代嗓音发声原理的基础理论。
20世纪中叶荷兰人van den Berg提出了嗓音生理学的气动理论(myoelastic aerodynamic)。该理论假定声带是自振的,声门周期性地开合将肺部呼出的气流切分成湍流脉冲。这些脉冲是由声带刺激产生的。他认为声带自振的频率,以及由此产生的气流脉冲频率主要取决于声带的自然生理属性,尤其是声带的长度和张力。而嗓音的强度则同气流压力的大小直接相关。总的来说,声带的这些特征是可变化的,可调控的。频率、强度和音质都可以自主地调节。过去的半个世纪,人们对这些可调节机制做了细致的研究,并取得了巨大进步。这源于调查方法的改进以及复杂数学模型的详尽阐述。这些模型提供了重要的视角和理解,反过来又促成了更先进的观察技术和更完善的数学模型的发展。科学上的成就很显然是国际性的,它对许多领域和学科都产生了重大的影响,比如外科手术、言语合成、教育学和语言康复等。
中国对于嗓音发音的兴趣有着悠久的历史,特别是在古老而独特的口传音乐方面。此外,中国境内的语言大都是声调语言,这就表明还有许多令人感兴趣地而未解决的发音控制问题有待于广泛而系统的探索。我们有理由相信中国在这方面有许多值得我们学习的地方。
《人类嗓音的数字建模》
——瑞典皇家理工学院(KTH)言语与音乐计算研究组的负责人Sten Ternstrom教授
嗓音模型可以通过几种层级来表现。为了制作合成的言语,只需模拟嗓音中辐射的声音。这通常采用“黑箱”(black box)方法,可以不用考虑嗓音是如何发生作用的。然而,对于语言和临床应用来说,我们需要这些模型,它们表达的是语音产生的详细过程而不仅仅是言语信号,因而我们可以把声学和物理方面观察到的一些现象同喉头与声道内的活动联系起来。但目前的难点在于嗓音产生的物理属性极其复杂;从某种程度上来说,对嗓音进行真实而全面的模拟在技术方面仍不具备可行性。Sten教授阐述了数字嗓音建模涉及到的一些问题并在各种复杂层面对其进行讨论。同时演示了许多现实生动的例子,例如:传统的声源滤波合成器,交互式发音合成器,以及未来的全方位物理场嗓音发声模拟器的雏形等,目前这些技术正在由欧洲Eunison项目进行研究。
《发音器官的磁共振成像研究》
——天津大学计算机科学与技术学院本多清志(Kiyoshi Honda)教授
磁共振成像(MRI)不仅是一项医疗成像技术,同时也是一种应用于人体可视化基础研究的工具。近10年来,它一直是观察发音器官生理功能的有效工具。本多教授30年前开始从事元音发声和音高调控机制方面的观察研究。从那时起,就一直把MRI作为一种主要的研究手段,将其应用于相关的课题研究,来考察发音器官的生理功能。使用了20年的MRI技术在动态成像方面一直存在不足,话语的实时影像更像是把许多静态图片串联起来。然而,放射科医师所获得的一张动态影像吸引了人们,因为它证实了纵向的咽部位移是沿着颈椎进行的。从图像上可以清楚地看到,颈椎前突面环状软骨的升降运动刺激环甲软骨韧带机制的运动。这个意料之外的发现使我们揭示了众多机制中的一个,该种机制涉及喉部结构的言语中音高的调节功能。
最近,与日本昭和音乐大学的一个小组(Showa University of Music)合作,做了一个关于女高音嗓音的磁共振成像研究。这项研究使人们对这个问题有了新的认识,因为其中的一个演唱者在演唱高音调时,中部的咽缩肌肌肉有明显的紧缩。由于咽部肌肉的半圆收缩使得后咽壁膨胀。这个肌肉从前面附着在u形舌骨上,因而同其他肌肉协同运动以保持舌骨位置的稳定,从而控制发声。
咽部肌肉在言语发声过程中起着重要作用,因为咽壁作为独立的发音器官可以改变咽腔形状。在吸气和发音时,咽腔分别有不同程度地扩大和缩小。通过改变下咽形状也有助于调节说话和演唱中嗓音的音质。这个区域包括梨状窝和喉腔,这些空腔可以在更高的频率下通过改变频谱类型的方式作用于音质。希望通过此次研讨会,诸位同仁能够将磁共振成像技术应用于那些尚未探索的领域,例如咽部研究,以期更加精细地揭示出发声控制的生理功能,从而获取新的发现。
《基于医学视角的声线科学与言语语音》
——香港大学声线研究所姚文礼教授
嗓音科学通常属于语言学中语音领域研究的内容。现如今人们已经意识到,除了语音学的知识,心理学、物理学、声学、数学和医学(解剖学、神经生理学以及病理学)对于理解声音的产生与感知是至关重要的。报告讨论了声线科学和语音障碍的各个方面以及如何运用科学的方法进行研究。姚文礼教授长期进行嗓音病理和嗓音保健研究,对嗓音的职业保护、嗓音评估方法、嗓音评估标准等都有大量深入的研究,他的报告不仅全面阐述了嗓音医学保健和相关科学的关系,而且介绍了嗓音评估的先进方法以及嗓音职业保健的社会重要性。 《基于多模态的汉语嗓音生理声学模型研究》
——北京大学中国语言文学系孔江平教授
报告介绍了他利用目前国际最先进的高速数字成像技术,以每秒钟2000至4500帧的采样率,采集了大量不同语言发声类型的声带振动样本,通过图像处理技术,得到声带不同发声类型的动态声门,经过提取参数研究声带振动和动态声门的最基本特性,在研究的基础上,建立了汉语普通话动态声门模型。动态声门模型不仅能够模拟不同的嗓音发声类型和声调等语言常用的声带振动方式,还能够模拟病变嗓音,并最终合成出不同发声类型的声波。这项基础研究不仅对研究嗓音的基础生理机能、声带仿生语音合成和声乐教学有重要的理论意义,而且对嗓音病理和声带手术治疗有实际应用价值。另外,孔江平教授还介绍了基于8个年龄段和不同性别的汉语普通话多维嗓音统计模型及评测系统,该系统可作为嗓音诊断和嗓音评价的有效工具。最后,孔江平教授还向与会者介绍了他的研究团队建立的汉语普通话唇形、呼吸和声道生理模型。
会议还邀请了戏曲学、临床医学等嗓音发声研究和嗓音病理研究方面的相关学者为研讨会作特邀报告:
《艺术嗓声训练中的保护问题的思考与实践》
——中央戏剧学院徐平教授
艺术嗓声训练是每个从事艺术创作实践的人都必须经历的一个基础训练之一。然而,在这个过程中,每个参与其中的人,不论训练者,还是被训练者,都面临着如何认识艺术嗓声,如何认识自身的嗓声条件,如何有效地使用自身的嗓声条件来达到艺术嗓音创作的问题。其中,在训练与使用嗓声的过程中如何能够有效地对嗓声进行保护就变得极为重要。在训练过程中,训练者通常会对受训者提出的一系列的要求,这些是在日常的训练中值得注意和思考的。
《嗓音质量评估模型的标准化研究》
——解放军总医院于萍教授
嗓音是一种复杂的多维现象,它既是一种呼气流作用下的声带振动产生声音的声学现象,又是一种主观心理听感知现象,同时还是一种社会、人际、情感和交流现象。嗓音质量的评估分为主观听感知评估和客观参数测试。她认为,嗓音客观测试参数的有效性、敏感性和稳定性,只有通过嗓音的主观听感知结果来检验,并决定着其数据化结果的内涵。另外,嗓音质量的客观参数测试嗓音的客观分析主要是通过对发声的声学参数、气流动力学参数和生理学参数的检测来评估嗓音质量。但是如何综合各种测试参数来量化嗓音质量,仍然是嗓音分析在临床应用中的重要课题。
《发音训练在治疗不同类型嗓音疾病中的作用》
——首都医科大学生理学与病理生理学系、首都医科大学附属北京同仁医院耳鼻咽喉头颈外科医生谢燕和徐文教授
正确的发声方法有助于保护发声器官,预防并治疗嗓音疾病。对2010年9月至2013年8月在北京同仁医院就诊的200余例嗓音疾病患者进行发音训练,包括痉挛性发音障碍、慢性咽喉炎、声带小结等发声障碍患者。她们认为发音训练可以帮助各类嗓音疾病患者改变不良的发声习惯,是一种有效的辅助治疗手段。但不同的嗓音疾病具有不同特点,需有针对性、个性化训练,而且是一项长期系统性工作。
《男高音唱高音难的生理及其技术原因调查》
——中央音乐学院黄露和韩丽艳教授
男高音唱高音难的问题一直是困扰许多声乐学生、年轻的歌唱家、声乐教师们的一个很大的问题,如何唱好high C成了很多男高音梦寐以求、努力奋斗的目标,也是很多声乐教师喜欢研究的一个重要课题。采用问卷调查、嗓音临床检测、歌唱状态评估对比的方法对中央音乐学院30名男高音学生进行了研究,从调查结果中发现,换声点、话声音高和声道与声部的符合率较高,因此这三项可以作为声乐教师分析判断声部的重要依据。
《不同粤剧演唱风格之间的声学比较:长时平均频谱分析》
——香港大学言语与听觉科学系燕楠和吴明华教授
尽管粤剧在中国尤其是南方沿海一带十分流行,但是目前还没有人对其不同演唱风格的语音质量进行过客观研究。由于粤剧在演唱时具有不断变化的性质,所以传统声学分析在对其进行研究时受到很大限制,并且成效甚微。所以需要一种新的研究方法来对这种不断变化的声学活动进行研究。而在对连续发音样本进行分析时,长时平均频谱分析(LTAS)可能是一种有效的途径。目前正在进行的研究就是使用LTAS对不同粤剧演唱风格相关的音质特征进行声学分析。
《在得到音高变化带来的听觉反馈时普通话声调发音的相应调整》
——中国科学院声学所冯永强,闫晓,Ludo MAX, 颜永红教授
在发声和言语中,听觉反馈起到了至关重要的作用。目前的研究旨在弄清普通话使用者是否能够适应两种音高移位情况(f0的升高与降低),并通过听觉反馈,将其分别应用到对高平调与低降调的识别之中。首先他们进行了相关的语音学实验,在实验中设置了不同的情况,并就相关主题收集到了良好的实验数据,不过目前他们仅对Z情况中的三个主题的声学数据进行了分析。初步的实验数据表明,对普通话使用者来说,同时适应两种不同的音高变化、将其分别归于高声调和低声调是非常困难的。
《普通话播音员的语音和嗓音能量分析》
——香港大学言语与听觉科学系声线研究所汪高武博士和姚文礼教授
我们的研究目的是通过播音员与普通人的对照,比较其语音和嗓音(喉部振动)能量,来探寻播音员发音和共鸣方式的特点。实验组是32名播音员(播音主持专业高年级学生),对照组是37名普通大学生。语料为持续元音a,分自然状态和大声状态。用数字录音仪测量语音的输出声压(音量)、用测振仪测量喉部皮肤表面振动能量。研究发现,无论是自然还是大声状态,播音员的共鸣放大系数都显著高于对照组。这说明播音员的发音效率更高,即可以用较少的嗓音能量,输出较高的语音声压。普通人主要是靠提升嗓音能量,而播音员还通过更好的共鸣来达到更大的声音输出效果。 《SHRC-Ginkgo语音合成系统概述》
——北京大学信息工程学院于延锁和吴玺宏教授
该报告介绍的是在2013年英文语音合成国际大赛(Blizzard Challenge 2013)上推出的SHRC-Ginkgo语音合成系统。在使用有声读物语料库的基础上,他们采用了单元选取的方法来开发这套语音合成系统。针对从数百个小时的语音材料中归纳出来的具有粗略标记的语料库,系统在语音识别方面采取了对声学模型采取轻度监测的方法,从而选取纯净的语音数据,提供准确的文字材料。此外,为了改进传统的声学模型,系统使用的是丰富的句法语境而不是韵律结构。为了解决大规模语料库的内存空间扩展和声学模型训练的长时运行负担问题,还找到了一个可以保证声学模型准确性的快速训练方法。
《昆曲念白声学分析》
——北京大学中文系语音乐律实验室博士后韩启超
这个课题主要是进行昆曲念白声学分析,选取样本为国家一级昆曲演员,南昆代表性旦行(闺门旦)名家的三段昆曲念白:《惊梦》、《玉簪记》、《刺虎》。声音样本分表演念白和中州韵本调两种类型。研究集中在三个方面:其一,昆曲念白的声调。包括韵白调值拟测;韵白与本调调值比较;韵白声调特征。其二,昆曲念白的时长。包括韵白时长统计;本调时长统计;韵白与本调时长比较;韵白时长与节奏关系分析。其三,昆曲念白的音高。包括韵白的音高统计;本调的音高统计;韵白与本调的音高比较;韵白音高与字声、旋律、曲情的关系。
《剑川白语的嗓音变异》
——北京大学中文系汪锋副教授
剑川白语的声调系统一直因基频和发声类型的复杂性而广受关注。他的研究是基于EGG信号提取基频、开商和速度商三个嗓音参数来验证声调特性。研究发现在8个声调调类中,有2种非常规的发声类型,刺耳声和压迫声以及其他不同的基频模式。在白语研究中,同一特殊发声类型在不同的发音人之间有着很大的差异,而同一种特殊发声模式甚至在同一个音节中也会发生变化。因此,如何通过嗓音参数来定义不同的发声类型还需要进一步研究。
《藏语安多话塞音的VAT研究》
——北京大学中文系语音乐律实验室桑塔
VAT(Vocal Attack Time)是指声带开始振动到声带接触的时间,它主要是分析嗓音起始端的特征。本文按照不同发音方法把藏语安多语的塞音分成了五大类,分别提取了相关的VAT值,考察了VAT与不同的发音方法和发音部位的相关性。这些发音方法包括清不送气的单辅音和复辅音、清送气单辅音,浊音和鼻化浊音。最后通过嗓音的VAT值把藏语安多话的塞音分为三大类,即清送气、清不送气和浊音。清送气多半是正值,是软启动嗓音(soft voice);清不送的声带开始振动和到声带接触几乎是同时的。浊音的VAT多半为负值,且其值较大,是属于硬启动嗓音(hard voice),这说明在嗓音的起始端声带有一个长时间的闭合。同时,浊音的一部分VAT与清送气一样变为软启动嗓音,这一点有可能是塞音清化的一个生理基础。还有发音部位和前缀与VAT没有相关性。
《基于情感语音的声带状态分析》
——上海师范大学计算机学院讲师潘晓声
在聆听音乐、欣赏诗词朗诵时,听众可以感受到表演者的情绪变化并引起情感共鸣,由此可知情感信息通过一定的方式附加在语音上来表现出来。他认为情感对语音的影响会体现在更多方面,比如人的血压、脉搏等生理特征。嗓音作为一种重要的发音生理特征,被认为是歌唱技巧的几大要素之一,可以用于表达不同的歌唱心境。为验证在普通人说话时,其嗓音特性是否同样会受情感变化的影响。他使用歌词、散文和古诗词为语料,对三个男性发音人的嗓音数据进行了特征提取,并对其进行了初步分析。
《两个昆曲男性行当的共振峰和声源特性》
——北京大学中文系语音乐律实验室董理、孔江平教授和JohanSundberg教授
研究分析了两个男性昆曲行当(净和老生)的声门气流波和电声门参数以及共振峰频率与泛音的关系。声门气流波和电声门参数都显示,净和老生行都使用比较紧的嗓音,二者都表现出低的归一化振幅商和高的接触商。在低频区域,净的嗓音要比老生更紧。有三个演员的接触商和第一、二谐波差分别与基频呈正相关和负相关,暗示着他们都随着基频的提升而增加声门的内收。
《基于EPG和EGG的朝鲜语塞音和塞擦音的发音生理分析》
——延边大学外国语学院李英浩副教授和张京花博士
朝鲜语三分对立的塞音和塞擦音在世界语言语音中比较特殊,在四个发音部位上(双唇、齿龈、龈腭以及软腭)均存在三个对立的音位。他采集了朝鲜语发音人的同步动态电子腭位(EPG)和嗓音信号(EGG),分析朝鲜语东北方言(即中国延边朝鲜族地区使用的朝鲜语方言)的三分对立的塞(擦)音的发音生理特征。研究结果发现,紧音的生理表征表现为声门和声门上发音器官的状态最为紧张,辅音持阻段的舌腭接触面积最大,后接元音的声门状态较紧;送气音的声门上发音器官的动作调整与紧音接近,但是其声门状态与紧音存在较大差别;松音的发音器官动作比较松弛,舌腭接触面积最小,同时声门状态比较松弛。
《蒙古长调民歌嗓音发声方式研究》
——西北民族大学中国民族信息技术研究院李永宏副教授
研究发现长调民歌演唱者运用非常多样化的嗓音发声模式以及颤音、喉音等演唱方式。其研究旨在探讨作为非物质文化遗产的蒙古民歌的发声技巧的生理表现和对比分析男女声嗓音特征的异同,从而总结长调的不同发声方式的嗓音特点及参数之间的相互关系,为今后更系统、深入地研究歌唱发声类型提供理论基础。
《禹州话四声的声学感知研究》
——北京大学中文系语音乐律实验室张锐峰
禹州话作为河南方言之一很少受到研究者的关注,本文对该方言的四个声调进行了一系列的研究探索,并有诸多发现。在其声调感知研究中,基频模式起主要作用,发声类型起补偿作用,在基频区别力弱的情况下,发声对感知的作用就会变大,在基频区别力强的情况下,发声对感知的贡献就会变小。本研究只讨论禹州话单字在脱离语境单念时的调值,不涉及由禹州方言语调引起的声调调值变化。
北京大学中文系主任陈跃红教授代表中文系致辞。陈教授在讲话中提到,本次研讨会围绕生理、语言和文化不同的视角来探讨语言的产生,并应用国际前沿研究方法来探讨嗓音的生理、声学特征,具有非常重要的意义,不仅对语言学的深入和跨学科的研究、交流有着重要的影响,同时对于嗓音的临床病理研究、言语工程研究以及言语合成等方面研究都起着很大的推动作用。
北京大学中国语言学研究中心主任陈保亚教授代表中心致辞。他说,嗓音研究是对人类言语产生的最根本的研究,更是多学科理论渗透和方法应用的专业高端研究。希望在这次跨学科的国际嗓音研讨会上,各位与会专家探讨和碰撞出更多的前沿思想和研究方法。
本次研讨会围绕嗓音这一核心主题展开,包括:嗓音生理、嗓音声学、嗓音合成和建模以及嗓音病理等多个视角,涉及嗓音在西方歌剧歌唱、中国戏曲歌唱、言语产生、临床病理、嗓音临床评估以及艺术嗓音训练等各方面的具体研究,还特别关注了多个少数民族不同口传文化中多样化的嗓音发声类型和演唱方式的研究。
嗓音是人类语言和口传文化的基础,本次会议以嗓音和人类复杂行为系统为主题,以多学科的视角,从嗓音生理学、嗓音病理学、言语科学、言语工程、声乐学、语言学等不同领域讨论了嗓音科学的学科前沿、各学科之间的相互关系和中国嗓音科学的发展前景。研讨会邀请了六位著名学者作了主题报告:
嗓音是由三种主要机制的协同作用产生的。第一个机制是呼吸器,用于压缩空气,在声带下方形成超压气流。第二个机制是声门,即两片声带中间的缝隙。嗓音产生的第三个机制是声道。它的作用是同这些以波峰波谷为特征的谐波产生共鸣。
在西方古典歌剧演唱中,声音是按照基频范围分类的。女高音演唱的范围最高,大致在220~1047赫兹之间,低音在80~350赫兹之间。音高的幅度与声带的长度有关,高音的声音同低音的声音相比声带更长。嗓音的响度是由声门下的气流压力控制的,可以在一个宽的范围内变化。在0.3米的距离时,它通常会达到100分贝左右的声压级(SPL),但实质上,基频和最低共振峰的频率都会影响声压级。第一共振峰的正常数值取决于元音,大致在250~800赫兹之间变化。
女性通常以高于第一共振峰正常数值的基频歌唱。然而,她们避免基频超过第一共振峰。因此,在音高高时,她们以第一共振峰稍高于基频的方式发那些元音。通过这种方式她们可以不用增加声门下的压力而是利用声道共鸣增加声压级。西方歌剧男演唱者会使第三、四、五共振峰聚集起来,导致频谱包络的峰值接近2800赫兹。在这个频率范围里西方管弦乐队有许多相对低的泛音,这就造成了歌唱家的声音甚至穿透了管弦乐队的高声伴奏。在这种情况下,演唱者利用共鸣提高声压级而不是增加声门下的压力。从这个意义上来说,西方歌剧的男女演唱家都应用了声带省力原则。
声源频谱中最低的泛音,即基频,在西方歌剧演唱中典型性很强。它是应用了适度的声门紧收产生的,而这与西方流行音乐的演唱方式有所不同。歌剧演唱中经常提高声门紧收程度,产生了一个弱化声带音。描写一种声带类型的特征需要详述基频的典型变化范围、声门下压和声门紧收程度,这些描写可以用三维视图来表示,并凭借嗓音合成技术来证明嗓音音质的相关效应。
美国哥伦比亚大学及纽约医学院Ron Baken教授做了题为《国际视角下的嗓音生理学》的主题报告。人们一直被人类语音的本质和功能所吸引,然而人类对认识这个精妙的交际工具的结构、功能和潜能所作的努力远不及对古文物的研究。受制于不成熟的科学方法,极其有限的调查技术以及对自然界不充分甚至错误的认识,关于嗓音产生的早期理论从现代常识的角度来看普遍缺乏准确性和预测性。当然,历史上也出现过一些真正的科学上的突破。例如,大约公元150年,希腊解剖学家盖伦(Galen)使用实验方法正确地识别了喉返神经的功能。与之相反,公元1500年左右,达芬奇(DaVinci)——西方科学史上最伟大的人物之一,经过对人体和动物样本的认真解剖后,错误地认为嗓音是喉心室中旋风的产物。观察喉部功能的更好的方法——尤其是1850年前后西班牙人加西亚(Garcia)发明的间接喉镜检查方法,以及相关科学领域的进步对于理解嗓音发声的机制起到了巨大的推动作用。早在1843年德国人缪勒(Müller)就提出了现代嗓音发声原理的基础理论。
20世纪中叶荷兰人van den Berg提出了嗓音生理学的气动理论(myoelastic aerodynamic)。该理论假定声带是自振的,声门周期性地开合将肺部呼出的气流切分成湍流脉冲。这些脉冲是由声带刺激产生的。他认为声带自振的频率,以及由此产生的气流脉冲频率主要取决于声带的自然生理属性,尤其是声带的长度和张力。而嗓音的强度则同气流压力的大小直接相关。总的来说,声带的这些特征是可变化的,可调控的。频率、强度和音质都可以自主地调节。过去的半个世纪,人们对这些可调节机制做了细致的研究,并取得了巨大进步。这源于调查方法的改进以及复杂数学模型的详尽阐述。这些模型提供了重要的视角和理解,反过来又促成了更先进的观察技术和更完善的数学模型的发展。科学上的成就很显然是国际性的,它对许多领域和学科都产生了重大的影响,比如外科手术、言语合成、教育学和语言康复等。 中国对于嗓音发音的兴趣有着悠久的历史,特别是在古老而独特的口传音乐方面。此外,中国境内的语言大都是声调语言,这就表明还有许多令人感兴趣地而未解决的发音控制问题有待于广泛而系统的探索。我们有理由相信中国在这方面有许多值得我们学习的地方。
瑞典皇家理工学院(KTH)言语与音乐计算研究组的负责人Sten Ternstrom教授做了题为《人类嗓音的数字建模》的主题报告。嗓音模型可以通过几种层级来表现。为了制作合成的言语,只需模拟嗓音中辐射的声音。这通常采用“黑箱”(black box)方法,可以不用考虑嗓音是如何发生作用的。然而,对于语言和临床应用来说,我们需要这些模型,它们表达的是语音产生的详细过程而不仅仅是言语信号,因而我们可以把声学和物理方面观察到的一些现象同喉头与声道内的活动联系起来。但目前的难点在于嗓音产生的物理属性极其复杂;从某种程度上来说,对嗓音进行真实而全面的模拟在技术方面仍不具备可行性。Sten教授阐述了数字嗓音建模涉及到的一些问题并在各种复杂层面对其进行讨论。同时演示了许多现实生动的例子,例如:传统的声源滤波合成器,交互式发音合成器,以及未来的全方位物理场嗓音发声模拟器的雏形等,目前这些技术正在由欧洲Eunison项目进行研究。
天津大学计算机科学与技术学院本多清志(Kiyoshi Honda)教授做了题是《发音器官的磁共振成像研究》的主题报告。磁共振成像(MRI)不仅是一项医疗成像技术,同时也是一种应用于人体可视化基础研究的工具。近十年来,它一直是观察发音器官生理功能的有效工具。本多教授于三十年前开始从事元音发声和音高调控机制方面的观察研究。从那时起,就一直把MRI作为一种主要的研究手段,将其应用于相关的课题研究,来考察发音器官的生理功能。使用了20年的MRI技术在动态成像方面一直存在不足,话语的实时影像更像是把许多静态图片串联起来。然而,放射科医师所获得的一张动态影像吸引了人们,因为它证实了纵向的咽部位移是沿着颈椎进行的。从图像上可以清楚地看到,颈椎前突面环状软骨的升降运动刺激环甲软骨韧带机制的运动。这个意料之外的发现使我们揭示了众多机制中的一个,该种机制涉及喉部结构的言语中音高的调节功能。
最近,与日本昭和音乐大学的一个小组(Showa University of Music)合作,做了一个关于女高音嗓音的磁共振成像研究。这项研究使人们对这个问题有了新的认识,因为其中的一个演唱者在演唱高音调时,中部的咽缩肌肌肉有明显的紧缩。由于咽部肌肉的半圆收缩使得后咽壁膨胀。这个肌肉从前面附着在u形舌骨上,因而同其他肌肉协同运动以保持舌骨位置的稳定,从而控制发声。
咽部肌肉在言语发声过程中起着重要作用,因为咽壁作为独立的发音器官可以改变咽腔形状。在吸气和发音时,咽腔分别有不同程度地扩大和缩小。通过改变下咽形状也有助于调节说话和演唱中嗓音的音质。这个区域包括梨状窝和喉腔,这些空腔可以在更高的频率下通过改变频谱类型的方式作用于音质。希望在此次研讨会中,诸位同仁能够将磁共振成像技术应用于那些尚未探索的领域,例如咽部研究,以期更加精细地揭示出发声控制的生理功能,从而获取新的发现。
香港大学声线研究所姚文礼教授做了题为《基于医学视角的声线科学与言语语音》的主题报告。嗓音科学通常属于语言学中语音领域研究的内容。现如今人们已经意识到除了语音学的知识,心理学、物理学、声学、数学和医学(解剖学、神经生理学以及病理学)对于理解声音的产生与感知是至关重要的。这次演讲将要讨论声线科学和语音障碍的各个方面以及如何运用科学的方法进行研究。姚文礼教授长期进行嗓音病理和嗓音保健研究,对嗓音的职业保护、嗓音评估方法、嗓音评估标准等都有大量深入的研究,他的报告不仅全面阐述了嗓音医学保健和相关科学的关系,而且介绍了嗓音评估的先进方法以及嗓音职业保健的社会重要性。
北京大学中国语言文学系孔江平教授做了题为《基于多模态的汉语嗓音生理声学模型研究》的主题报告。报告介绍了他利用目前国际最先进的高速数字成像技术,以每秒钟2000至4500帧的采样率,采集了大量不同语言发声类型的声带振动样本,通过图像处理技术,得到声带不同发声类型的动态声门,经过提取参数研究声带振动和动态声门的最基本特性,在研究的基础上,建立了汉语普通话动态声门模型。动态声门模型不仅能够模拟不同的嗓音发声类型很声调等语言常用的声带振动方式,还能够模拟病变嗓音,并最终合成出不同发声类型的声波。这项基础研究不仅对研究嗓音的基础生理机能、声带仿生语音合成和声乐教学有重要的理论意义,而且对嗓音病理和嗓音手术治疗有实际应用价值。另外,孔江平教授还介绍了基于年龄和性别的汉语普通话多维嗓音统计模型及评测系统,该系统可作为嗓音诊断和嗓音评价的有效工具。最后,孔江平教授还向与会者介绍了他的研究团队建立的汉语普通话唇形、呼吸和声道生理模型。
会议还邀请了戏曲学、临床医学等嗓音发声研究和嗓音病理研究方面的相关学者为研讨会作特邀报告:
中央戏剧学院徐平教授的报告题目为《艺术嗓声训练中的保护问题的思考与实践》。艺术嗓声训练是每个从事艺术创作实践的人都必须经历的一个基础训练之一。然而,在这个过程中,每个参与其中的人,不论训练者,还是被训练者,都面临着如何认识艺术嗓声,如何认识自身的嗓声条件,如何有效地使用自身的嗓声条件来达到艺术嗓声创作的需要的问题。其中,在训练与使用嗓声的过程中如何能够有效地对嗓声进行保护就变的极为重要。在训练过程中,训练者通常会对受训者提出的一系列的要求,这些是在日常的训练中值得注意和思考的。
解放军总医院于萍医生的报告题目是《嗓音质量评估模型的标准化研究》。嗓音是一种复杂的多维现象,它既是一种呼气流作用下的声带振动产生声音的声学现象,又是一种主观心理听感知现象,同时还是一种社会、人际、情感和交流现象。嗓音质量的评估分为主观听感知评估和客观参数测试。她认为,嗓音客观测试参数的有效性、敏感性和稳定性,只有通过嗓音的主观听感知结果来检验,并决定着其数据化结果的内涵。另外,嗓音质量的客观参数测试嗓音的客观分析主要是通过对发声的声学参数、气流动力学参数和生理学参数的检测来评估嗓音质量。但是如何综合各种测试参数来量化嗓音质量,仍然是嗓音分析在临床应用中的重要课题。 首都医科大学生理学与病理生理学系、首都医科大学附属北京同仁医院耳鼻咽喉头颈外科医生谢燕和徐文的报告题目是《发音训练在治疗不同类型嗓音疾病中的作用》。正确的发声方法有助于保护发声器官,预防并治疗嗓音疾病。对2010年9月至2013年8月在我院就诊的200余例嗓音疾病患者进行发音训练,包括痉挛性发音障碍、慢性咽喉炎、声带小结等发声障碍患者。她们认为发音训练可以帮助各类嗓音疾病患者改变不良的发声习惯,是一种有效的辅助治疗手段。但不同的嗓音疾病具有不同特点,需有针对性、个性化训练,而且是一项长期系统性工作。
中央音乐学院黄露和韩丽艳教授的报告题目是《男高音唱高音难的生理及其技术原因调查》。男高音唱高音难的问题一直是困扰许多声乐学生、年轻的歌唱家、声乐教师们的一个很大的问题,如何唱好high C 成了很多男高音梦寐以求、努力奋斗的目标,也是很多声乐教师喜欢研究的一个重要课题。采用问卷调查、嗓音临床检测、歌唱状态评估对比的方法对中央音乐学院30 名男高音学生进行了研究,从调查结果中发现,换声点、话声音高、声道与声部的符合率较高,因此这三项可以作为声乐教师分析判断声部的重要依据。
香港大学言语与听觉科学系燕楠和吴明华教授的报告题目是《不同粤剧演唱风格之间的声学比较:长时平均频谱分析》。尽管粤剧在中国尤其是南方沿海一带十分流行,但是目前还没有人对其不同演唱风格的语音质量进行过客观研究。由于粤剧在演唱时具有不断变化的性质,所以传统声学分析在对其进行研究时受到很大限制,并且成效甚微。所以需要一种新的研究方法来对这种不断变化的声学活动进行研究。而在对连续发音样本进行分析时,长时平均频谱分析(LTAS)可能是一种有效的途径。目前正在进行的研究就是使用LTAS对不同粤剧演唱风格相关的音质特征进行声学分析。
北京大学中文系汪锋副教授的报告题目是《剑川白语的嗓音变异》。剑川白语的声调系统一直因基频和发声类型的复杂性而广受关注。他的研究是基于EGG信号提取基频、开商和速度商三个嗓音参数来验证声调特性。研究发现在8个声调调类中,有2种非常规的发声类型,刺耳声和压迫声以及其他不同的基频模式。在白语研究中,同一特殊发声类型在不同的发音人之间有着很大的差异,而同一种特殊发声模式甚至在同一个音节中也会发生变化。因此,如何通过嗓音参数来定义不同的发声类型还需要进一步研究。
北京大学信息工程学院于延锁和吴玺宏教授的报告题目是《SHRC- Ginkgo语音合成系统概述》。本文介绍在2013年英文语音合成国际大赛(Blizzard Challenge 2013)上推出的SHRC- Ginkgo语音合成系统。在使用有声读物语料库的基础上,他们采用了单元选取的方法来开发这套语音合成系统。针对从数百个小时的语音材料中归纳出来的具有粗略标记的语料库,系统在语音识别方面采取了对声学模型采取轻度监测的方法,从而选取纯净的语音数据,提供准确的文字材料。此外,为了改进传统的声学模型,系统使用的是丰富的句法语境而不是韵律结构。为了解决大规模语料库的内存空间扩展和声学模型训练的长时运行负担问题,还找到了一个可以保证声学模型准确性的快速训练方法。
中国科学院声学所冯永强,闫晓,Ludo MAX, 颜永红教授的报告题目是《在得到音高变化带来的听觉反馈时普通话声调发音的相应调整》。在发声和言语中,听觉反馈起到了至关重要的作用。目前的研究旨在弄清普通话使用者是否能够适应两种音高移位情况(f0的升高与降低),并通过听觉反馈,将其分别应用到对高平调与低降调的识别之中。首先他们进行了相关的语音学实验,在实验中设置了不同的情况,并就相关主题收集到了良好的实验数据,不过目前我们仅对Z情况中的三个主题的声学数据进行了分析。初步的实验数据表明,对普通话使用者来说,同时适应两种不同的音高变化、将其分别归于高声调和低声调是非常困难的。
香港大学言语与听觉科学系声线研究所汪高武博士和姚文礼教授的报告题目是《普通话播音员的语音和嗓音能量分析》。他们的研究,目的是通过播音员与普通人的对照,比较其语音和嗓音(喉部振动)能量,来探寻播音员发音和共鸣方式的特点。实验组是32名播音员(播音主持专业高年级学生),对照组是37名普通大学生。语料为持续元音a,分自然状态和大声状态。用数字录音仪测量语音的输出声压(音量)、用测振仪测量喉部皮肤表面振动能量。研究发现,无论是自然还是大声状态,播音员的共鸣放大系数都显著高于对照组。这说明播音员的发音效率更高,即可以用较少的嗓音能量,输出较高的语音声压。普通人主要是靠提升嗓音能量,而播音员还通过更好的共鸣来达到更大的声音输出效果。
延边大学外国语学院李英浩副教授和张京花博士的报告题目是《基于EPG和EGG的朝鲜语塞音和塞擦音的发音生理分析》。朝鲜语三分对立的塞音和塞擦音在世界语言语音中比较特殊,在四个发音部位上(双唇、齿龈、龈腭以及软腭)均存在三个对立的音位。他采集了朝鲜语发音人的同步动态电子腭位(EPG)和嗓音信号(EGG),分析朝鲜语东北方言(即中国延边朝鲜族地区使用的朝鲜语方言)的三分对立的塞(擦)音的发音生理特征。研究结果发现,紧音的生理表征表现为声门和声门上发音器官的状态最为紧张,辅音持阻段的舌腭接触面积最大,后接元音的声门状态较紧;送气音的声门上发音器官的动作调整与紧音接近,但是其声门状态与紧音存在较大差别;松音的发音器官动作比较松弛,舌腭接触面积最小,同时声门状态比较松弛。
北京大学中文系语音乐律实验室的董理、孔江平教授和JohanSundberg教授的报告题目是《两个昆曲男性行当的共振峰和声源特性》。研究分析了两个男性昆曲行当(净和老生)的声门气流波和电声门参数以及共振峰频率与泛音的关系。声门气流波和电声门参数都显示,净和老生行都使用比较紧的嗓音,二者都表现出低的归一化振幅商和高的接触商。在低频区域,净的嗓音要比老生更紧。有三个演员的接触商和第一、二谐波差分别与基频呈正相关、负相关,暗示着他们都随着基频的提升而增加声门的内收。 西北民族大学中国民族信息技术研究院李永宏副教授的报告题目是《蒙古长调民歌嗓音发声方式研究》。研究发现长调民歌演唱者运用非常多样化的嗓音发声模式以及颤音、喉音等演唱方式。其研究旨在探讨作为非物质文化遗产的蒙古民歌的发声技巧的生理表现和对比分析男女声嗓音特征的异同,从而总结长调的不同发声方式的嗓音特点及参数之间的相互关系,为今后更系统、深入地研究歌唱发声类型提供理论基础。
上海师范大学计算机学院讲师潘晓声的报告题目是《基于情感语音的声带状态分析》。在聆听音乐、欣赏诗词朗诵时,听众可以感受到表演者的情绪变化并引起情感共鸣,由此可知情感信息通过一定的方式附加在语音上来表现出来。他认为情感对语音的影响会体现在更多方面,比如人的血压、脉搏等生理特征。嗓音作为一种重要的发音生理特征,被认为是歌唱技巧的几大要素之一,可以用于表达不同的歌唱心境。为验证在普通人说话时,其嗓音特性是否同样会受情感变化的影响。他使用歌词、散文和古诗词为语料,对三个男性发音人的嗓音数据进行了特征提取,并对其进行了初步分析。
北京大学中文系语音实验室博士后韩启超的报告题目是《昆曲念白声学实验分析》。他的研究课题主要进行昆曲念白声学实验分析,选取样本为国家一级昆曲演员,南昆代表性旦行(闺门旦)名家的三段昆曲念白:《惊梦》、《玉簪记》、《刺虎》。声音样本分表演念白和中州韵本调两种类型。研究集中在三个方面:其一,昆曲念白的声调。包括韵白调值拟测;韵白与本调调值比较;韵白声调特征。其二,昆曲念白的时长。包括韵白时长统计;本调时长统计;韵白与本调时长比较;韵白时长与节奏关系分析。其三,昆曲念白的音高。包括韵白的音高统计;本调的音高统计;韵白与本调的音高比较;韵白音高与字声、旋律、曲情的关系。
北京大学中文系语音乐律实验室张锐峰的报告题目是《禹州话四声的声学感知研究》。禹州话作为河南方言之一很少受到研究者的关注,本文对该方言的四个声调进行了一系列的研究探索,并有诸多发现。在其声调感知研究中,基频模式起主要作用,发声类型起补偿作用,在基频区别力弱的情况下,发声对感知的作用就会变大,在基频区别力强的情况下,发声对感知的贡献就会变小。本研究只讨论禹州话单字在脱离语境单念时的调值,不涉及由禹州方言语调引起的声调调值变化。
北京大学中文系语音乐律实验室桑塔的报告题目是《藏语安多话塞音的VAT研究》。VAT(Vocal Attack Time)是指声带开始抖动到声带接触的时间,它主要是分析嗓音起始端的特征。本文按照不同发音方法把藏语安多语的塞音分成了五大类,分别提取了相关的VAT值,考察了VAT与不同的发音方法和发音部位的相关性。 这些发音方法包括清不送气的单辅音和复辅音、清送气单辅音,浊音和鼻化浊音。最后通过嗓音的VAT值把藏语安多话的塞音分为三大类,即清送气、清不送气和浊音。清送气多半是正值,是软起动启动嗓音(soft voice);清不送的声带开始振动和到声带接触几乎是同时的。浊音的VAT多半为负值,且其值较大,是属于硬启动嗓音(hard voice),这说明在嗓音的起始端声带有一个长时间的闭合。同时,浊音的一部分VAT与清送气一样变为软启动嗓音,这一点有可能是塞音清化的一个生理基础。还有发音部位和前缀与VAT没有相关性。
本次大会还以板报(poster)形式展示了部分研究成果,这些成果主要有:1)北京大学信息科学技术学院朱风云和其导师吴玺宏教授的《高质量语音-歌唱”合成系统》;2)北京大学中文系语音乐律实验室吴韩娜的《韩国学习者的汉语嗓音音质加工方式》;3)北京大学中文系语音乐律实验室姚云的“声区实时绘制系统”;4)北京大学中文系语音乐律实验室张春连的《汉语嗓音不同年龄段的EGG研究》;5)北京大学中文系语音乐律实验室方华萍的《不同年龄段汉语普通话多维嗓音MDVP分析》; 6)北京大学中文系语音乐律实验室张锐峰和孔江平的《普通话四声的VAT研究》;7)北京大学中文系语音乐律实验室张锐峰和孔江平的《普通话不同音高层级和元音的VAT研究》;8)中央音乐学院屈歌的《歌唱中的普通话单元音声学特性》;9)北京友谊医院的李革临、俞方、李莉的《呼麦声源振动模式—假声带振动模式的研究》;10)山西大学语言科学研究所、山西警官高等专科学校杨俊杰的《口音韵母、鼻化韵母、鼻韵母的语图判别法研究》。
另外,科学院颜永红研究员的团队展示汉语普通话声调反馈学习系统;北大吴玺宏教授的团队展示了高自然度的语音合成系统和汉语歌唱合成系统,吴玺宏教授团队的这个语音合成系统在今年的国际评比中获得第一名。北大孔江平教授的团队展示了汉语普通话声道、唇形、动态声门和呼吸生理模型以及汉语多维嗓音评价模型和实时声区展示系统。这些模型和系统展示了中国汉语及民族语言在言语科学和工程领域的研究的成果,得到了国际学界的高度评价。
本次嗓音研讨会是国内首次邀请国际著名嗓音专家、国内多个嗓音研究领域的学者进行直接对话深入交流的探讨和总结,不仅对嗓音的生理、声学特征表现和研究方法进行深入分析和交流,而且是不同学科、不同领域的嗓音研究和应用的探索,促进了嗓音研究与理论创新、方法提升的紧密结合。与会学者在嗓音研究相关的言语产生、嗓音建模、嗓音艺术、嗓音病理、嗓音训练以及嗓音评估等各个方面展开了热烈的讨论,在嗓音研究具体方法方面进行了深入的交流,在嗓音研究领域拓展了视野,也为各个分支的嗓音研究和方法的结合打开了新的思路。最近,北京大学中文系和中国语言学研究中心以语言学实验室为基础同香港中文大学和台湾联合大学系统(台湾清华大学、交通大学、阳明大学和中央大学)共同成立了“语言与人类复杂系统联合研究中心(Joint center for Language and Human Complexity)”。作为联合研究中心的一次学术活动,我们主张多学科和多领域相互交叉、借鉴和融合。这次会议不仅为中国和国际嗓音的学术研究提供了一个平台,同时也为这个领域的国际合作奠定了一个良好的基础。 文稿:孔江平,方华萍等
摄影:于谦
《国际视角下的嗓音生理学》
——美国哥伦比亚大学及纽约医学院Ron Baken教授
人们一直被人类语音的本质和功能所吸引,然而人类对认识这个精妙的交际工具的结构、功能和潜能所作的努力远不及对古文物的研究。受制于不成熟的科学方法,极其有限的调查技术以及对自然界不充分甚至错误的认识,嗓音产生的早期理论从现代常识的角度来看普遍缺乏准确性和预测性。当然,历史上也出现过一些真正的科学上的突破。例如,大约公元150年,希腊解剖学家盖伦(Galen)使用实验方法正确地识别了喉返神经的功能。与之相反,公元1500年左右,达芬奇(DaVinci)——西方科学史上最伟大的人物之一,经过对人体和动物样本的认真解剖后,错误地认为嗓音是喉心室中旋风的产物。观察喉部功能的更好的方法——尤其是1850年前后西班牙人加西亚(Garcia)发明的间接喉镜检查方法,以及相关科学领域的进步对于理解嗓音发声的机制起到了巨大的推动作用。早在1843年德国人缪勒(Müller)就提出了现代嗓音发声原理的基础理论。
20世纪中叶荷兰人van den Berg提出了嗓音生理学的气动理论(myoelastic aerodynamic)。该理论假定声带是自振的,声门周期性地开合将肺部呼出的气流切分成湍流脉冲。这些脉冲是由声带刺激产生的。他认为声带自振的频率,以及由此产生的气流脉冲频率主要取决于声带的自然生理属性,尤其是声带的长度和张力。而嗓音的强度则同气流压力的大小直接相关。总的来说,声带的这些特征是可变化的,可调控的。频率、强度和音质都可以自主地调节。过去的半个世纪,人们对这些可调节机制做了细致的研究,并取得了巨大进步。这源于调查方法的改进以及复杂数学模型的详尽阐述。这些模型提供了重要的视角和理解,反过来又促成了更先进的观察技术和更完善的数学模型的发展。科学上的成就很显然是国际性的,它对许多领域和学科都产生了重大的影响,比如外科手术、言语合成、教育学和语言康复等。
中国对于嗓音发音的兴趣有着悠久的历史,特别是在古老而独特的口传音乐方面。此外,中国境内的语言大都是声调语言,这就表明还有许多令人感兴趣地而未解决的发音控制问题有待于广泛而系统的探索。我们有理由相信中国在这方面有许多值得我们学习的地方。
《人类嗓音的数字建模》
——瑞典皇家理工学院(KTH)言语与音乐计算研究组的负责人Sten Ternstrom教授
嗓音模型可以通过几种层级来表现。为了制作合成的言语,只需模拟嗓音中辐射的声音。这通常采用“黑箱”(black box)方法,可以不用考虑嗓音是如何发生作用的。然而,对于语言和临床应用来说,我们需要这些模型,它们表达的是语音产生的详细过程而不仅仅是言语信号,因而我们可以把声学和物理方面观察到的一些现象同喉头与声道内的活动联系起来。但目前的难点在于嗓音产生的物理属性极其复杂;从某种程度上来说,对嗓音进行真实而全面的模拟在技术方面仍不具备可行性。Sten教授阐述了数字嗓音建模涉及到的一些问题并在各种复杂层面对其进行讨论。同时演示了许多现实生动的例子,例如:传统的声源滤波合成器,交互式发音合成器,以及未来的全方位物理场嗓音发声模拟器的雏形等,目前这些技术正在由欧洲Eunison项目进行研究。
《发音器官的磁共振成像研究》
——天津大学计算机科学与技术学院本多清志(Kiyoshi Honda)教授
磁共振成像(MRI)不仅是一项医疗成像技术,同时也是一种应用于人体可视化基础研究的工具。近10年来,它一直是观察发音器官生理功能的有效工具。本多教授30年前开始从事元音发声和音高调控机制方面的观察研究。从那时起,就一直把MRI作为一种主要的研究手段,将其应用于相关的课题研究,来考察发音器官的生理功能。使用了20年的MRI技术在动态成像方面一直存在不足,话语的实时影像更像是把许多静态图片串联起来。然而,放射科医师所获得的一张动态影像吸引了人们,因为它证实了纵向的咽部位移是沿着颈椎进行的。从图像上可以清楚地看到,颈椎前突面环状软骨的升降运动刺激环甲软骨韧带机制的运动。这个意料之外的发现使我们揭示了众多机制中的一个,该种机制涉及喉部结构的言语中音高的调节功能。
最近,与日本昭和音乐大学的一个小组(Showa University of Music)合作,做了一个关于女高音嗓音的磁共振成像研究。这项研究使人们对这个问题有了新的认识,因为其中的一个演唱者在演唱高音调时,中部的咽缩肌肌肉有明显的紧缩。由于咽部肌肉的半圆收缩使得后咽壁膨胀。这个肌肉从前面附着在u形舌骨上,因而同其他肌肉协同运动以保持舌骨位置的稳定,从而控制发声。
咽部肌肉在言语发声过程中起着重要作用,因为咽壁作为独立的发音器官可以改变咽腔形状。在吸气和发音时,咽腔分别有不同程度地扩大和缩小。通过改变下咽形状也有助于调节说话和演唱中嗓音的音质。这个区域包括梨状窝和喉腔,这些空腔可以在更高的频率下通过改变频谱类型的方式作用于音质。希望通过此次研讨会,诸位同仁能够将磁共振成像技术应用于那些尚未探索的领域,例如咽部研究,以期更加精细地揭示出发声控制的生理功能,从而获取新的发现。
《基于医学视角的声线科学与言语语音》
——香港大学声线研究所姚文礼教授
嗓音科学通常属于语言学中语音领域研究的内容。现如今人们已经意识到,除了语音学的知识,心理学、物理学、声学、数学和医学(解剖学、神经生理学以及病理学)对于理解声音的产生与感知是至关重要的。报告讨论了声线科学和语音障碍的各个方面以及如何运用科学的方法进行研究。姚文礼教授长期进行嗓音病理和嗓音保健研究,对嗓音的职业保护、嗓音评估方法、嗓音评估标准等都有大量深入的研究,他的报告不仅全面阐述了嗓音医学保健和相关科学的关系,而且介绍了嗓音评估的先进方法以及嗓音职业保健的社会重要性。 《基于多模态的汉语嗓音生理声学模型研究》
——北京大学中国语言文学系孔江平教授
报告介绍了他利用目前国际最先进的高速数字成像技术,以每秒钟2000至4500帧的采样率,采集了大量不同语言发声类型的声带振动样本,通过图像处理技术,得到声带不同发声类型的动态声门,经过提取参数研究声带振动和动态声门的最基本特性,在研究的基础上,建立了汉语普通话动态声门模型。动态声门模型不仅能够模拟不同的嗓音发声类型和声调等语言常用的声带振动方式,还能够模拟病变嗓音,并最终合成出不同发声类型的声波。这项基础研究不仅对研究嗓音的基础生理机能、声带仿生语音合成和声乐教学有重要的理论意义,而且对嗓音病理和声带手术治疗有实际应用价值。另外,孔江平教授还介绍了基于8个年龄段和不同性别的汉语普通话多维嗓音统计模型及评测系统,该系统可作为嗓音诊断和嗓音评价的有效工具。最后,孔江平教授还向与会者介绍了他的研究团队建立的汉语普通话唇形、呼吸和声道生理模型。
会议还邀请了戏曲学、临床医学等嗓音发声研究和嗓音病理研究方面的相关学者为研讨会作特邀报告:
《艺术嗓声训练中的保护问题的思考与实践》
——中央戏剧学院徐平教授
艺术嗓声训练是每个从事艺术创作实践的人都必须经历的一个基础训练之一。然而,在这个过程中,每个参与其中的人,不论训练者,还是被训练者,都面临着如何认识艺术嗓声,如何认识自身的嗓声条件,如何有效地使用自身的嗓声条件来达到艺术嗓音创作的问题。其中,在训练与使用嗓声的过程中如何能够有效地对嗓声进行保护就变得极为重要。在训练过程中,训练者通常会对受训者提出的一系列的要求,这些是在日常的训练中值得注意和思考的。
《嗓音质量评估模型的标准化研究》
——解放军总医院于萍教授
嗓音是一种复杂的多维现象,它既是一种呼气流作用下的声带振动产生声音的声学现象,又是一种主观心理听感知现象,同时还是一种社会、人际、情感和交流现象。嗓音质量的评估分为主观听感知评估和客观参数测试。她认为,嗓音客观测试参数的有效性、敏感性和稳定性,只有通过嗓音的主观听感知结果来检验,并决定着其数据化结果的内涵。另外,嗓音质量的客观参数测试嗓音的客观分析主要是通过对发声的声学参数、气流动力学参数和生理学参数的检测来评估嗓音质量。但是如何综合各种测试参数来量化嗓音质量,仍然是嗓音分析在临床应用中的重要课题。
《发音训练在治疗不同类型嗓音疾病中的作用》
——首都医科大学生理学与病理生理学系、首都医科大学附属北京同仁医院耳鼻咽喉头颈外科医生谢燕和徐文教授
正确的发声方法有助于保护发声器官,预防并治疗嗓音疾病。对2010年9月至2013年8月在北京同仁医院就诊的200余例嗓音疾病患者进行发音训练,包括痉挛性发音障碍、慢性咽喉炎、声带小结等发声障碍患者。她们认为发音训练可以帮助各类嗓音疾病患者改变不良的发声习惯,是一种有效的辅助治疗手段。但不同的嗓音疾病具有不同特点,需有针对性、个性化训练,而且是一项长期系统性工作。
《男高音唱高音难的生理及其技术原因调查》
——中央音乐学院黄露和韩丽艳教授
男高音唱高音难的问题一直是困扰许多声乐学生、年轻的歌唱家、声乐教师们的一个很大的问题,如何唱好high C成了很多男高音梦寐以求、努力奋斗的目标,也是很多声乐教师喜欢研究的一个重要课题。采用问卷调查、嗓音临床检测、歌唱状态评估对比的方法对中央音乐学院30名男高音学生进行了研究,从调查结果中发现,换声点、话声音高和声道与声部的符合率较高,因此这三项可以作为声乐教师分析判断声部的重要依据。
《不同粤剧演唱风格之间的声学比较:长时平均频谱分析》
——香港大学言语与听觉科学系燕楠和吴明华教授
尽管粤剧在中国尤其是南方沿海一带十分流行,但是目前还没有人对其不同演唱风格的语音质量进行过客观研究。由于粤剧在演唱时具有不断变化的性质,所以传统声学分析在对其进行研究时受到很大限制,并且成效甚微。所以需要一种新的研究方法来对这种不断变化的声学活动进行研究。而在对连续发音样本进行分析时,长时平均频谱分析(LTAS)可能是一种有效的途径。目前正在进行的研究就是使用LTAS对不同粤剧演唱风格相关的音质特征进行声学分析。
《在得到音高变化带来的听觉反馈时普通话声调发音的相应调整》
——中国科学院声学所冯永强,闫晓,Ludo MAX, 颜永红教授
在发声和言语中,听觉反馈起到了至关重要的作用。目前的研究旨在弄清普通话使用者是否能够适应两种音高移位情况(f0的升高与降低),并通过听觉反馈,将其分别应用到对高平调与低降调的识别之中。首先他们进行了相关的语音学实验,在实验中设置了不同的情况,并就相关主题收集到了良好的实验数据,不过目前他们仅对Z情况中的三个主题的声学数据进行了分析。初步的实验数据表明,对普通话使用者来说,同时适应两种不同的音高变化、将其分别归于高声调和低声调是非常困难的。
《普通话播音员的语音和嗓音能量分析》
——香港大学言语与听觉科学系声线研究所汪高武博士和姚文礼教授
我们的研究目的是通过播音员与普通人的对照,比较其语音和嗓音(喉部振动)能量,来探寻播音员发音和共鸣方式的特点。实验组是32名播音员(播音主持专业高年级学生),对照组是37名普通大学生。语料为持续元音a,分自然状态和大声状态。用数字录音仪测量语音的输出声压(音量)、用测振仪测量喉部皮肤表面振动能量。研究发现,无论是自然还是大声状态,播音员的共鸣放大系数都显著高于对照组。这说明播音员的发音效率更高,即可以用较少的嗓音能量,输出较高的语音声压。普通人主要是靠提升嗓音能量,而播音员还通过更好的共鸣来达到更大的声音输出效果。 《SHRC-Ginkgo语音合成系统概述》
——北京大学信息工程学院于延锁和吴玺宏教授
该报告介绍的是在2013年英文语音合成国际大赛(Blizzard Challenge 2013)上推出的SHRC-Ginkgo语音合成系统。在使用有声读物语料库的基础上,他们采用了单元选取的方法来开发这套语音合成系统。针对从数百个小时的语音材料中归纳出来的具有粗略标记的语料库,系统在语音识别方面采取了对声学模型采取轻度监测的方法,从而选取纯净的语音数据,提供准确的文字材料。此外,为了改进传统的声学模型,系统使用的是丰富的句法语境而不是韵律结构。为了解决大规模语料库的内存空间扩展和声学模型训练的长时运行负担问题,还找到了一个可以保证声学模型准确性的快速训练方法。
《昆曲念白声学分析》
——北京大学中文系语音乐律实验室博士后韩启超
这个课题主要是进行昆曲念白声学分析,选取样本为国家一级昆曲演员,南昆代表性旦行(闺门旦)名家的三段昆曲念白:《惊梦》、《玉簪记》、《刺虎》。声音样本分表演念白和中州韵本调两种类型。研究集中在三个方面:其一,昆曲念白的声调。包括韵白调值拟测;韵白与本调调值比较;韵白声调特征。其二,昆曲念白的时长。包括韵白时长统计;本调时长统计;韵白与本调时长比较;韵白时长与节奏关系分析。其三,昆曲念白的音高。包括韵白的音高统计;本调的音高统计;韵白与本调的音高比较;韵白音高与字声、旋律、曲情的关系。
《剑川白语的嗓音变异》
——北京大学中文系汪锋副教授
剑川白语的声调系统一直因基频和发声类型的复杂性而广受关注。他的研究是基于EGG信号提取基频、开商和速度商三个嗓音参数来验证声调特性。研究发现在8个声调调类中,有2种非常规的发声类型,刺耳声和压迫声以及其他不同的基频模式。在白语研究中,同一特殊发声类型在不同的发音人之间有着很大的差异,而同一种特殊发声模式甚至在同一个音节中也会发生变化。因此,如何通过嗓音参数来定义不同的发声类型还需要进一步研究。
《藏语安多话塞音的VAT研究》
——北京大学中文系语音乐律实验室桑塔
VAT(Vocal Attack Time)是指声带开始振动到声带接触的时间,它主要是分析嗓音起始端的特征。本文按照不同发音方法把藏语安多语的塞音分成了五大类,分别提取了相关的VAT值,考察了VAT与不同的发音方法和发音部位的相关性。这些发音方法包括清不送气的单辅音和复辅音、清送气单辅音,浊音和鼻化浊音。最后通过嗓音的VAT值把藏语安多话的塞音分为三大类,即清送气、清不送气和浊音。清送气多半是正值,是软启动嗓音(soft voice);清不送的声带开始振动和到声带接触几乎是同时的。浊音的VAT多半为负值,且其值较大,是属于硬启动嗓音(hard voice),这说明在嗓音的起始端声带有一个长时间的闭合。同时,浊音的一部分VAT与清送气一样变为软启动嗓音,这一点有可能是塞音清化的一个生理基础。还有发音部位和前缀与VAT没有相关性。
《基于情感语音的声带状态分析》
——上海师范大学计算机学院讲师潘晓声
在聆听音乐、欣赏诗词朗诵时,听众可以感受到表演者的情绪变化并引起情感共鸣,由此可知情感信息通过一定的方式附加在语音上来表现出来。他认为情感对语音的影响会体现在更多方面,比如人的血压、脉搏等生理特征。嗓音作为一种重要的发音生理特征,被认为是歌唱技巧的几大要素之一,可以用于表达不同的歌唱心境。为验证在普通人说话时,其嗓音特性是否同样会受情感变化的影响。他使用歌词、散文和古诗词为语料,对三个男性发音人的嗓音数据进行了特征提取,并对其进行了初步分析。
《两个昆曲男性行当的共振峰和声源特性》
——北京大学中文系语音乐律实验室董理、孔江平教授和JohanSundberg教授
研究分析了两个男性昆曲行当(净和老生)的声门气流波和电声门参数以及共振峰频率与泛音的关系。声门气流波和电声门参数都显示,净和老生行都使用比较紧的嗓音,二者都表现出低的归一化振幅商和高的接触商。在低频区域,净的嗓音要比老生更紧。有三个演员的接触商和第一、二谐波差分别与基频呈正相关和负相关,暗示着他们都随着基频的提升而增加声门的内收。
《基于EPG和EGG的朝鲜语塞音和塞擦音的发音生理分析》
——延边大学外国语学院李英浩副教授和张京花博士
朝鲜语三分对立的塞音和塞擦音在世界语言语音中比较特殊,在四个发音部位上(双唇、齿龈、龈腭以及软腭)均存在三个对立的音位。他采集了朝鲜语发音人的同步动态电子腭位(EPG)和嗓音信号(EGG),分析朝鲜语东北方言(即中国延边朝鲜族地区使用的朝鲜语方言)的三分对立的塞(擦)音的发音生理特征。研究结果发现,紧音的生理表征表现为声门和声门上发音器官的状态最为紧张,辅音持阻段的舌腭接触面积最大,后接元音的声门状态较紧;送气音的声门上发音器官的动作调整与紧音接近,但是其声门状态与紧音存在较大差别;松音的发音器官动作比较松弛,舌腭接触面积最小,同时声门状态比较松弛。
《蒙古长调民歌嗓音发声方式研究》
——西北民族大学中国民族信息技术研究院李永宏副教授
研究发现长调民歌演唱者运用非常多样化的嗓音发声模式以及颤音、喉音等演唱方式。其研究旨在探讨作为非物质文化遗产的蒙古民歌的发声技巧的生理表现和对比分析男女声嗓音特征的异同,从而总结长调的不同发声方式的嗓音特点及参数之间的相互关系,为今后更系统、深入地研究歌唱发声类型提供理论基础。
《禹州话四声的声学感知研究》
——北京大学中文系语音乐律实验室张锐峰
禹州话作为河南方言之一很少受到研究者的关注,本文对该方言的四个声调进行了一系列的研究探索,并有诸多发现。在其声调感知研究中,基频模式起主要作用,发声类型起补偿作用,在基频区别力弱的情况下,发声对感知的作用就会变大,在基频区别力强的情况下,发声对感知的贡献就会变小。本研究只讨论禹州话单字在脱离语境单念时的调值,不涉及由禹州方言语调引起的声调调值变化。