鼻辅音感知线索研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:liuyunxiaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音被一种称为“声学线索”或“感知线索”的时变谱模式所表征。当声波传递到耳蜗内的基底膜的时候,这些用来定义语音基本单元的感知线索(也称事件)被解析,最终使语音感知目标得以识别。感知线索和感知目标之间的关系一直以来都是语音感知这一典型交叉学科的关键研究问题,有着广泛的应用背景。但由于自然语音中由不同说话人,不同说话情况所引入的变异性和该研究的进展需要数学、物理学、心理学、生理学、电子工程学、语言学等诸多研究领域的突破及跨学科的协作,使得该研究变得非常复杂,导致进展异常缓慢,各种不同观点长期并存。近十年来,美国伊利诺伊大学香槟分校电子工程学院人类语音识别实验室在辅音感知线索研究方面,特别是爆破音和摩擦音的研究方面,取得了一系列革命性的成果,但在鼻辅音的研究上,由于其复杂性,在本文之前,仍处于初步探索阶段。已有的分析方法还无法解释鼻辅音感知实验中所遇见的很多现象,有些实验结果甚至相互矛盾。本论文中绝大部分工作是作者在该实验室联合培养的四年多时间里完成的,利用其先进的研究理念、研究方法和实验条件,结合鼻辅音的特点,最终取得了令人满意的结果,找到了自然语音中适用于不同发音人的相对稳定的鼻辅音感知线索,并研究了其相关感知属性。主要研究工作和成果有:1.研究并总结了语音感知的运动理论、直接感知理论、模糊逻辑模型、Fletcher-Allen模型等语音感知理论和模型,并对它们的优点和不足进行了分析。研究了探索感知线索的方法和表征感知线索的各种参数(如浊音起始时间)。发现许多重要的研究为了控制语音变异性,均采用了合成语音的方法。但合成语音要求研究者对声音信号有先验知识,只能包含研究者已了解的,或者希望包含的那部分声音信号。而使用自然语音作为激励,又存在激励选择的非代表性等问题。最终导致的结果是:学者们至今仍然对不同辅音的感知线索的时频位置以及它们对辅音正确感知的充分性,必要性等结论众说纷纭。2.就耳蜗对语音信号的分解与压缩理论、掩蔽理论、混淆矩阵、语音感知的多带准则、语音清晰度指数模型、语音可视化感知计算模型AI-gram等语音感知线索所涉及的相关理论及常用工具进行了研究和探讨。在Fletcher-Allen模型的基础上,研究了三维深度搜索法所基于的相关理论。基于三个独立的心理声学实验,结合鼻辅音的数据特点,提出了针对鼻辅音的数据分析方法,将其分为临界非交叠型、交叠型、非交叠型三种不同的类型进行了探索和研究。运用局部化分析法,分析并研究了鼻辅音感知线索中的各组成部分对鼻辅音正确感知的充分性、必要性。发现部分鼻辅音的感知线索区域中含有两个或两个以上能独立存在,使受测者准确辨识目标音的部分,并将这种类型的感知线索定义为冗余感知线索。这一发现解决了很多之前研究中所遇见的不可解释,甚至矛盾的现象。讨论了鼻辅音感知线索的一致性和变异性、鼻辅音所含的冲突感知线索、鲁棒性、感知线索最短必要持续时间之前的语音部分对感知的作用。找到了不同说话人不同噪音背景下相对稳定的/n/的感知线索,其位于第二共振峰前端939-2164hz,/m/的感知线索位于第二共振峰前端363-1300hz。这一结论和其它几种辅音的感知线索结论一起,为进一步的基于感知线索的语音信号处理方法打下了理论基础,如基于感知线索的语音压缩编码算法、增强算法、噪音背景下的自动识别算法等。3.研究了用数字信号处理方法对鼻辅音感知线索的修改(增强、衰减、消除)对整个鼻辅音识别效果的影响。定义了用来衡量感知效果变化的感知曲线位移。通过对实验数据进行非线性回归和最小均方误差计算得到了感知曲线位移。从?snr、90snr、?snr和修改幅度的关系、?snr?和?snr?的关系、90snr和90snr?的关系等不同角度和相关统计数据分析了感知线索的修改对正确识别感知所造成的影响。得出了关于感知线索的重要结论:仅仅对感知线索的修改(增强或衰减),和对整体语音进行修改的感知效果是基本相同的。这一结论不仅进一步揭示了感知线索含有辅音的关键感知信息这一重要属性,同时还为已经找到的鼻辅音感知线索的正确性提供了有力的证据。这种以感知线索先验知识为基础的语音信号处理方法为噪音下的语音增强提供了一种新的潜在有效方法。4.从音变角度对鼻辅音感知线索进行研究。提出了鼻辅音/m/和/n/之间的转换方法,其仅通过对感知线索的处理就可实现。通过对/na/的感知线索的消除,目标音/na/最终实现了从/na/到/ma/的转换;通过对/ma/中的冲突感知线索,即其中所包含的/na/的感知线索的增强,目标音/ma/最终实现了从/ma/到/na/的稳定转换。/ma/和/na/之间稳定的相互转换,从另外一个角度为已找到的鼻辅音感知线索的正确性提供了有力的证据。同时,揭示了感知线索的一个潜在的用途——音变。5.研究了鼻辅音共振区对正确感知鼻辅音的贡献。设计并进行了研究相关的心理声学实验。基于先进的语音感知可视化模型ai-gram并结合已找到的鼻辅音感知线索,对实验数据进行了分析解释。定义了辅音中类似鼻辅音共振区这样的信息补充部分为“次要感知线索”。从主感知线索是否清晰的角度解释了鼻辅音共振区的信息补充作用在实验数据上所表现出来的时机,得出了关于正确感知得分的重要结论:鼻辅音共振区对鼻辅音的正确感知有信息补充作用,且这种作用在感知得分上表现出来的时机,虽然和信噪比的高低有相关性,但并不是由信噪比的值来决定的,而是由鼻辅音的主感知线索是否清晰来决定的。也就是说即使在高信噪比条件下,如果感知线索不够清晰,鼻辅音共振区一样可以表现出信息补充作用。此结论从新的角度解释了研究者由于使用不同激励而得出不同结论的原因,从某种意义上来说统一了长期以来的争论。通过分析鼻辅音共振区对混淆音模式的影响,得到了鼻辅音共振区对非鼻辅音混淆音有着抑制作用的结论。利用AI-gram从本质上解释了混淆音模式发生变化的原因,进而从另外一个角度阐述了鼻辅音共振区对正确感知的影响。
其他文献
智能化影响了民众生活的方方面面,智能化同时对人才也提出了更高的要求。文章对图书馆的智能化进行探索和研究,以此来加强人们的读书意识。进一步对图书馆的智能化管理和建设
简要介绍了CYF-0.1/CYF-0.05型油水分离器的基本原理、主要参数、设计计算及台架试验情况.
2009年12月8日,全球三大评级机构之一的惠誉降低了希腊的主权债务和相关银行长期债务的评级水平,紧接着标普尔和穆迪下调了希腊的主权信用级别。至此,希腊债务危机爆发。希腊的经济出现滑坡,其支柱产业旅游业和航运业遭受重创,随着债务危机的逐步显露,其国内局势甚至出现动荡。下面从四个方面对希腊近年来的宏观经济做详细的分析。  希腊属欧盟经济欠发达国家之一,经济基础较薄弱,工业制造业较落后。农业较发达,工
期刊
随着全球温室效应不断加剧,节能减排势在必行。宽带接入网作为“最后一公里”有效解决方案之一,其能耗约占全网能耗的75%。其中,具有高带宽、高稳定性的无源光网络(Passive O
远程教育是教育技术的巨大进步,是一场教育模式和学习方式的革命。在其发展过程中,一些负面因素影响和制约着远程教育教学的效果。认识和掌控影响现代远程教育的不利因素,充
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近几年,随着国家农机具购置补贴惠农政策的出台,农用机械数量以迅猛的速度逐年递增。在这种情况下,我们不能忽略农机事故的隐患依然存在的社会现实。如何有效遏制重特大农机
前言现代社会,推进国有制改革,是推动经济建设、贯彻十九大基本精神、践行伟大中国梦的重要手段和措施,也是发展主义市场经济的必然选择.但是在进行国有企业改革的道路中,面
期刊
研究了B-Z振荡体系在各种组不同浓度下周期和振的改变值与加入二苯胺磺酸钠浓度的关系。结果表明第一个周期改变值与加入浓度有良好线性关系,相关系数均大于0.9916。改变组分浓