不同频段时域包络信息在普通话言语识别中的作用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:d102169104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:研究安静、噪声环境中不同频段的时域包络(temporal envelope,TE)信息在汉语普通话言语识别中的作用。方法:安静环境中,将普通话版噪声下听力测试(Mandarin hearing in noise test,MHINT)材料进行频谱分析,从低频至高频(80-7562Hz),分割为30个频带,每个频带的宽度为1个等效矩形带宽(equivalent rectangular bandwidth,ERB),每个频带内通过Hilbert转换提取其中的TE信息,将提取的TE信息合并为5个频段(频段1:80-502 Hz;频段2:502-1022 Hz;频段3:1022-1913 Hz;频段4:1913-3856 Hz;频段5:3856-7562 Hz);噪声环境中,将MHINT材料与4 Hz调幅噪声以信噪比(signal to noise ratio,SNR)为+5 dB进行合成,其余同安静环境下的信号处理。分别测试听力正常受试者不同条件下的言语识别率,并根据不同条件下的识别率,利用最小二乘法计算每个频段在普通话言语识别中的相对权重。结果:安静环境中,频段1在言语识别中的相对权重约为0.25,显著高于所有其他频段的相对权重;频段3的相对权重显著低于频段1,但显著高于其他频段,约为0.22。噪声环境中,频段1在言语识别中的相对权重最高,约为0.46;频带2、频带3在言语识别中的相对权重分别约为0.24,0.22,差异无统计学意义,但都显著高于频带4和频带5的权重。结论:不同频段之间的TE信息具有协同效应。安静与噪声环境中,频段1(Region1:80-502 Hz)的时域包络信息在普通话言语识别中的作用均最为重要,但噪声环境中频段1在言语识别中的相对权重要高于安静环境中频段1的相对权重。
其他文献
用正交设计方法,系统研究了影响双硅铝(potassium type poly-sialate-siloxo,K-PSS)型地聚合物合成的3个关键因素:n(SiO2)/n(Al2O3),n(K2O)/n(Al2O3)和n(H2O)/n(K2O)。根据抗压实验结果和红
<正> 第五代计算机系统(FGCS)工程,作为日本通商产业省(MITI)赞助的重大项目之一,创始于1982年。 目前,处于研制中的“第五代”计算机,试图为九十年代初期新兴的、革命性的知
大雄宝殿平移顶升是上海玉佛禅寺维修改造的关键工序,危险性大,施工过程监控要求高。基于此,综合采用物联网、BIM、WebGL等技术研发了玉佛禅寺大雄宝殿平移顶升施工过程远程
为了根本解决手绘工程图纸与CAD/CAM系统的输入接口之间的矛盾,本文在分析工程图处理特点的基础上,提出了工程图纸数据自动转换到 CAD/CAM系统的基本设计方法。讨论了系统一般实施过程及实施过程中的一些技术问题,并提出了一些算法和进一步研究的课题。本系统采用工业摄像机作为输入手段,以微机作为主体,针对一定约束的图纸,实现了整个图纸的转换过程,获得了满意的效果。
围绕电子电付系统4种类型-信用卡支付、电子支票、电子现金和微额支付,介绍了现有的6种模型:CyberCash、FirstVirtual、Echeck、Ecash、NetCash和Millicent。通过对不同类型的支付模型的分析比较,得出今后在支付系统研究中需要改进和
背景:在围术期脑血管疾病患者发生脑血管意外的风险大大增加,容易引起致残、死亡等严重后果,威胁生命安全。在脑血管疾病中,以缺血性脑血管病居多,脑组织缺血恢复灌注后,引起
随着现代社会人们生活水平的提高,饮食结构和生活方式的改变,糖尿病、代谢综合征、痛风已成为当今危害中老年的常见内分泌疾病,近几年发病率已明显升高,为研究诸三者之间的关
期刊
目的:本研究通过比较抗病毒、抗病毒联合抗纤维化及抗病毒联合免疫调节对慢性乙肝肝纤维化/代偿期乙肝肝硬化患者的疗效差异,从而优化抗病毒治疗方案,最终达到提高临床疗效的
结合上海世茂深坑酒店的特殊性,借助三维激光扫描技术建立坑底岩面三维模型,为坑底基础设计提供依据。在对比了现行规范对独立基础设计计算的要求后,采用有限元进行分析计算,
糖尿病是继心脑血管病、肿瘤、艾滋病之后的第4大致人死亡的疾病.我国糖尿病发病率已达2.0%~3.6%,是10年前的3~4倍[1],由于社会生活环境及节奏的改变,许多糖尿病患者产生心理障