基于阵列信号处理与空间听觉的声源定位算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：lanshuye6

【摘要】

：

麦克风阵列已经应用于众多领域,包括语音识别、说话人识别、语音采集、视频会议和人机接口等。声源定位在麦克风阵列应用当中起着至关重要的作用,然而在有噪声和混响的环境中

【作者】

：

万新旺

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2011年期

【关键词】

：

麦克风阵列声源定位时延估计特征向量可控响应功率互相关函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

麦克风阵列已经应用于众多领域,包括语音识别、说话人识别、语音采集、视频会议和人机接口等。声源定位在麦克风阵列应用当中起着至关重要的作用,然而在有噪声和混响的环境中定位性能会有所下降。本文致力于提高麦克风阵的声源定位性能,论文的主要工作包括:　　 1)基于自适应频率选择的鲁棒时延估计算法。相位变换加权的广义互相关方法(GCC-PHAT)是一种常用的时延估计方法,为了增强GCC-PHAT对噪声的鲁棒性,提出了一种基于自适应频率选择的改进算法。该算法利用较短的语音数据(32ms)估计出每个频率的信噪比(SNR),然后自适应地选择SNR较大的频率用于时延估计。仿真实验结果表明,相对于GCC-PHAT方法,本文算法对噪声的鲁棒性更强。　　 2)基于主特征向量的改进可控响应功率声源定位算法。相位加权的可控响应功率(SRP-PHAT)声源定位方法具有较强的鲁棒性,然而在强混响含噪声环境里SRP-PHAT的定位性能下降。本文提出了一种基于主特征向量的改进可控响应功率声源定位算法。首先用因子分析法估计混响信号,得出混响信号可以用麦克风阵列信号的第一个主成分近似;然后估计出的混响信号用于定位;最后得到基于主特征向量的改进可控响应功率声源定位算法。该主特征向量可以从频域相关矩阵中得到。仿真数据与实际数据的实验结果均表明:基于主特征向量的声源定位算法的性能优于SRP-PHAT算法。　　 3)基于鉴别互相关函数的声源定位算法。SRP-PHAT是当前最流行的定位算法之一,基于SRP的定位算法具有较强的鲁棒性,然而在很恶劣的噪声和混响环境下,特别是当麦克风接收不到声源发出的直达声时,该类算法无法确定声源的位置。近年来,基于分类的方法被用于在恶劣的环境里估计声源位置。本文提出了一种基于鉴别互相关函数的声源定位算法,这是一种基于分类的定位算法。利用相位变换加权的广义互相关方法(GCC-PHAT)求互相关函数。这种基于分类的定位算法包含训练和定位两个阶段。在训练阶段获得每个位置的互相关函数高斯模型。在定位阶段,首先由测试数据生成互相关函数,然后由互相关函数生成特征向量,最后利用两种分类器之一确定声源位置。这两种分类器是:朴素贝叶斯分类器和欧氏距离分类器。实验结果表明在有噪声的混响环境中,基于鉴别互相关函数的声源定位算法的定位性能优于SRP-PHAT算法。　　 4)基于双耳互相关函数的声源定位算法.为了提高受生物启发的定位算法的定位成功率,提出了一种基于双耳互相关函数的声源定位算法。该算法包含2个阶段:离线阶段和在线阶段。在离线阶段,测量与头相关脉冲响应(HRIR),并计算所有HRJR的双耳互相关函数(BCCF)。当处于在线阶段时,首先,计算接收信号的BCCF;然后,计算接收信号的BCCF与所有HRIR的BCCF之间的皮尔逊(Pearson)相关系数;最后,将最大的皮尔逊相关系数对应的方位作为估计的声源方位。实验结果表明,在有2个声源同时存在的情况下,相对于Cross-channel定位算法,该算法把主峰定位成功率和次峰定位成功率分别提高了约1.64％和26.48%。

其他文献

基于3D-HEVC的低复杂度编码方法研究

传统的视频编码标准H.264已经难以满足用户对视频清晰度的要求。2010年初，ITU-T和ISO/IEC联合成立的视频编码联合协作组(Joint Collaborative Team on Video Coding，JCT-VC)制

学位

多视点视频低复杂度编码恰可觉察失真感知冗余

现代水泥企业人才管理策略刍议

人才是现代企业生存和发展的关键,是提高企业竞争能力和经营能力的重要资源.做好企业人才管理,培养高素质专业人才,是现代水泥企业人力资源开发和利用的重要课题.全新发展背

期刊

现代水泥企业人才管理策略

基于WindowsMobile手机流媒体客户端的设计与实现

手机流媒体技术是近年来研究的一个热点。可目前大部分的流媒体系统主要集中在PC机或者基于Web的网络。随着国内3G( 3 rd Generation)网络的正式商用以及移动智能终端的飞速

学位

流媒体Windows Mobile客户端音频/视

稀土离子掺杂Ba2LaF7微晶玻璃的光谱性能研究

微晶玻璃因其综合性的优势—兼备玻璃基质的易批量生产、低成本、极短生产周期的特性和晶体基质本身具有的优异发光的性能而得到极为广泛的研究和快速的发展。不同的微晶玻璃

学位

稀土离子微晶玻璃光谱性能白光LED荧光寿命

人才结构视域下新疆气象部门人才队伍建设研究

人才是增强核心竞争力与推动事业发展的首要因素.目前,新疆气象部门人才总量不足;中级-高级职称之间流通存在梗阻;区-地-县三级人才区域分布不均衡;人才流动有壁垒;人才培训

期刊

人才结构队伍建设橄榄型

少数民族文化传承现状分析

少数民族文化是中华文化的重要组成部分,繁荣中华文化离不开少数民族传统文化的传承与发展.目前,我国针对少数民族文化支持性政策为少数民族文化传承提供了良好的政策软环境,

期刊

少数民族民族政策文化传承文化产业

GPS三维姿态测量技术的研究

近年来随着GPS技术的进一步发展，通过利用GPS信号实现载体的姿态测量已成为GPS应用的一个新领域。本文主要围绕利用GPS差分载波相位技术来确定载体的三维姿态这一主题。重点研

学位

GPS信号三维姿态测量整周模糊度差分载波相位LAMBDA法

LTE系统RRM中分组调度策略的研究

为了更好地适应未来移动通信的发展趋势，3GPP提出了LTE（Long Term Evolution，长期演进）作为未来的移动通信标准。LTE能够更好地利用频谱资源，以更低的成本提供良好的覆盖和信道容

学位

LTE分组调度算法跨层设计QoS虚用户

有源RFID室内定位系统设计与实现

全球定位系统(GPS)的成功使人们对定位服务的需求日益增多,然而在室内环境下,由于卫星信号接收受到严重干扰,GPS无法满足定位精度的要求。射频识别(RFID)具有非接触、非视距

学位

射频识别室内定位读写器有源电子标签

三网融合广电标准的HINOC关键技术研究

三网融合正逐步走向应用,而xPON+EOC(PassiveopticalnetworksandEthernetovercable无源光网络加同轴电缆的以太网)的改造模式是目前最为简单实用的双向网络改造模式。广科院

学位

HINOC关键技术信噪比估计IQ不平衡三网融合广电标准

基于阵列信号处理与空间听觉的声源定位算法研究

与本文相关的学术论文