基于窄带VoIP网络的说话人识别

来源 :科技尚品 | 被引量 : 0次 | 上传用户:oa001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在语音同一鉴定案件中,自动语音识别方法逐渐被采用,但目前某些语音检材存在质量下降无法进行有效语音识别等问题。文章通过研究网络电话(VoIP)各特性因素(如语音编解码、数据包丢失、数据包乱序、网络抖动和外来串扰或回波),对自动语音识别系统(ASR)性能的影响做出系统分析。实验表明,数据包乱序对语音识别性能影响较小。相比LPCC特征,MFCC特征更加能够保证语音识别系统的鲁棒性。文章的研究结果,对未来开发鲁棒性强的自动语音识别系统,具有一定的借鉴价值。
  关键词:自动语音识别;质量下降;窄带网络;MFCC特征;鲁棒性
  中图分类号:TP37 文献标识码:A 文章编号:1674-1064(2021)03-037-03
  DOI:10.12310/j.issn.1674-1064.2021.03.017
  自动语音识别是指,利用软件确定说话人身份的一种技术。低成本计算机和强大性能处理器的出现,使之成为一种经济的语音生物学识别方式,特别是在银行交易、司法科学和国土安全方面应用广泛[1-3]。随着互联网和电子商务的迅速发展,人们对互联网上具备语音功能的应用程序(如语音识别或说话人识别)越来越感兴趣。
  基于IP协议的IP电话(VoIP)也称网络电话,是目前最流行的一种网络服务。正是由于其灵活性高、成本低、功能齐全的特点,网络电话(VoIP)应用中的网络呼叫中心、电话银行、远距离通信等,成为目前极具发展潜力的应用。另外,随着网络电话的广泛使用,一些新型犯罪模式逐渐产生,使消费者的隐私无法得到有效保障,给执法人员提出了新的挑战。因此,将合法窃听得到的网络电话(VoIP)录音进行说话人自动识别,可以协助有关机构对利用VoIP网络进行的相关犯罪活动开展调查[4]。然而,VoIP网络并不稳定,存在诸如数据丢包、数据包重新排序、延迟、网络抖动和外来串扰等因素的干扰[5]。在这种情况下,在VoIP网络中引入ASR系统前必须要解决一个重要问题,即对影响ASR系统识别效果的各种因素,如窄带VoIP网络中的混合激励线性预测(MELP)、数据包丢失、数据包重新排序、网络抖动或延迟和外来串扰等开展深入研究。
  1 关键技术方法
  1.1 VoIP网络环境下的语音传输
  如图1所示,想要通过网络传输语音,从输入端接收语音后,必须要先对语音样本进行编码。然后将其插入到有序列号和创建时间戳的数据包中,再通过网络进行传输,之后在播放缓冲区接收后按时间顺序解码,最后从播放端开始播放。
  1.2 ASR系统
  ASR系统主要由特征抽取模块和模式分类模块两部分组成[6],如图2所示。特征提取模块是将语音信号映射成说话人特有特征的数据集,简称为特征向量。在模式分类模块中,则是通过机器训练为每个说话人建立说话人模型。在进行说话人识别过程中,测试语音依次通过每个特征提取模块,将测试语音特征与每个说话人的注册模型进行比较,最后将该测试语音匹配给注册模型中似然度[7]得分最高的说话人。
  2 实验条件
  2.1 实验设备
  Skype、微信[8]或PJSIP[9]等公用网络平台;DET曲线绘制软件:DETware。
  2.2 语音样本
  该实验语音样本来自于由NIST、MIT林肯实验室、执法部门三者协同合作构建的一个用于多语种与多信道说话人识别(MMSR)的新语料库——DA-IICT语音库。这个语料库是由100个说话人(46名男性和54名女性,年龄范围在18岁~22岁)所构成的语音数据库。这些录音使用创新HS-300降噪耳麦采录得到。原始录音的采样频率为22 050Hz,之后降采样到8 000Hz。参与测试的说话人为无偿并自愿参与到本次语音数据收集中来的。录音的大部分时间段选择在傍晚或夜里。
  3 实验方法
  在未知说话人和已知说话人等两种模式下进行说话人验证,开展说话人识别任务。每一次测试都需将特定说话人与一段制定的测试语音进行比较,利用ASR系统对特定说话人是否出现在测试语音中,做出有效决策(真或假)。对于每次判断决策,还要求系统为每次测试提供表示决策置信度的似然得分,分数越高表明說话人在测试语音中出现的可信度越高。
  在实验中,通过检测错误权衡(DET)曲线(各轴正态偏离尺度均一的ROC变种)来衡量ASR在不同阈值下的系统性能指标。实验中用于系统性能评估的另一种衡量指标是等误识率(EER),其是错误接受率和错误拒绝率相等时的错误率。虽然DET曲线能够从整体上直观地衡量系统性能,显示了在不同判定阈值下FR与FA的相互关系,但是检测代价函数(DCF)能够在特殊判定条件下对系统性能进行评估。
  4 实验分析
  4.1 语音编解码错误
  实验中,首先利用MELP语音编解码V1.2对语音库内的各样本进行转码,从而实现在2.4kbps窄带语音传输条件下的最佳语音质量。为比较MELP编码与PCM编码(8kHz)对ASR性能的影响,图3中展示了在MFCC、LPCC和WLPC不同语音特征下的DET曲线,表1则列出了等误识率(EER)和min.DCF的值。由于认定测试和否定测试共有600 000个测试项目,因此在本实验中所有ASR测试的DET曲线均接近理想直线[10]。从DET曲线中可以清楚地看出,由于MELP编码的影响,说话人识别和确认的性能均明显下降。同时,与WLP(2.18%)和LPCC(2.29%)特征相比,MFCC特征的识别性能下降(0.93%)幅度略低。总之,低比特率编码是导致ASR性能急剧下降的主要因素。
  4.2 数据丢包
  VoIP网络中的数据包丢失,是由网络拥堵或路由器问题引起的,这会导致某些数据包延迟到达或者根本不能到达目的地。本实验中进行了模拟丢包的操作。从DET曲线、EER以及最小DCF值,如图4和表2所示,可以清楚地看出,说话人辨识和验证的正识率随着丢包率的上升而下降。与WLP、LPCC特征相比,MFCC特征的性能下降幅度较小。   4.3 数据包乱序(无序数据包)
  网络拥塞时,数据包到达传输目的地的顺序与发送顺序可能会产生不同,导致合成器的状态信息与语音合成出现错误。在本实验中进行了数据包乱序的仿真测试,未考虑数据丢包的情况。图5显示了这种模拟数据包乱序对语谱图的影响,可以明显看出,数据包乱序对共振峰形态与频谱能量分布(在较宽的频率范围内)均产生了显著影响。实验中对3个和20个数据包进行重新排序后,使用语音库对ASR系统进行性能测试,得到不同语音特征对应的DET曲线,并获取了EER与最小DCF值,如表3所示。从实验中可以明显看出,数据包乱序对说话人辨识与验证的识别性能没有太大影响。
  4.4 网络抖动
  在VoIP中,网络抖动是由网络中的不同延迟引起的,导致某些数据包彼此之间彼此接近或远离。实验中设置的网络抖动量分别为10、50、100条件,用来验证ASR系统的识别性能。计算得到的EER和最小DCF值如表4所示。可以清楚地得出结论,说话人辨识和验证的正识率随着网络抖动量的增加而下降。与WLP、LPCC特征相比,MFCC特征的性能下降幅度较小。
  4.5 回波-远端串音(FEXT)
  在VoIP网络中,回波是在说话人声音传播到接收端麦克风过程中的远端串扰(FEXT)造成的。实验中从语音样本库提取了不同的声谱特征,并在仿真回波不同衰减系数条件下的ASR系统DET曲线。EER与最小DCF值如表5所示。实验结果表明:回波或串扰可导致ASR识别性能下降,且性能下降幅度是以衰减系数为参量的函数。如果用相同的衰减系数(1或0.5)抑制目标说话人和背景说话人的语音振幅,所产生的ASR性能下降幅度几乎也是相同的。
  5 结语
  本实验是基于在MELP语音编码的窄带VoIP网络上如何开展自动语音识别而开展的相关实验。研究表明,语音识别性能不受数据包乱序的影响。此结论可有助于设计安全稳定、鲁棒性较高的说话人识别系统。
  本实验的不足在于,实验中测试和训练所采用的数据包重排序仿真技术均针对单个语音会话,ASR系统的EER指标数据较高,且重新排序的数据包数目是随意选择的,并未依据标准或真实VoIP网络环境。今后的研究将直接针对真实VoIP网络下的数据包乱序录音样本开展,并尝试盲源分离技术,尽量避免因回波产生而造成的识别性能下降。同时,使用不同的时间压缩修正算法改变各个数据包的播放音长,减少由网络抖动而导致的识别性能下降,保证语音播放流畅。
  参考文献
  [1] Boe LJ.Forensic voice identification in France[J].Speech Commun,2000,31(23):205-224.
  [2] Campbell JP Jr.Speaker recognition:a tutorial[J].Proc IEEE,1997,85(9):1437-1462.
  [3] Campbell JP,Shen W,Campbell WM,et al.Forensic speaker recognition:a need for caution[J].IEEE Signal Process Mag,2009,26(2):95-103.
  [4] 趙明.“互联网+”背景下电信网络诈骗案件侦防对策研究[D].兰州:甘肃政法大学,2018.
  [5] Mehta P,Udani S.Voice over IP[J].IEEE Potentials,2001,20:36-40.
  [6] Duda RO,Hart PE,Stork DG.Pattern classification and scene analysis[M].2nd edition.New York:Wiley,2001.
  [7] 王华朋,杨军,许勇.应用似然比框架的法庭说话人识别[J].数据采集与处理,2013,28(2):239-243.
  [8] 刘林强.微信语音通话作为定案证据的条件[J].商,2015(26):240.
  [9] 杜奇才,邓诚刚,刘荧,等.基于Android平台的VoIP设计实现[J].微处理机,2017,38(2):41-44.
  [10] Martin AF,Doddington G,Kamm T,et al.The DET curve in assessment of detection task performance[C].Rhodes:Proc Eurospeech’97,1997,1899-1903.
其他文献
校园安全问题一直是教育部门和学校领导颇为重视的问题.倘若校园安全得不到有效保障,那么学生的日常学习与生活就会受到十分负面的影响.但随着时代的发展以及经济的快速进步,
摘 要:随着经济的快速发展中,城市规模不断壮大,城市化进程进一步加快。在城市房屋建设中,混凝土施工发挥着极其重要的作用。但是在实际施工时,由于种种多种因素,导致混凝土施工质量达不到相关标准,为房屋建筑带来十分严重的影响。文章针对房屋建筑混凝土施工技术要点进行分析,以供参考。  关键词:房屋建筑;混凝土施工;关键点分析  中图分类号:TU5 文献标识码:A 文章编号:16
要想有效提高建筑工程基础结构的稳定性和承载力,必须要对深基坑施工加以充分重视,尤其针对深基坑支护工作而言是保证整个基坑施工安全稳定进行的重要保证.本文首先针对深基
摘 要:文章针对高原高寒对蓄电池的容量、充电接收能力、蓄电池极板、供电状态的影响性展开分析,通过研究做好蓄电池日常养护、控制蓄电池放电程度、合理调整电解液浓度、进行蓄电池地埋改造、加强蓄电池状态监测等对策,以延长蓄电池使用寿命,确保高原高寒地区通信过程的通畅性考。  关键词:高原高寒地区;蓄电池极板;蓄电池容量  中图分类号:TM912 文献标识码:A 文章编号:167
摘 要:文章对铁路运用机车的检查方法进行了分析研究,提出了因陋就简的运用机车人工检查方法和机车部件状态的判断方法,其分析研究结果将为铁路机车司机作业提供标准,为铁路机车的安全运用和运用效率提供切实保障,也为新职工上岗培训和技术管理人员提供必要的参考。  关键词:人工方式;铁道机车;检查方法  中图分类号:U269.5 文献标识码:A 文章编号:1674-1064(2021)03-015-02  D
摘 要:听障骨传导耳机的测试通常在实验室测试,无法在生产线上进行大批量测试,主要原因在于无法解决多套测试系统之间一致性的问题。针对此问题,文章研究了一套测试系统。该系统把加速度传感器作为校准器件,利用加速度传感器的出厂原始曲线基本一致这一特性,只要调节测试系统中得到的加速度曲线与出厂的曲线一致,就可认为测试系统的结果一致,从而解决多套测试系统之间的差异,便于测试系统进行复制,满足生产线进行批量测试
基于2009-2018年的省级面板数据,采用变异系数、基尼系数、极差率和面板数据模型,分析各省份和地区中等职业教育生均教育经费的地区差异,发现中等职业教育生均教育经费存在明
在建筑工程施工的过程中,施工技术及其现场管理工作十分重要,是促使建设行业发展的关键因素.为了解决当前建筑施工技术、现场管理的问题,文章以建筑工程施工技术及其现场施工
摘 要:采用便携式原子荧光光谱仪测定环境水样中的砷含量。在负高压、灯电流、载流浓度、载气流量等参数优化后,选择最佳的仪器条件,现场过滤、酸化环境水样后直接上机检测。0.5μg/L~8μg/L测定范围内,砷元素具有良好的线性关系,相关系数R=0.9999,实测检出限为0.0391μg/L,与国家环境保护标准要求相符合。该方法重复性良好,相对标准偏差为0.72%,砷元素加标回收率为93.3%~102.
摘 要:文章设计一种基于加速度传感器的人体运动状态数据采集与分析装置。文章通过三轴加速度传感器采集X、Y、Z轴加速度,预处理为合加速度并分析阈值。文章采集了样本为100的人体运动数据,并建立数据库,保证了采集实验数据的随机性,减小了误差。该装置能够采集人体运动时的三轴加速度并预处理为合加速度、确定阈值,经过算法的改良后,可投入健身类APP进行使用,在老年人健康监测等方面有着广阔的应用前景。  关键