计算机合成语音与自然语音鉴别技术的研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:liuyanan508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别技术是一种生物认证方式。由于语音具有易采集、易传输、易存储等优点,使得声纹识别技术在未来身份认证领域中具有广阔的应用前景。然而随着语音合成技术的不断发展,利用现有的合成技术可以很容易地伪造出具有某个目标人声纹特性的语音。目前绝大多数声纹识别系统不能辨别这类伪造的语音与目标人真实发出的自然语音,容易将它们认为是目标人发出的声音,从而产生认证错误。这从一定程度上影响了声纹识别系统的可靠性,限制了其在实际场景中的应用。语音合成方法可以分为两大类,参数语音合成法和拼接语音合成法。本学位论文针对隐马尔可夫模型参数合成语音和拼接合成语音,分别研究并提出了鉴别算法。由于语音伪造技术并不仅只有语音合成技术,如语音转换技术也可以把一段其他人的语音转换成具有目标说话人声纹特性的伪装语音。因此本论文也考察了所提出的两个合成语音鉴别特征是否具有通用性,即这两个鉴别特征能否检测由其它伪造技术生成的语音。具体研究内容包括以下三个方面:(1)对目前本研究方向的主要进展进行了总结和归纳,同时对伪造语音数据库进行梳理。重点围绕SAS伪装语音数据库,对其结构、规则和基于该数据库的已有研究进行了分析。本学位论文也采用了SAS数据库。(2)对于隐马尔可夫模型参数合成的语音,通过对它和自然语音进行小波分解,发现它们的低频小波系数在变化趋势上存在差异。本学位论文提出了基于低频小波系数特征的参数合成语音鉴别算法。该算法使用低频小波系数构造检测特征,利用支持向量机作为分类器,实现了对SAS数据库中参数合成伪装语音的鉴别,平均检测准确率大于99.5%,平均等错误概率小于0.2%,并且对噪声和采样率具有较好的鲁棒性。与此同时,本文也测试了该特征对其他伪造语音的鉴别效果。(3)针对拼接合成的语音,经研究发现拼接合成语音和自然语音的信息量在高频区分布差别较大。本学位论文选择高频子带的信息量作为鉴别特征,分别采用支持向量机和混合高斯模型作为分类器,实现了对SAS数据库中拼接合成伪造语音的鉴别。实验结果表明,检测准确率可达到97.1%,等错误概率可降至4.3%。同时,也研究了该特征对其他伪装语音的鉴别效果。实验结果表明,所提出的基于信息量的鉴别特征,能同时检测由多种伪造技术生成的伪装语音,检测性能优于目前已报道的研究结果,具有较强的通用性。
其他文献
目的:研讨陈可冀院士活血化瘀治疗冠心病(CHD)的经验,探讨动脉粥样硬化(As)易损斑块的瘀毒病机及解毒活血配伍方干预的理论基础;观察解毒活血配伍方对载脂蛋白E基因敲除[ApoE
电力工程技术的应用主要是体现在电能质量技术优化、高压直流输电技术、交流柔性输电技术。 结合实际情况,针对电力工程技术在智能电网建设中的应用进行详细分析。
从犯,作为共犯制度——“刑法中绝望的一章”之部分,虽然是一定社会生活的征表,但在不同国家、不同刑法中的内涵并不完全一致。我国现行刑法所定之从犯,是以作用为标准,将共
党章作为党内的“根本大法”,重要性不言而喻。对于中国共产党这样一个拥有7300多万名党员的大党来说,党章对于党的存在和发展的重要性尤其需要得到高度重视。然而,在我们党
本实验分别采用向正在进行退变造模的兔颈椎间隙注射重组人转化生长因子-β1(recombinant human transforming growth factor-β1,rhTGF-β1)和对正在进行退变造模的颈椎施行
本文通过对A公司一个营销方案实施阶段管理的研究,探讨一个涉及范围广、持续周期长、投入资源多的营销方案应该如何管理其实施过程。以A公司的营销方案为基础,运用项目管理和
企业生产经营中,会计的成本核算在企业的生存发展占据重要位置。它不仅与企业的经营效益挂钩,也影响着企业的重大决策。在当下茶文化盛行的市场经济体制下,会计成本核算把握
随着积极心理学的兴起,人们的积极心理品质和机能成为心理学研究的新取向。因此,在组织行为学中,对于员工职业健康的研究开始从工作倦怠向其对立面——工作投入转变。本研究
教育与经济发展之间历来存在着密切关系。进入21世纪,经济发展的动力更多地来自科技和教育,综合国力的竞争也更多地表现为人才的竞争。因此大力发展教育,探索教育与经济协调
近20年来,全球化经济过程中,组织技术变革、裁员、兼并以及考核竞争上岗等等因素,使得员工的工作稳定性受到影响,工作不安全感已成为全球员工普遍的压力体验。工作投入作为工作倦