基于深度学习的藏语文本相关说话人识别方法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:shaohuang321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别技术是从说话人所说的话语中提取相应的声纹信息,以此辨认待识别说话人的身份。当文本内容已知时,说话人音频信息中的声纹特征和语义特征可以分别用于说话人验证和语音识别,从而解决了文本关联过程中伪造录音的问题。作为一个多民族国家,每个民族都有自己的语言,其说话人验证问题在身份识别、公安侦察、国防安全等领域尤为重要。藏语作为少数民族语言,其发音特点与普通话有很大区别,并且在实际应用中,通过结合语音识别和说话人识别,不仅可以达到双重验证的效果,而且还可以有效提升系统的安全性。但是关于藏语说话人验证与藏语语音识别相结合的研究较少,主要采用传统的方法,模型的性能不理想。为了解决以上问题,本文利用深度学习的方法对藏语说话人验证和藏语语音识别这两部分进行研究。在此基础之上,重点对藏语说话人验证部分进行了改进和优化。主要工作如下:1.对于深度学习任务而言,语料库的设计和建立是首位的。为了收集更多的语音数据,本文整合了实验室以往的资源,构建了藏语语料库。该藏语数据库中有47个说话人,每个说话人有500条音频,共23500条音频。针对不同的任务需要设计出不同的标签,对于藏语说话人验证任务,需要藏语说话人身份信息和相应的音频;对于藏语语音识别任务,需要藏语文本信息和对应的音频。2.对于藏语声纹验证部分,本文分别采用残差卷积神经网络、时延神经网络和残差网络进行研究。其中,在残差卷积神经网络和时延神经网络两种结构中使用非端到端的方法;残差网络使用端到端的方法。在残差卷积神经网络中,本文使用瓶颈残差块替换原模型中的常规残差块,从而有效降低模型参数量并且增加网络的深度。与原模型相比,改进后的模型等错误率为12.25%,其性能提升了 3%。在时延神经网络中,本文采用迁移学习的方法,其目的是解决藏语数据量规模小的问题,从而使模型的等错误率达到8.34%,其性能提升了 26%。在残差网络中,本文采用原模型结构的四分之一通道,以减少计算需求,并且使用分类目标损失和度量学习损失中六种不同的损失函数对模型性能进行广泛评估。为了进一步提升模型性能,本文将Softmax和Angular Prototypical两种损失函数进行融合。通过实验比对发现,度量学习损失函数整体性能优于分类目标损失函数,并且融合后的损失函数性能最好。其中,单个最优损失函数使模型的等错误率为5.82%,融合损失函数使模型的等错误率达到4.25%。由于端到端方法将前端和后端联合优化,能够使模型达到最优效果,其性能要优于非端到端方法。通过比对三个研究方法可以得出,相较于Simple ResCNN结构来说,TDNN不仅可以利用时延特性提取更多的说话人特征,而且利用迁移学习还可以很好的解决数据量小的问题,并使用预训练模型来提升性能;Fast ResNet所采用的端到端方法是将前端和后端进行联合优化从而使网络达到最优,进一步降低损失值,以此使模型达到最好效果。3.对于藏语语音识别部分,本文只采用深度全序列卷积神经网络和连接时序分类构成主流的端到端声学模型,实验中未使用语言模型。在原模型的基础上将128维通道的卷积层数量增加一倍,使模型的词错误率降低到47.59%,并且其性能提升了 23%。
其他文献
功能性胃肠疾病的发病率逐年上升,其发病机制尚未明确,西医治疗该病缺乏特异性,疗效不明显,且易复发,中医治疗该病的优势逐渐凸显,通过查阅文献了解该病的发生与多种因素有关,其中精神心理因素在其发病中的作用不断被证实,不少学者也将其定义为一种身心疾病。肝主疏泄,具有调节全身脏腑气机,调畅情志的功能,肝失疏泄上逆乘脾,除出现急躁易怒、闷闷不乐、悲忧欲哭等情绪变化外,还会导致纳呆少食、嗳气吞酸、腹痛、腹胀、
期刊
抑郁症是新时代的沉默杀手,以显著而持久的心境低落、丧失兴趣或愉悦感为主要临床特征。被抑郁症困扰的患者给自己、家庭及朋友带来巨大的心理压力,甚至可导致一系列严重后果。据统计,抑郁症影响着全世界4%以上的人口,且终身患病率高达6.8%,截至2021年抑郁症在心理健康疾病中排名第四。与其极高的发病率和风险性不匹配的是该领域落后的治疗现状。作为一种发病机制尚不明确的精神性疾病,目前对抑郁症的临床诊断仍依靠
学位
地震前兆观测对地震预报、地质分析、地球物理、地球化学、环境工程、测绘工程等相关科学研究具有重要作用。受地震前兆观测仪器自身特性以及所处环境影响,气象干扰几乎是所有前兆观测仪器都面临的问题。从实际监测数据来看,我国主要进行地震前兆观测的形变、地下流体、电磁三大学科主测项都会受到气象三要素(气温、气压、降雨)的干扰,这就要求研究人员在提取前兆观测数据之前,必须要把气象因素对观测数据的影响进行量化剔除。
学位
目的 利用中医传承辅助平台(V2.5)软件探究牛学恩教授临证诊疗功能性胃肠病伴抑郁的治疗规律。方法 收录牛学恩教授门诊诊疗功能性胃肠病伴抑郁的获效方剂,对中药使用频次、用药模式、新处方等采用改进的互信息法、复杂系统熵聚类分析等实行软件分析。结果 共筛选出127张处方,177味中药,四气统计得出温性药占42.10%、寒性药占26.66%,两者总占68.76%。中药使用频次居前10位的药物依次为茯苓、
期刊
报纸
守住不发生系统性金融风险的底线,是习近平总书记在十九大报告中提出的重要指示,而在防控系统性金融风险的过程中,房地产金融风险的防控是必不可少的。并且房地产与金融的关联紧密,集商品和金融的特性于一身,房地产业作为一个聚集大量资本的行业,其资金来源有很大一部分都来自金融体系,因此房地产金融风险的防控是系统性金融风险防控任务中最重要的一环。特别是在新一轮的区域协同发展战略的背景下,区域内部各种要素的配置速
学位
我国是世界上最大的豆粕产销国,豆粕价格的剧烈波动会严重影响产业链和供应链的安全,因此套期保值对饲料企业、养殖企业、榨油厂等相关企业意义重大。为了探索更多风险对冲方法的可行性以满足多样的套保需求,本文将分析豆粕期货与期权组合套期保值策略的有效性。在研究思路上,本文首先分析豆粕期货与期权组合套保策略的可行性,然后对其进行实证分析,再进行模拟套保分析,最后总结出结论和建议。在实证分析上,本文针对合约转换
学位
金融衍生品监管能规范企业合理使用衍生品,影响企业风险,并对企业的融资能力产生影响。借鉴LLSV“法与金融学”思想,以2007-2017年A股上市的中国跨境投资企业为样本,通过手工整理100部金融衍生品监管法律法规,本文自行构建中国“金融衍生品监管指数”(CFDRI),考察了金融衍生品监管对跨境投资企业融资效率的影响。研究发现:在短期,金融衍生品监管与中国跨境投资企业融资效率呈正向关系,即存在“提升
学位
对高校研究生而言,面对快速发展的社会环境、就业压力、科研压力等问题,自我适应和调节能力还不够成熟,从而会引发一系列心理健康问题。研究生心理健康既是幸福生活的基础也是科研之路的重要保障。通过对研究生心理健康现状的研究,识别研究生存在的主要心理健康问题和原因,结合个性化教育理念建立高校研究生心理健康机制,并能够有效实施,对高校培养心态积极、人格健全、健康发展的创新型研究生具有重要意义。
期刊
功能性胃肠病(FGIDs)症状重叠现象在临床上极为常见,不仅增加诊疗难度,也影响患者的生活质量,并造成社会经济负担。目前现代医学药物治疗FGIDs症状重叠的疗效尚不满意。中医学以整体观念和辨证论治为理论指导,处方时以证统方,随症加减,在治疗FGIDs症状重叠方面表现出一定优势。本文将就FGIDs症状重叠的诊疗现状、中医药诊疗的优势与特色以及中西医结合医学如何在FGIDs症状重叠的诊疗中取得突破进行
期刊