【摘 要】
:
在线语音识别是语音处理与应用的重要研究领域之一,近年来,随着网络与通信技术的不断发展,越来越多的技术应用于在线领域,语音识别作为一种重要的人机交互技术越来越得到重视。目前,主流语言如英语、汉语、日语等语言的研究与应用已经很成熟,也有容易获取的大数据量语料库。但是藏语识别方向还存在一些有待解决的问题,藏语作为一种低资源语言,语料库的录制也存在一些困难。基于藏语识别方向研究人数较少,研究基础较为薄弱,
论文部分内容阅读
在线语音识别是语音处理与应用的重要研究领域之一,近年来,随着网络与通信技术的不断发展,越来越多的技术应用于在线领域,语音识别作为一种重要的人机交互技术越来越得到重视。目前,主流语言如英语、汉语、日语等语言的研究与应用已经很成熟,也有容易获取的大数据量语料库。但是藏语识别方向还存在一些有待解决的问题,藏语作为一种低资源语言,语料库的录制也存在一些困难。基于藏语识别方向研究人数较少,研究基础较为薄弱,实际应用较少的现状,本文从以下三个方面开展研究工作:1.通过研究基于端到端语音识别的建模方法,进行实验对比CNN-CTC、LSTM-CTC、Transformer模型在藏语识别上的性能,在相同实验环境下三种模型的词错率分别达到了32.6%、30.6%和29.3%,实验结果表明在藏语识别任务中Transformer模型的性能最好。对于端到端语音识别在小语料库中识别率低的问题,本文引入Specaugment语音增强算法对原有语音数据进行增强,在引入语音增强算法后,实验结果表明三种模型的词错率分别降低到了28.1%、26.1%和25.3%。2.本文通过对在线藏语识别系统进行需求分析,结合语音识别技术和网页开发技术完成了在线藏语语音识别系统的框架设计。搭建了基于B/S架构的Web在线藏语语音识别系统,实现了基于Web的在线藏语识别,总结并分析了在线藏语语音识别系统的实现方法和设计方案。3.为了验证在线藏语识别系统的可靠性,本文搭建测试环境,对在线藏语识别系统各个模块分别进行功能测试,通过对运行结果的分析和对比,验证系统功能能否正常运行。
其他文献
伴随着无线技术的不断发展,无线设备的迅速增多,不同的无线通信设备对频谱的需求出现了指数级增加,无线电频谱资源得不到有效地利用已成为主要问题。认知无线电技术可以通过对周围环境的学习,实时调整参数而达到高效利用频谱资源的效果。频谱感知技术作为认知无线电技术的先决条件被越来越多的专家学者所关注。本论文主要对基于发射机感知的认知无线电频谱感知算法进行研究。首先对基于发射机感知的能量检测算法、匹配滤波检测算
抑郁症,又称抑郁障碍,是一种严重的心理障碍疾病。其在临床上表现为显著且持久的心情低落、愉悦度降低、言语活动减少等,具有自杀倾向,严重影响人们的身心健康,也为社会带来了巨大的危害。截止2017年,全球有3亿人患有抑郁症,我国的抑郁症患者也已超过5400万人。当下,抑郁症的诊断方法以主观量表为主,依赖医生的临床经验以及患者的配合程度,缺乏客观指标。因此,语音作为非侵入、易采集、低成本的客观指标,受到了
二十世纪末至今,多样化的通信业务对传输速率要求不断提高,为满足人们日益增长的通信需求,通信技术也不断地进行着变革与更新。某种程度上而言频谱资源是有限的,而传输速率的不断提高使得本就有限的频谱资源显得更加稀缺,多天线技术凭借其可观的分集增益可以有效解决频谱资源紧张的问题。多天线技术能够极大提升系统频谱利用率和信息传输速率,但随之而来的干扰管理问题却成为当今无线通信系统中制约系统性能的主要因素。干扰对
近些年来通信用户对于无线网络频谱资源的需求量日益增加,无线频谱需要被不断分配给各种不同的通信业务使用,导致可使用的频谱资源越来越稀缺。现有的固定频谱的分配方式已经无法满足快速发展的通信业务需求。为此,需要提出新技术以达到频谱资源高效利用的目的,如多天线技术,多址接入技术等。认知无线电技术的提出可以让认知用户通过频谱感知技术去查询系统环境中还没有被使用的频谱,从而实现主用户与认知用户的频谱共享。认知
抑郁症是一种常见的精神障碍,其主要特征为情绪低落、兴趣减退等。由于其较高的患病率和复发率,引起公众的广泛关注。目前,抑郁症的检测方法主要是基于经验丰富的医生的诊断和抑郁量表,这些方法都过于主观且相对不够准确。再加上人们对于抑郁疾患的偏见,使得抑郁症的就诊率和治疗效果都比较差。为此,找到一种客观、有效且适用性高的抑郁症检测方法显得尤为重要。语音以其非侵入,低成本,易获得等特点,使基于语音信号的抑郁识
沙拐枣作为塔克拉玛干沙漠公路防护林主要树种之一,其凋落物储量在各植被类型中最高,通过探究不同环境因素下凋落物分解的变化规律,为沙漠公路防护林的养分物质循环提供理论支持,对于准确估计该区域内的物质循环与能量转化有重要意义。本文通过室内培养试验探究了沙拐枣凋落物表面覆盖、原状混合处理在不同含水量(W1:25%田间持水量、W2:50%田间持水量)的淡水(S0:0 g·L-1)和咸水(S1:4 g·L-1
与汉语、英语等主流语言的语音合成技术相比,藏语语音合成技术合成的语音在自然度和相似度上还存在较大的差距,因此,借鉴主流语言的语音合成技术来研究藏语语音合成具有重要的意义。同时,由于嵌入式设备性能的不断提升,将藏语语音合成技术与嵌入式设备相结合,可以实现便携式的藏语语音合成系统。本文以嵌入式藏语语音合成为研究对象,设计并建立了一个藏语语音合成语料库,分析并改进了语音合成系统中的声码器,在此基础上,搭