基于BILSTM的中文语音转写标点预测算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:yayayda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着自动语音识别技术(ASR)水平的不断提高,在会议、教学以及车载语音等领域被广泛的应用。语音经过ASR转写会变成一串中文字符,但是这串中文字符并没有标点符号。这样的文本不便于读者的阅读,并且会对ASR后处理的其他任务(文本匹配,情感分析以及文本分类等)造成不好的影响。因此标点预测算法是ASR后处理技术中必不可少的。标点预测可以为没有标点的文本加上标点,增强文本的可读性。近年来,随着基于文本特征的标点预测算法不断优化,标点预测算法精度的不断提升,在很多领域得到了广泛的应用。标点预测也开始受到很多学者的关注。本文主要研究基于BILSTM的中文语音转写标点预测算法。本文的贡献如下:(1)设计出关联度计算模块,并且提出融合词性特征。通过融合词性特征以及关联度特征来增强标点预测模型的泛化性。标点预测模型在数据集上训练之后,使用同时期同种类型的数据进行测试,精度普遍较高。但当换一个不同时期或不同类型的数据集进行测试时,模型的精度就会出现崩溃式的下降。模型的泛化性较差,不能够很好的扩展到其他领域或适应不同时期数据。针对以上的问题,本文提出了使用词性特征以及标点前后句关联度特征来进行特征增强,达到增强模型泛化性的效果。词性是词汇的基本语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。融合词性特征可以使网络学习到句子的词性结构特征,并且通过添加标点前后句子关联度计算模块使网络学习到更为通用的特征。(2)收集并整理了一份含有同音字错误的ASR转写数据集,并且提出用拼音特征来缓解同音字错误给标点预测带来的精度下降问题。ASR转写文本中经常会出现错字的情况,同音字错误是其中一种很常见的错误。同音字错误会造成文本语义不明,网络不能正确理解文本的意思。从而会对标点预测的精度产生不好的影响。本文针对这个问题提出了通过结合拼音特征的方式来缓解这个问题。在日常的生活中,文本中经常会出现错字的情况,但是只要读音是正确的就可以通过拼音的信息来正确的理解文本的意思。即使直接从一段拼音中也可以理解句子的意思。这就很好的证明了拼音的特征可以辅助网络理解文本的语义,可以协助用户更好的读懂这句话的意思。通过设计网络结构同时提取文本特征以及拼音特征进行融合,基于融合后的特征可以达到更好的效果。
其他文献
PU(Positive and Unlabeled,简称PU)学习作为弱监督学习的一种,是当前机器学习的研究热点。其目的是从正样本和无标签样本中学习一个分类器,实现对未知样本的有效分类,近年来在不同领域得到了广泛的应用。然而随着PU学习应用的推广,真实应用场景中存在数据维度高以及数据包含噪音等问题,这使得现有的PU学习算法难以获得高性能的PU分类器。为此,本文针对PU学习中存在的上述问题,在多目标
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是中老年人群中常见的进行性神经系统疾病,缺少有效的治疗手段,患者患病后逐渐由健忘发展到严重痴呆,最终导致死亡。当前缺乏AD的有效检测手段,很多患者直到晚期才被发现,如果能够提前预测AD,并介入治疗,能够有效延缓AD的发展进程,改善患者的生存质量。尤其是轻度认知障碍(Mild Cognitive Impairment,MCI),医疗界将其视
学位
报纸
机器学习主要研究从数据中生成“模型”,但是要生成有效地模型,则必须有足够的有标签数据。然而,在许多实际应用场景中,为数据打上标签是非常耗时和昂贵的。主动学习是解决这一问题的主流方法,其主动选择一些对于模型有“价值”的样本加入训练集,旨在以尽可能小的数据标记成本训练得到预期的模型。主动学习的核心是样本选择策略,合理的策略可以有效地降低数据标记成本。尽管现有的样本选择策略能够显著降低数据标记的量,但仍
学位
科技的进步推动了人工智能的发展,而人工智能的成功离不开机器学习,尤其是深度学习技术的不断成熟。进行深度学习训练需要用到大量数据,但是随着人们隐私安全意识的提升,数据收集过程受到了越来越多的阻碍。而且在某些特殊领域想要得到准确的数据还存在一定困难。协同深度学习系统不需要将数据进行集中收集后交给第三方机构保管,其允许拥有数据的组织联合起来训练一个深度学习模型,解决了上述传统深度学习面临的数据收集和隐私
学位
由于密码子的简并性导致编码氨基酸不发生改变,同义突变过去很长一段时间被认为对生命活动没有功能影响。然而,随着测序技术的高速发展和相关研究的不断深入,越来越多同义突变被证明和疾病发展有密切关系。从大量同义突变中准确识别有害同义突变,可以提高人类对疾病病理的认识,并为精准医疗的发展提供帮助。因此,精准识别有害同义突变逐渐变成一项具有前景的任务。通过传统生物实验的方法来识别有害同义突变,耗费时间长并且成
学位
随着互联网技术高速发展,数字媒体成为了生活中重要的一部分。计算机,电子通信有关技术日新月异,多媒体有关技术也随之不断更新与完善,但是相关安全问题也随之而来。为了解决数字媒体中存在的严重安全问题,信息隐藏技术得到了广泛关注。此外,随着许多用户将个人的私密数据上传到互联网中相关平台进行存储,用户信息遭到泄露的风险显著增加。因此,将传统的图像加密运用到可逆信息隐藏算法中的技术,即密文域可逆信息隐藏技术受
学位
车牌是区分不同车辆的重要标识。随着车辆的不断增加和交通的日益繁忙,智能交通系统变得越来越重要。同时,车牌自动识别技术在智能交通系统中发挥着重要作用,如视频监控系统、停车管理系统和交通违章摄像头。然而,目前大多数方法都是针对特定场景下的清晰车牌,对于不受限制的远程交通监控场景中的模糊和低分辨率图像,仍然没有一个出色的解决方案,其识别精度可以达到实际应用的标准。在很难继续提高识别算法精度的情况下,我们
学位
基于卷积神经网络(convolutional neural network,CNN)的深度学习(deep learning,DL)方法发展迅速,在计算机视觉、语音识别和自然语言处理等领域取得了很多成功的应用,尤其是在图像分类和目标检测等方面,相比传统的机器学习方法,深度学习往往有着更加出色的性能。这是因为深度学习具有更多的参数和巨大的模型加持。但是,深度神经网络(deep neural netwo
学位
随着信息科技的飞速发展,摄像机得到大规模使用,视频监控系统在人们的日常生活中日益普及。在早先的视频监控中,摄像头采集到的图像数据大多是离散的,摄像机之间存在信息无法融合等问题。基于深度学习的目标检测与追踪则可以准确地反馈目标的坐标位置和目标运动范围,其在视频监控领域里有较好的应用前景。另外,一般视频监控的数据上传到数据中心缓存、分析和处理,传输过程需要耗费巨大的通信成本。鉴于此,本文提出基于边缘计
学位