中文口语转录中标点预测与不流畅检测研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:lzy6259404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着自动语音识别(ASR)技术水平的提高,从ASR系统输出得到的口语转录文本的处理研究,也随之受到了广泛的关注。由于口语转录文本并不是书面化的文本,从而会带来一系列严重的问题。一方面,口语转录文本是由ASR系统输出生成的一串字符流组成的,缺少标点符号和句子边界信息。这就是导致了读者在阅读转录文本时,很难找到一个句子的起点和终点,从而大大增加了句子语义的理解难度。另一方面,口语转录文本包含了大量的不流畅现象。这些不流畅现象既不符合句子的语法,也没有实际语义信息,这样不仅会对后续的自然语言处理任务带来极大的阻碍,而且也会导致读者难以流畅地阅读口语转录的文本。因此,我们有必要针对中文的口语转录文本进行标点符号的预测,以及对其中含有的不流畅词进行检测。本文主要研究了针对中文口语文本进行标点符号预测(Punctuation Prediction)和不流畅检测(Disfluency Detection)。具体的研究工作内容包括:1.针对中文口语转录文本的标点预测研究,本文提出了一种结合深度预训练和传统循环网络的标点预测方法。该方法是利用序列标注思想以构建标点预测任务的解决方案。具体来说,首先通过引入双向的Transformer编码器来对传统的BLSTM模型进行扩展,利用其强大提取上下文语境化特征的能力,从而对标点进行预测。实验结果表明我们标点预测方法的有效性,并且与之前的最好的方法相比不仅具有更高的预测精度,更节省成本。2.由于在中文口语转录文本的存在许多不流畅现象,影响了标点预测的性能,所以我们提出了基于深度预训练网络的联合不流畅和标点预测的方法。该方法的目的是利用两种标点和不流畅词的特征,在同一个基于深度预训练的序列标注模型上进行训练预测,从而完成相互提升对方任务的性能。同时,我们标注了不流畅词和标点符号联合标签的数据集。实验结果验证了该方法的有效性。
其他文献
现代社会进入了能源的高速消耗阶段,不管是传统能源的储量还是其安全问题都给社会发展的开发利用带来了许多困难。核能是目前世界范围内可以达到工业化应用并有望代替传统能源的新能源。但是,核能应用产生的放射性废料,一旦发生泄漏或处理不当,将对地球环境及生物造成巨大的威胁。而在核能的使用中,使用铀的所占比例很高,而它的衰变产物是生态环境中的主要污染物质。因此,高效的吸附铀具有很重要的意义。而硫化物在吸附铀酰根
本文利用塔克拉玛干沙漠腹地2017年7月GPS加密探空资料、风廓线风场数据及地面气象要素,分析了沙漠夏季夜间稳定边界层结构变化特征、天气个例位温及风速垂直廓线的特征变化;
金属卤化物钙钛矿(MHPs)因其出色的光电性能、低成本和高转换效率(PCE)而成为光伏光电材料领域的研究热点,在太阳能电池、LED、激光器和光催化中有着广泛的应用。在短时间内,钙钛矿太阳能电池的PCE从最初报告的3.8%已提升到23%以上。但是,这些材料的大规模使用受到铅等有毒重金属的影响以及在环境条件下长期稳定性的限制。为避免这些问题,A_3M_2X_9型无铅金属卤化物类钙钛矿材料因其具有独特的
随着经济的高速发展、化石燃料的过度消耗以及环境污染的不断加剧,人们对清洁、高效和可持续储能装置的需求不断增长。在各种电化学储能技术中,超级电容器由于功率密度高、充放电速率快、循环寿命长和环境友好等优点具有广泛的应用前景。制备孔隙度丰富和氧化还原活性高的电极材料具有十分重要的意义。金属有机框架材料(MOFs)是由有机配体和金属离子组成的一类多孔晶体材料。由于其具有孔径可调、比表面积大和结构多样等优点
半导体纳米晶的光学性质在近些年来引起了相当大的关注。部分纳米晶已经成功应用在激光、荧光生物医学探针等量子器件上。CdSe纳米晶因其窄带隙和卓越的光学性质,成为广泛研究的半导体纳米晶。同时核壳结构的半导体纳米晶也是材料领域研究的主要对象。研究者发现在CdSe核表面外延生长CdS壳层可以显著提高其光致发光效率以及化学和热稳定性。由于压力可以改变纳米晶的电子和晶体结构,利用高压装置对核壳半导体纳米晶进行
NO_2近些年来成为困扰人类的一种有害气体,过量的NO_2是导致酸雨、地表水酸化和富营养化的重要原因。半导体气敏传感器则是检测大气中NO_2浓度的重要手段之一,备受研究人员青睐,而半导体气敏传感器的核心就是制作传感器的半导体材料。ZnSe是一种非常重要的宽禁带Ⅱ-Ⅵ族半导体材料,在可见光(400700 nm)范围内的光电催化及光电转化特性性能十分优异,在激光、全天候光学装置、红外热成像、高分辨率的
关键词识别指在连续语音流中检测出预定义关键词。由于深度神经网络在语音识别方面有着突破性发展,近年来关键词识别的研究主要是基于语音识别展开的。这类方法首先使用声学
全球变暖背景下,城市热岛效应(UHI)对居民生活和健康的威胁进一步扩大。在夏季,长期居住在稳定的热岛中心的居民具有极高热相关健康风险。定义连续多年夏季受热岛影响,且面积较大、连通性较好的高温中心为长期热岛。以北京六环以内区域为例,利用三期Landsat数据,结合形态学空间格局分析和叠加分析等方法,识别了北京市2011-2017年的长期热岛空间分布并依据土地利用情况对其进行类型划分。通过景观组分与地
全球气候变化及快速城市化加剧极端事件的发生频率,高温热浪作为其中的典型效应,对城市生态环境及居民健康造成极大威胁。由于城市内部热环境风险并非均质分布,依据城市内部功能类型及人类活动进行针对性研究,对更精细尺度上气候变化适应指引实践意义重大。本文以北京市为例,结合POI数据、手机信令数据划分城市功能区,基于职住功能视角,识别与人类活动最为频繁与居民日常生活最为密切相关的居住、工业、办公功能。通过“暴
近年来,人们一直致力于探索新材料和新能源的开发,以满足当今社会的高速发展和可持续发展的需求。金属二氮烯氮化物因同时具有含能性质和导电性质而具有十分广阔的应用前景。然而,我国关于金属二氮烯氮化物的研究还处于起步阶段,还有很多问题需要研究探索,比如金属二氮烯氮化物的合成制备、高压下的相变规律、还有导电机理等等。本论文在课题组前期对碱土金属叠氮化物的研究基础上,在高温高压的条件下,通过控制碱土金属叠氮化