实时场景下的标点标注方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:aaaj199054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工文本键入过程中,人们通常会根据语言习惯自发的在文本中添加标点。但是在一些自动文本录入过程中,例如语音识别过程,得到的文本是没有断句和标点标注的(无标点文本)。这种文本使得读者无法找到一句话的起点和终点,不能从文本中划分出明确的阅读单元,从而带来比较严重的歧义问题。同时,无标点文本还会给下游的自然语言处理任务造成困难。处理这些任务的模型常使用有标点文本进行监督训练,利用这些模型直接对无标点文本进行处理会造成严重的质量下降。因此,需要对无标点文本进行标点标注,提高文本可读性,便于下游任务处理。值得注意的是,在演讲和会议等实时场景下,作为标注对象的完整文本无法一次性获得,而是要随着时间逐词获取。如果输出有标点文本的过程存在较大延迟,滞后的较长文本会在有限的时间内给读者造成较大的阅读压力。另外,滞后的文本还会严重分散听众的注意力。所以,对实时场景下的流式文本,需要提供标点标注质量较高且延迟较低的标注结果。在标注质量方面,目前已有较多对确定长度的文本进行标点标注的工作。当前的研究热点是利用神经网络自动的从文本中抽取特征,然后利用抽取的特征进行标注。在训练数据充足的领域,现有方法能够达到比较高的标注质量。但是在某些数据稀缺的领域,现有方法的标注质量并不高。在标注延迟方面,现有标注方法通常适用于对长文本进行标注,导致在实时场景下会产生较大延迟,但是直接对短文本进行标注又会严重影响标注质量。实时标点标注的挑战在于:如何从动态的文本流中划分出不使标注质量大幅下降的相对较短的文本,也就是在文本流中确定合适的标注时机。针对上述提到的问题,本文进行了以下研究:.对于特定领域的训练数据稀缺问题,本文利用数据增强方法对训练数据进行扩充,并提出了更有效的从多个领域中挑选数据的方法。为了有效利用扩充数据中的语义信息,本文在模型中引入了预训练的语言模型参数,提升模型对句子表示的建模能力。在此基础上,为了有效利用扩充数据中的句法信息,本文尝试了多任务学习的方法,利用词性标注任务提升模型对句法结构的建模能力。实验证明,本文尝试的方法能够有效提升英语口语领域的标点标注质量。.对于标注实时性问题,本文在现有标注模型的基础上设计了实时标注模型。首先,本文使用了强化学习方法得到了对标注时机进行建模的决策模型,并将标注模型和决策模型结合为实时标注模型。其次,为了在不增加延迟的前提下提升标注质量,本文利用决策模型生成的动作序列对标注模型的参数进行微调。最后,本文还尝试了利用较短后文进行预训练的方法。实验证明,本文提出的方法能够在较短的时延下给出较为稳定的标注结果。
其他文献
本试验以生长期(育成阶段和冬毛阶段)乌苏里貉为研究对象,研究了饲粮铜源与铜水平对乌苏里貉生产性能的影响。确定生长期乌苏里貉的最适铜添加水平和最佳铜源,为合理配置貉的
在我国进行能源结构大调整的过程中,核电在满足国家能源供应安全、实施能源供给侧结构性改革中发挥了重要作用。随着工业信息化时代的到来和核电装机容量的不断增加,如何将快
目前,我国经济发展步入“新常态”,经济增长速度趋缓,创新驱动发展战略成为我国走出“结构性减速”的经济发展困境的关键举措。而无形资本作为创新的重要载体和体现,无疑对经
桑条平茬收获类机械近些年在我国有很大的发展,但大都只能适应某一特定地区的收获条件。我国桑园地块分散,种植的地形复杂,有平地、山地、坡地等,机械适应性不强。栽植模式没
[背景]慢性阻塞性肺疾病(COPD)是一种常见的慢性的气道炎症性疾病,以持续气流受限为特征,目前已成为全球第四大导致死亡的疾病。一直以来,一秒用力呼气容积(FEV1)和年龄被认
随着金融一体化的加深,国际消费风险分担水平不断提升,与此同时,各国的资产负债表不断扩张,估值效应的规模与波动不断增加。金融危机后,发达国家的估值效应与国际消费风险分
锂硫电池(Li-S)因其高理论容量、活性材料硫来源丰富等优点,受到许多研究学者的青睐。然而,正极材料所面临的一系列问题包括导电性差、长链多硫化物易溶出、体积变化大等严重
女性生理周期的变化规律与卵巢周期活动息息相关,在排卵前后常伴随着人体体温的变化。通过测定基础体温得到基础体温曲线,进而观察其中的变化可以判断女性有无排卵、推测排卵日期、分析黄体功能等。因而测定女性的基础体温曲线可以辅助医生诊断与治疗某些妇科疾病。然而,由于人体动静态的特性,体温数据的获取以及进一步的分析会受到一定的影响。因此,如何绘制出一条能准确反映女性生理周期变化的曲线显得尤为重要。本文通过采集
目的:异基因造血干细胞移植是治愈多数血液系统疾病的唯一手段,急性移植物抗宿主病是导致患者死亡的最主要原因,由于aGVHD的治疗困难,早期预测或诊断急性移植物抗宿主病对改
在大田试验条件下,采用裂区设计,在浏阳与衡阳以杂交稻株两优819和常规稻中嘉早17为早稻材料,以杂交稻泰优390和常规稻湘晚籼13为晚稻材料,设置无氮常密(0 kg N/hm~2,28.57万