论文部分内容阅读
在人工文本键入过程中,人们通常会根据语言习惯自发的在文本中添加标点。但是在一些自动文本录入过程中,例如语音识别过程,得到的文本是没有断句和标点标注的(无标点文本)。这种文本使得读者无法找到一句话的起点和终点,不能从文本中划分出明确的阅读单元,从而带来比较严重的歧义问题。同时,无标点文本还会给下游的自然语言处理任务造成困难。处理这些任务的模型常使用有标点文本进行监督训练,利用这些模型直接对无标点文本进行处理会造成严重的质量下降。因此,需要对无标点文本进行标点标注,提高文本可读性,便于下游任务处理。值得注意的是,在演讲和会议等实时场景下,作为标注对象的完整文本无法一次性获得,而是要随着时间逐词获取。如果输出有标点文本的过程存在较大延迟,滞后的较长文本会在有限的时间内给读者造成较大的阅读压力。另外,滞后的文本还会严重分散听众的注意力。所以,对实时场景下的流式文本,需要提供标点标注质量较高且延迟较低的标注结果。在标注质量方面,目前已有较多对确定长度的文本进行标点标注的工作。当前的研究热点是利用神经网络自动的从文本中抽取特征,然后利用抽取的特征进行标注。在训练数据充足的领域,现有方法能够达到比较高的标注质量。但是在某些数据稀缺的领域,现有方法的标注质量并不高。在标注延迟方面,现有标注方法通常适用于对长文本进行标注,导致在实时场景下会产生较大延迟,但是直接对短文本进行标注又会严重影响标注质量。实时标点标注的挑战在于:如何从动态的文本流中划分出不使标注质量大幅下降的相对较短的文本,也就是在文本流中确定合适的标注时机。针对上述提到的问题,本文进行了以下研究:.对于特定领域的训练数据稀缺问题,本文利用数据增强方法对训练数据进行扩充,并提出了更有效的从多个领域中挑选数据的方法。为了有效利用扩充数据中的语义信息,本文在模型中引入了预训练的语言模型参数,提升模型对句子表示的建模能力。在此基础上,为了有效利用扩充数据中的句法信息,本文尝试了多任务学习的方法,利用词性标注任务提升模型对句法结构的建模能力。实验证明,本文尝试的方法能够有效提升英语口语领域的标点标注质量。.对于标注实时性问题,本文在现有标注模型的基础上设计了实时标注模型。首先,本文使用了强化学习方法得到了对标注时机进行建模的决策模型,并将标注模型和决策模型结合为实时标注模型。其次,为了在不增加延迟的前提下提升标注质量,本文利用决策模型生成的动作序列对标注模型的参数进行微调。最后,本文还尝试了利用较短后文进行预训练的方法。实验证明,本文提出的方法能够在较短的时延下给出较为稳定的标注结果。