论文部分内容阅读
事件抽取是一种获取结构化信息的技术手段,其主要通过事件框架的形式从文本中提取出任务所需的重要信息。在具体实现中,该技术通常使用预定义的事件框架,按框架中事件的各个组成部分对文本中的信息进行筛选。在金融领域中,事件抽取可以为风险评估、知识图谱等多种下游任务提供基础的结构化数据。然而,受语言特性、文本特点和专业领域知识等多方面的影响,当前金融事件抽取研究主要面临两方面的挑战:1)金融领域至今未形成对金融事件抽取任务的标准定义,因此也没有针对事件类型的统一划分,从而也未形成事件抽取任务中所使用的预定义框架。2)以财经新闻为代表的金融领域文本普遍具有篇幅长、语义信息丰富、句法复杂度高等特点,为事件抽取模型带来了语义理解上的困难。针对上述问题,本文以财经新闻为基础,提出了基于深度学习的金融事件抽取方法,并最终构建了金融事件抽取系统,该系统包括:1.基于金融事件库的中心事件抽取方法,其目的是从文本中定位中心事件句并进行事件抽取。该方法包含三个组成部分:金融事件库,中心事件句判定算法以及基于序列标注的事件论元抽取模型。其中,金融事件库由预定义的金融事件类型表、金融实体关系表以及触发词词典组成,是后续算法和模型的重要依据。中心事件句判定算法通过包含三种衡量标准的判定规则,在文本中定位中心事件句,并提供该句对应的触发词信息。最终,中心事件抽取方法采用序列标注的思想,通过动态词表示模型,双向的长短期记忆网络和条件随机场实现对事件论元的识别。2.针对多事件文本的事件主体抽取方法。作为中心事件抽取方法的补充,该方法主要针对在中心事件抽取任务中不易处理的多事件类型文本,避免事件抽取的退化。该方法通过事件类型重构和事件主体抽取,实现高效的事件信息的抽取。其中,事件类型重构通过对触发词和事件论元间互信息和信息熵的计算,获取词语间的共现程度,找到合理的短语组合以形成组合型事件类型。同时,该方法使用问答三元组的形式对事件主体抽取任务中的各组成部分进行封装,将抽取任务转化为机器阅读理解任务。最终,通过预训练语言模型BERT,以多轮问答的形式实现了对多事件文本的事件主体抽取。3.金融事件抽取展示系统。该系统实现了对财经新闻文本的中心事件抽取和事件主体抽取,并且通过可视化界面实现与用户的交互。