论文部分内容阅读
关系抽取(Relation Extraction)是自然语言处理的一项重要任务,也是知识获取的重要途径,对于分析处理自然语言以及理解世界知识具有重大研究价值。在大数据时代,网络中的信息呈现爆炸式增长,而大部分信息以自然语言文本为载体在网络中存储和传播。近几年微博、微信、Facebook等社交网络的兴起,不仅改变了传统网络的信息传播形式,更改变了人们的生活习惯和社交方式。除此之外,社交平台的数据规模越来越大,传播范围越来越广,通信频率越来越高,对网络监管形成了巨大挑战。如果放任大量涉及反动、黄色、暴力、诈骗等违法信息充斥网络,将严重地影响网络秩序,危害社会的安定和繁荣。综上,网络文本的实体关系抽取研究对于挖掘网络信息资源及建立知识图谱等任务具有巨大的研究价值,对监管网络信息的传播、保障网络空间的秩序具有深远意义。本文以微博数据作为主要的研究对象,研究从社交网络媒体中抽取实体关系的方法。针对微博数据交互性强、语句简短、文字不规范的特点,以及实体对跨语句出现较多的现象,本文从词汇层面和语句层面展开研究。主要的研究内容和创新点包括:(1)提出了一种基于最短依存路径和双向LSTM的单语句实体关系抽取方法。本文将实体关系抽取看作分类问题,采用两个实体之间的最短依存路径来描述单个语句的特征,获取实体之间的关联。使用word2vec嵌入词汇信息、位置信息以及色彩标识。针对自然语言中每个语句成分受到左右两侧语句成分约束的现象,使用了双向LSTM模型,在经典LSTM的基础上设置了正序遗忘门、逆序遗忘门、正序输入门、逆序输入门和输出门,接收来自两侧的信号。在此基础上通过Softmax分类器抽取实体关系。为了解决过拟合问题,采用Dropout策略,随机将LSTM节点的输出置零,同时不阻断信号在这些节点内的传递。单语句的抽取方法主要应用于非交互的场景。如果实体对存在于单个语句内部,可以认为实体关系只受到所在语句的特征影响而与交互场景无关,此时使用单语句抽取方法可以避免引入过多信息而产生噪声信号,能够有效地提高计算性能。(2)提出了一种基于跨语句的依存路径的多语句实体关系抽取方法。针对微博信息互动性强,实体对跨语句出现的现象,从依存树森林中建立相邻语句之间的关联路径,以语句之间的依存路径表示会话的特征。采用语句-词汇两级双向LSTM网络分别抽取词汇特征和语句特征,感知各个语句的连贯性,判断会话的可信度。随后,通过分段卷积神经网络抽取实体关系。多语句实体关系抽取方法主要应用于交互场景,能够根据上下文语句的特征感知会话的连贯性和可信度,从交互场景中抽取跨语句的实体关系。(3)提出了一种基于会话补全策略的微博人际关系抽取方法。微博会话场景的交互双方通常具有特定的人际关系。本文针对微博文字中时常会出现省略会话双方的名字或ID的问题,通过会话补全策略,将信息的发送者和接收者标记为命名实体,并作为语句添加到语句序列中。将人际关系视为实体关系的一个子类,将抽取人际关系作为抽取实体关系的一个子任务。采用多语句关系抽取方法识别人际关系。基于会话的人际关系抽取方法能够从会话场景中提取交互双方的名称,并识别他们之间可能存在的人际关系,同时该方法也能应用于非交互场景下的人际关系抽取。(4)提出了基于百度百科构建知识库的方法,并实现了面向微博的远程监督关系抽取。微博数据的获取、整理和标注产生巨大的人工开销。为了减少模型对训练数据的依赖,本文以百度百科作为外部知识库,开展基于远程监督策略的实体关系抽取。本文从百度词条中获取信息并进行了筛选,并对同义和近义关系进行了整合,建立了远程监督的关系知识库。针对会话语句的关联性,提出了语句-词汇的两级注意力机制。通过语句级别注意力反映会话内各个语句的关联性及会话的可信度,通过词汇级别注意力感知微博文字中对识别关系类型具有提示性的词语。两级注意力的远程监督机制能够感知会话的可信度和词语对关系分类的贡献度,并且能够在缺少训练数据的情况下,借助外部知识库训练模型参数,减小模型对训练数据的依赖,提高模型的实用性。本文主要在新浪微博数据集上进行实验,抽取实体关系和人际关系。实验结果显示出,本文提出的模型和方法对于微博信息中的实体关系和人际关系具有良好的识别能力。准确率、召回率和F1值明显高于其他模型。同时,对基线模型的改进取得了显著的效果,改进后的模型性能有大幅提升,接近传统文本的关系抽取性能。