论文部分内容阅读
随着网民数量的增加以及移动端设备的普及,大量的网络活动使互联网上数据成指数级增长。在海量的数据中很大比例为非结构化文本数据,其中蕴含着丰富的有价值信息。实体关系抽取旨在从非结构化文本中提取实体以及实体之间的关系,并以三元组形式表达,从而将自然语言文本中的关键信息以结构化形式呈现,可以满足人们细粒度的信息需求,是下游知识图谱、用户画像、问答系统等应用的基础。实体关系抽取分为管道式方法和联合式方法。在实体已标注上的关系抽取也称为关系分类。现有的关系分类模型在特征的表达和利用方面还存在不足,提高关系分类的效果在管道式抽取方法和联合抽取方法中都具有重要意义。联合抽取方法能够一次性抽取出文本中的所有三元组数据,但由于句子中实体数量、关系数量不定,以及客观存在的实体重叠、实体冗余等问题,严重影响了实体关系的抽取效果。本文针对关系分类和实体关系联合抽取存在的问题进行了深入的分析研究,主要工作如下:(1)针对关系分类任务中,对特征的表达不够精准和利用不够全面的问题,提出一种融合多元实体特征的关系分类模型。在特征表达方面,利用预训练的BERT模型作为特征提取器,预训练的BERT模型含有丰富的语义信息,特征表达能力更强。在特征的利用方面,关系分类的结果不仅依赖句子特征,两个实体的信息也同样重要,尤其是实体的类型特征和实体的依存关系特征。实体的类型信息能够缩小关系类型的判断范围,辅助预测实体间的语义关系。实体的依存路径往往包含能够反应实体间关系的重要信息。通过将BERT编码后的句子向量、实体向量和实体依存关系向量合并为最终的关系特征,达到对多种特征的精准表达和融合利用的目的。实验结果显示,融合多元实体特征的模型比基线模型的F1值高出1-17个百分点。(2)针对实体关系联合抽取任务中,现有模型不能够同时解决实体重叠和实体冗余问题,导致抽取效果较差,提出了基于关系导向的实体关系联合抽取模型。该模型首先抽取出句子中隐含的所有关系类型,然后将抽取的关系类型融入实体识别模块中,识别关系类型所对应的实体对。利用预先抽取的关系类型先验知识,减少对无关实体的关注,达到避免实体冗余问题的目的。通过对所抽取的多个关系类型分别采用二进制指针网络的方式标记其对应实体对,以解决实体重叠问题,最终抽取出句子中所有的三元组数据。实验验证了基于关系导向的联合抽取模型,能够同时有效解决实体重叠和实体冗余问题,比基线模型的F1值提高1-28个百分点。