论文部分内容阅读
随着Web2.0的迅速发展,网络信息呈现爆炸式增长,如何从中快速准确地抽取用户感兴趣的信息成为当前智能信息处理领域亟待解决的问题。实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,同时对句子语义理解及实体语义知识库构建有着重要作用。本文主要研究了实体关系抽取技术,包括:有监督实体关系抽取、实体关系触发词词典构建、中文开放式实体关系抽取等三个方面。论文的主要研究成果如下:(1)研究了有监督的实体关系抽取技术,针对普通名词实体关系抽取中模糊样本边界难以确定、存在交叠的问题,提出了一种基于SVM-KNN(SVM和KNN的组合分类方法)的有监督实体关系抽取方法。该方法设计了一种双投票机制,利用SVM进行模糊样本的判定,将测试样本集分为确定区域和模糊区域;对确定区域的样本直接输出SVM分类器的分类结果,对模糊区域样本使用KNN分类器进行二次分类。实验结果表明,该方法有效判定了实体关系模糊样本,较大程度提高了实体关系抽取的性能。(2)研究了实体关系触发词词典自动构建技术,针对传统人工或有监督方式构建实体关系触发词词典耗费大量人力且无法获取完备词典的问题,提出了一种无监督的实体关系触发词词典自动构建方法。该方法首先采用层次狄利克雷过程(Hierarchical Dirichlet Process,HDP)进行建模,得到关系句子实例集的主题-词分布;然后,通过主题过滤和词语概率权重过滤获得候选触发词集;最后,采用依存句法分析对候选触发词集进行二次过滤获得关系触发词词典。该方法无需人工参与,且有效避免了有监督方法所需的初始关系触发词库。实验结果表明,该方法能快速构建任意实体关系类型的触发词词典,且具有较高的准确率。(3)研究了开放式实体关系抽取方法,针对传统方法中远程监督(Distant Supervision)假设引入大量未蕴含指定实体关系的噪声标注数据的问题,提出了一种基于主题模型的中文开放式实体关系抽取方法。该方法利用触发词窗口内的词与实体对共同构成触发词窗口关系模式,抽取候选关系句子实例集中每个句子实例的关系模式,并通过模式聚类形成关系模式组;然后,利用主题模型计算关系模式组表达实体关系的概率,实现噪声标注数据的识别;最后,训练实体关系抽取模型,实现实体关系抽取。实验结果表明,该方法能有效识别训练语料中的噪声标注,通过过滤噪声标注数据后训练的实体关系抽取模型性能有较大提高。