论文部分内容阅读
随着互联网规模的不断扩大,其中蕴含的信息和数据也在持续增长。信息抽取技术的目标是从互联网中的海量无结构化数据中挖掘出结构化的数据。实体关系抽取是信息抽取的子任务,已经成为数据挖掘与信息检索领域的一个研究热点。人物关系抽取属于实体关系抽取的一个方面,人物关系三元组数据被用于构建人物关系网络和问答系统,具有较高的应用价值。但是,目前关系抽取研究主要集中在英文语料的处理上,基于中文数据的关系抽取研究进展比较缓慢且研究难度较大。基于机器学习的关系抽取方法因其在关系抽取结果上较好的表现,已经成为目前的研究热点。按照训练数据获取方式的不同,本文对基于半监督学习,远监督学习和无监督学习的三种方法进行研究,主要贡献如下:1.有监督学习的关系抽取方法对人工标注的训练数据的依赖性较强,且人工标注的成本过高。为了在少量标注数据的条件下也能获取较高的关系抽取性能,本文对半监督学习的关系抽取方法进行研究。使用基于标签传播的半监督学习算法能提升少量标注数据下的关系抽取效果,但是随机选择训练样本会影响关系抽取性能。为了提升标签传播算法的关系抽取效果,本文将标签传播算法与主动学习方法相结合用于人物关系抽取。这个方法主动选取对于关系分类的帮助最大的样本进行标注,可以减少无效标注样本数量,在相同标注数据量的条件下提升系统的性能。2.在目前的关系抽取研究中,远监督方法通常用于自动构建训练数据,但是远监督学习的基本假设存在不准确的问题,从而在训练数据中会引入噪声数据。本文针对该问题提出了基于打分函数过滤训练数据中噪声的方法,能减少基于远监督学习获取的训练数据中的噪声数据。另外,针对目前关系抽取系统的准确率不够理想的问题,本文应用词向量技术从单句文本中提取基于词向量的若干特征加入常用的关系抽取特征系统中,用于提升人物关系抽取系统的表现。3.以上方法都需要预先定义关系类型后进行关系抽取获得相应的关系实例。这些方法会限制了关系抽取模型可以获得的关系种类,无法得到新的关系类型的关系三元组数据。因此本文提出了一种不需要训练数据以及预先定义的关系类型的基于无监督学习的关系抽取方法。该方法首先从新闻标题数据获得关联度较高的人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据进行预处理后,利用TF-IDF得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络:最后,利用对关联网络进行图聚类分析以获得人物关系。