论文部分内容阅读
我们生活在信息时代,但是从中获取有用和结构化的知识并非易事。近期的研究估计,人类已经存储了超过295艾字节(295*1018字节)的数据。大部分的文本数据以非结构化形式存在,如新闻文章、论坛与留言板、电子邮件、社交网络状态更新,和近十亿计的网页。如何有效的利用人类所产生的数据,进行深度数据挖掘与文本理解有重要意义,这些数据可以用于强化搜索结果、知识图谱补全,自动问答系统等。为了在信息中提炼出知识,本文研究了从海量非结构化文本进行关系抽取的方法,并提出了基于弱监督与表示学习的实体关系抽取方法,主要完成了以下几方面的工作:1.针对弱监督学习会引入噪声的问题,本文提出了基于模糊分类的多实例多标签学习算法。针对某个特定实体对,将多种关系和多个样本整合起来一同学习,并通过模糊分类的方法聚合句子级特征。相比其他弱监督学习方法,本文提出的方法能够提升2%以上的fl值。2.提出了基于词向量和循环神经网络进行自动特征抽取的方法。传统的特征抽取方法依赖人工经验与知识,并且是针对特定问题的设计,扩展性不强。神经网络能够自动进行特征抽取,分层对原始文本进行处理,并且不需要进行预处理。实验证明利用不同神经网络产生的特征,都对系统性能有一定提升。3.设计并实现了基于弱监督和神经网络特征提起的实体关系抽取平台。该实验平台整合了多项工具,包括文本检索、文本分析等,能够利用知识库对文本进行自动标注,学习关系抽取模型,最后输出关系抽取结果。在LDC与New York Times数据集上,本文提出的方法较传统方法,均有一定的效果提升。综上所述,本文提出的方法能够有效提升实体关系抽取系统性能,利用弱监督扩展了学习语料,通过表示学习增强了系统在不同领域的扩展性,同时能够减少预处理工作。这些内容对于关系抽取研究有一定的贡献与参考价值。