论文部分内容阅读
近年来,由互联网所产生的数据极具膨胀,在如此巨大规模的数据中,准确地获得想要的信息,成为人们日益追求的目标。如何能准确、智能地返回给用户,成为近年来研究比较广泛的一个研究点,问答系统能够以一定程度上的智能满足这一需求。传统的问答系统,是以问答对的形式将问题和答案组织成知识库,使用倒排索引等检索技术进行问句答案的查询。这种方式所检索的准确率较低,此外知识库问答对的来源成为此类问答系统最大的瓶颈。因此基于实体属性知识库的问答系统成为比较流行的问答系统的构建方式,这种方式特别适合用于人物关系领域。对于人物关系大多是在文本维度上的关系,对于人物相关事件的研究也相对较少。针对这一现象,本文提出一种针对人物相关事件和人物之间关系的抽取方法,从事件的粒度上进行人物关系的抽取。本论文的研究内容主要有以下四个方面,描述人物关系的事件词的抽取、基于弱监督学习的人物关系抽取、基于半监督学习的人物关系抽取、面向人物事件关系的问答系统的构建。首先面向小规模数据,分析语料的特点,构建初始启发式规则进行人物事件关系的抽取,并以此构建出人物关系类别体系。利用该类别体系对样本进行启发式标注,并以此来进行基于弱监督的人物关系抽取。基于弱监督的信息抽取存在训练集标注不准确的情况,继而提出基于半监督的人物关系抽取方法。半监督方法首先由人工标注一部分样本集,通过协同训练算法进行训练集的扩充,利用扩充的训练集进行模型的训练并抽取语料中的人物关系。通过这样的方法,能够一定程度上解决人物关系抽取任务在大规模语料中缺乏训练样本这一现状。最后将从大规模语料中抽取的内容构建知识库,并将其同问答系统相结合,构建一个面向人物事件关系的自动问答系统。本论文中实现了面向大规模异构信息的人物事件关系的抽取方法,以及将其同问答系统相结合的实现方案。实验结果表明,本论文中所提出的方法能够有效地从网页文本中抽取出人物事件关系,与其相结合的问答系统能够有效使用。