论文部分内容阅读
关系抽取技术能够从自然语言里抽取出具有某些关系的实体对,从而方便人们快速查找这些知识。同时,它能帮助人们将海量的文本信息中蕴含的关系自动抽取出来,重新构建成易于计算机理解的结构,增强人们组织分析信息的能力。 目前,关系抽取技术还没有完全成熟,本文综合当前研究成果,深入理解关系抽取问题的实质,充分调研相关领域的技术发展,提出了进一步改进半监督关系抽取问题的思路,并予以验证。本文的主要工作和研究成果包括: 第一,设计并实现了基于co-training的关系抽取改进算法。针对语义漂移问题,本文提出了评估中间产出实体对和模板语义漂移程度的计算公式,对于质量不高的实体对和模板进行过滤,从而确保算法迭代更加有效。这项改进使得算法能够迭代更多次数而且F1值提高了0.09。 第二,提出了word embedding的co-training关系抽取改进算法。关系抽取中充分利用特征信息是近些年研究者一直以来的工作重点之一,而深度学习在这方面具有非常强大的优势。本文将wordembedding以及其他语言学信息加入到模板之中,从而丰富了模板的表现力。深度学习技术的引进,使得co-training关系抽取算法性能有了进一步的提升,实验表明F1值提高了0.10。 第三,提出了一种基于核函数的co-training关系抽取改进算法。根据有监督算法和半监督算法各自的优点,本文首先利用co-training进行有效迭代产出大量的模板。然后,将这些模板作为训练集并使用基于核函数的SVM对其训练,形成半监督和有监督的级联系统。通过充分利用核函数,实验显示F1值再次提高了0.05。 最后,通过上述研究,搭建了一个在TAC会议中KBP任务的研究平台。该系统曾取得过这项任务的第一名。 本文的研究工作对于关系抽取提供了一些新想法和新思路,对于关系抽取的进一步发展具有一定的借鉴意义和参考价值。