论文部分内容阅读
随着计算机在各个领域的广泛普及和Internet的迅猛发展,现实世界中的信息量呈指数级增长。如何从这些海量信息中抽取人们所需要的特定信息成为一个迫切需要解决的难点。关系抽取(Relation Extraction)是信息抽取领域一个重要的研究方向。关系抽取是指自动识别用自然语言表达的两个实体之间的关联,例如“比尔·盖茨是微软公司首席软件架构师”,在这个句子中,人物实体“比尔·盖茨”和组织机构实体“微软公司”之间存在雇佣关系,即比尔·盖茨是微软公司的雇员,担任首席软件架构师的职位。
该文描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能。该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息。我们从有监督学习和无监督学习两个角度解决该问题,下面就这两个角度进行深入的分析:
1)从有监督学习角度来分析,通过对语料的统计,非关系实例所占的比例达到了95%。为了防止出现太多的噪音,本文首先过滤非关系实例,结合实体对上下文和对应的词性、两个实体的类型和子类型以及两个实体的位置关系四个特征,利用SVM分类器对候选关系实例进行二元分类,在ACE2005语料上的实验结果显示,关系检测的F值达到了96.83%。然后,利用上一步得到的候选关系实例集合,结合语言和结构特征,利用多元分类的方法进行关系类别的识别。实验结果显示,在6大类上,F值达到了74.10%,取得了良好的效果。
2)从无监督学习角度来分析,其不需要大量的标注语料,节省了大量的人力物力。这也是未来研究的发展趋势,能解决标注语料不足的问题。目前在中文关系抽取的研究主要集中在有监督学习及半监督领域,本文首次尝试采用无监督方法。结合语料本身和中文关系类别识别的特点,本文提出了XLS-means的聚类方法,结合语言和结构特征,对候选关系实例进行聚类,在6大类上,F值达到了35.08%,优于其他聚类算法。