论文部分内容阅读
随着计算机的广泛普及和互联网的飞速发展,现实世界的信息呈指数级增长。一个需要迫切解决的问题就是如何从这些海量的信息中获取出人们所需要的特定信息。关系抽取是信息抽取领域中一个重要的研究方向,自动识别出用自然语言表的两个实体之间的关联信息,例如“蒂姆·库克是苹果公司的首席执行官”,人物实体“蒂姆·库克”和组织机构实体“苹果公司”之间存在雇佣关系,即“蒂姆·库克”是“苹果公司”的雇员,担任首席执行官的职位。
该文利用半监督学习算法进行中文关系抽取研究。为表征实体关系的实例,结合特征向量和树核函数两种方法:特征向量表征了实体关系的语言信息,而树核函数表征了实体关系的结构信息。采用自训练、互训练和标签传播半监督学习算法进行中文关系检测和类型识别。针对语料中存在缺失关系类型的问题,提出了基于半监督学习的中文关系类型发现模型。下面针对中文关系检测和识别与中文关系类型发现两个角度进行深入的分析:
1)利用半监督学习方法进行中文关系检测和类型识别。语料中非关系实例所占的比例达到了95%。为了防止出现太多的噪音,首先进行关系检测,过滤非关系实例,结合实体对上下文和对应的词性、两个实体的类型和子类型以及两个实体的位置关系等特征以及结构化特征,利用自训练、互训练、标签传播算法等半监督学习算法对候选关系实例进行关系检测工作。然后利用对应的半监督学习算法在候选关系实例上进行关系类型识别。在ACE2005中文语料上的实验结果显示,在关系类型识别上半监督学习算法取得了良好的效果。
2)针对语料中存在缺失关系类型的问题,提出了基于半监督学习的中文关系类型发现模型。首先采用半监督学习对候选实例进行学习。然后,利用聚类的方法对剩余的候选关系样例进行聚类分析。结合关系的语言信息和结构化信息,在ACE2005中文语料的六大类关系类型进行实验,实验结果表明,基于半监督模型的关系类型发现可以取得理想的实验结果,并且针对六大类关系类型的关系样例数目不均所造成的实验结果差异进行了统计和分析。