论文部分内容阅读
信息抽取技术自动将无结构文本转化为有结构文本,既可以自成系统满足人们的强烈需求,同时还是其它应用如信息检索、文本分类、自动问题回答等的重要基础技术。实体关系抽取是信息抽取技术中的重要环节,正成为越来越热门的研究课题。中文实体关系抽取工作尚处于起步阶段,还有大量的工作需要完成。本文针对中文实体关系的特点,设计了一系列的特征,包括词、词性标注、实体属性和提及信息、实体间交迭关系和知网提供的概念信息等,以构成实体间关系的上下文特征向量并使用SVM分类器进行中文实体关系抽取。以ACE2004的训练语料作为实验数据,得到了较好的识别性能。同时根据分级实验的结果,详细考察了各种特征集和不同训练样例数目对中文实体关系性能的影响。实验结果表明:不同细化程度的任务应该选取不同抽象程度特征集组合。其中词性特征集较适合关系发现任务,知网概念特征集较适合关系大类和子类识别任务,词特征集是最基本特征集,实体间交迭特征集对抽取性能贡献最大。训练语料库规模的增加可以提高识别性能,开发较大规模的训练语料库对使用SVM分类器是很有必要的;但当语料库达到一定规模后,语料库规模的增加对性能的影响变弱,这时则应该把主要的注意力放在特征集构造上。在上述研究的基础上,针对SVM对大规模训练语料库的依赖,将半监督学习方法TSVM引入到中文实体关系抽取工作中。实验结果显示,在训练向量数目非常小时TSVM的性能远远超过SVM,但在训练向量数目较大后,TSVM的性能反而不如SVM。在关系发现这样相对简单的问题上,TSVM分类器仅使用少量标注语料和大量未标注语料,就可以得到不错的性能,降低了抽取系统的成本、改善了其可移植性;但在更复杂的关系类别识别问题上,TSVM分类器的性能仍不甚理想,应该考虑更多其他的半监督学习方法。同时本文研究并实现了TSVM多分类器构造。进一步的工作包括两个方面,一是改善现有的特征集如将更多的特征如组块识别、知网概念结构等加入到特征集以提高关系抽取性能和进行更精确的参数选择,二是定量研究标注数据的选择对性能的影响以及SVM和TSVM要求的标注数据规模规律。