论文部分内容阅读
实体关系抽取在信息抽取研究领域是非常重要的课题。其应用领域广泛,特别是这几年随着互联网大发展,传统的基于关键字索引的搜索引擎已经渐渐无法满足用户日益提升的需求。知识图谱技术的提出,无疑为搜索引擎提供了一条新出路。而知识图谱的构建是建立在实体识别与实体关系抽取的基础之上,中文实体识别在早年已经较为成熟,因而实体关系抽取研究的意义就变得更加重要。传统的实体关系抽取都是采用规则匹配或者有监督的机器学习。虽然两种方法都具有较高准确性,但是由于上述两种方法都需要有大量的人工介入,并且领域通用性较差,因而不适合大规模的应用。所以近些年来半监督或者无监督实体关系抽取相继成为研究热点。国外半监督与无监督研究相对开展较早,提出了很多较为优秀的方法。相比之下,国内该领域由于中文语法的复杂性和与英文语法的区别性,国外的较多研究成果不具有借鉴意义。虽然近年来很多学者提出了多种中文实体关系抽取方法,但由于网络语言更新较快,不断有新的语言现象出现,且网络语言的语法较为随意,因而目前特征获取不准和精度低的问题依然存在。本文提出了一种在互联网开放式环境中,采用大规模语料抽取实体对关系的无监督方法。该方法同样是基于特征向量文本抽取的共同假设,即存在相同或相似关系的实体对,其上下文内容较为相近。基于此假设,实体对关系的抽取,就变成了实体对特征向量相似度的计算,然后再通过对相似实体对特征的聚类,提取出关键词描述该类实体对关系。本文的主要工作体现在三个方面:首先,在经典上下文窗口的基础之上,通过语料统计分析,提出了一种改进的弹性上下文窗口方法获取特征词。其次,本文引入互信息方法计算特征词权值,并针对互信息方法不足做出了改进。最后,提出了一种通过预聚类和采用标准分数的方法,改进经典k‐means在K值和聚类初始中心选择与孤立点处理上的不足。为了验证提出方法的有效性。在网络获取的语料上,对于几种不同的方案分别进行了区分实验。从结果上可以看出,本文提出的几种方法都能够有效提升实体关系抽取效果。