论文部分内容阅读
词义消歧是自然语言处理中的基础性研究课题,而命名实体消歧是词义消歧的一个重要分支。命名实体的歧义是指一个命名实体的指称项可以对应多个实体概念。命名实体消歧指利用文本上下文信息或者其它外部知识库,确定这个指称项具体指向的实体概念的过程。现有的命名实体消歧研究主要是面向英文命名实体的,在中文领域中,针对命名实体消歧的研究起步较晚,研究成果也很少。目前命名实体消歧的主要方法有基于上下文的文本向量聚类方法,基于社会网络的方法和基于分类的方法。传统的利用待消歧实体上下文的向量空间聚类方法只考虑了命名实体上下文之间的词语共现情况,而忽略了文本间词与词之间的关联度以及相互的语义关系。基于社会网络的方法与基于分类的方法都依赖于外部知识库,因中文的知识库相对英文来说比较匮乏,且相对覆盖面太小,对于消歧的领域也相对狭窄。针对汉语命名实体消歧研究的不足与传统方法的缺点,本文提出了基于中文维基百科的命名实体消歧方法。维基百科(Wikipedia)是目前世界上最大的也是使用最广泛的人类百科全书,它拥有多个国家语言的版本,更大的覆盖率,丰富的语义知识和随时更新的内容。在详细地介绍了中文维基百科的体系结构后,本文分别利用中文维基百科中的页面信息与语义关系两种特征来进行汉语命名实体的消歧。在基于中文维基百科页面信息的消歧方法中,以待消歧实体在维基百科消歧页中包含的词义选项作为候选的命名实体概念,利用维基百科解释页面中的链接与摘要信息作为候选概念的维基特征,利用命名实体上下文信息作为文本特征,并通过余弦相似度计算得到与待消歧实体文本特征最相似的候选概念。在基于中文维基百科语义的消歧方法中,在通过维基百科消歧页提取出候选的命名实体概念后,利用中文维基百科中的类别结构与页面之间的链接关系之间包含的广泛的语义关系,分别提出了计算待消歧实体与候选概念文本中的类别相似度与词语之间的相关度两种不同的消歧方法,来确定待消歧实体最终的实体概念。在介绍了方法后,分别使用CLP-2012会议提供的测试语料和维基官网下载的数据库文件对本文提出的算法进行了实验,并对测试结果进行了分析。实验结果表明,本文方法对汉语命名实体消歧是可行和有效的。