论文部分内容阅读
网络信息的发展与语义搜索需求的不断增长,使得知识库的扩充成为自然语言处理研究领域的热点。实体链接正是知识库扩充的核心关键技术,是将文本中的实体指称表述项正确链接到知识库中实体的过程,具有重要的理论研究价值和实际应用价值。目前大多数实体链接技术处理的语言为英文,针对中文的研究仍处于起步阶段,造成这一现象的主要原因包括:(1)缺乏统一且权威的中文开源知识库和语料库;(2)中文的实体抽取技术受制于中文分词,并且中文的语义丰富、语法更加灵活,消歧难度比英文大,使得其仍然停留在命名实体的表述层面,不能很好地获取实体的语义信息。针对以上问题,本文以当前主流的英文实体链接技术为基础,结合目前中文的研究现状,提出了一种基于上下文的多特征图模型的解决方案。(1)选取中文维基百科作为此次实体链接任务的知识库支撑,并且从NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)在TAC(Text Analysis Conference,文本分析会议)的KBP(Knowledge Base Population,知识库扩充)子任务提供的官方评测数据中,抽取中文语料信息,构造语料库和实验数据集;(2)从实体指称表述项的上下文和维基百科数据库两个方面入手,充分抽取实体之间的多种特征并量化为语义相似度,然后将语义相似度融合到构建的图模型中,利用图模型的主题一致性的特点,对候选实体进行排序,完成实体链接,达到提高中文分词的准确性和增加实体语义信息的目的。为了验证本文方法的性能,采用重现目前最新的中文实体链接的方法,实验结果表明,本文提出的方法可以有效提高实体链接的准确率和效率,取得了较好的整体效果。