论文部分内容阅读
实体连接是数据挖掘领域中一个非常热门的课题,这个任务的目的是将给定文本中提到的实体,也就是一些概念如人物时间地理等,连接到给定的目标知识库中。它和传统的命名实体识别不同,后者只是为了识别出特定类型的实体,并不存在目标知识库,所以并不能提供识别实体的具体信息。一个优秀的实体连接系统或算法可以给文本自动标注,文本结构化等任务提供非常方便的自动化帮助。本文提出了一个基于领域的主题模型的实体连接算法,以Zhishi.me作为目标知识库。本文通过抽取特定的领域,并利用主题模型去捕捉领域相关的文本的语义特征。在此基础上,为了克服领域不全和同义词不全的问题,本文分别提出了基于知识库结构化信息的领域扩充算法和基于共现图的同义词查找算法,提升了领域模型的广度和同义词匹配的准确度。进一步,将这些算法在手工标注的新闻和微博数据集上做了较全面的实验,得出的实验结果效果比较好,可以说明本文方法的有效性。另外,本文还实现了一个演示系统,用户可以向Web服务器提交请求,并得到对应的实体连接结果。