论文部分内容阅读
维基化(Wikification)是将纯文本文档中的短语链接到相应的维基百科文章,以表现短语正确语义的过程。维基化可以被视为更一般的单词语义消歧问题,它在对单一单词消歧的同时,也进行多单词短语的消歧。之前的维基化工作或者将待消歧短语的上下文和维基百科文章通过词袋模型建立词袋向量,然后计算上下文和维基百科概念的相似度;或者根据维基百科文本中的链接结构或链接分布计算维基百科概念间的全局约束。对于前者,多单词短语本身的语义和组成它的各个单词间的语义往往是有区别的,而且这些单词自身也带有歧义,所以基于词袋模型的方法不能达到很好的消歧效果;而对于后者,因为维基百科页面中的链接是比较稀缺的,通过原始的维基百科文本获取的链接结构或者链接分布常常带有偏差或者不完整,这导致基于全局约束的方法也不能获得很高的准确率。在本文中,我们将论述一个基于维基百科文本中维基百科链接共现信息的简单而又强大的语义消歧框架。我们提出了一个迭代的算法为链接稀缺的维基百科文章添加更多的链接,并使用最终生成的链接共现矩阵通过滑动窗口算法为输入文档作语义消歧。我们的原型系统在三个基准测试数据上达到了平均89.97%的准确率和76.43%的召回率,与四个最新的维基化工作相比更具有优势。