基于维基链接共现的短语消歧

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wscmjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基化(Wikification)是将纯文本文档中的短语链接到相应的维基百科文章,以表现短语正确语义的过程。维基化可以被视为更一般的单词语义消歧问题,它在对单一单词消歧的同时,也进行多单词短语的消歧。之前的维基化工作或者将待消歧短语的上下文和维基百科文章通过词袋模型建立词袋向量,然后计算上下文和维基百科概念的相似度;或者根据维基百科文本中的链接结构或链接分布计算维基百科概念间的全局约束。对于前者,多单词短语本身的语义和组成它的各个单词间的语义往往是有区别的,而且这些单词自身也带有歧义,所以基于词袋模型的方法不能达到很好的消歧效果;而对于后者,因为维基百科页面中的链接是比较稀缺的,通过原始的维基百科文本获取的链接结构或者链接分布常常带有偏差或者不完整,这导致基于全局约束的方法也不能获得很高的准确率。在本文中,我们将论述一个基于维基百科文本中维基百科链接共现信息的简单而又强大的语义消歧框架。我们提出了一个迭代的算法为链接稀缺的维基百科文章添加更多的链接,并使用最终生成的链接共现矩阵通过滑动窗口算法为输入文档作语义消歧。我们的原型系统在三个基准测试数据上达到了平均89.97%的准确率和76.43%的召回率,与四个最新的维基化工作相比更具有优势。
其他文献
作为金融货币识别设备之一的纸币识别器已广泛应用于各种交易场合。但随着金融行业的发展,原有的基于单片机裸机的纸币识别器在应用中己面临着新的问题。 本文首先分析了
Internet的飞速发展和数据库技术的成熟,造成了”数据冗余,信息贫乏”的局面;数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的
在计算机软硬件技术飞速发展的今天,单芯片具有的处理数据的能力及对外部资源的支持能力已经达到了前所未有的高度,嵌入式系统的迅猛发展就是一个鲜明的例子。随着嵌入式系统及
本文讨论了广义LS(GLS)码在QS-CDMA系统中的优化问题,大区域同步CDMA(LAS-CDMA)的优化问题,以及提出了一种基于互补序列集的广义多不相关基LS(GMLS)码的设计方法。 基于LS
随着无线通信业务的蓬勃发展,流密码算法的设计与分析再一次成为各国学者研究的热点。3GPP从1998年就开始为无线通信选择加密标准。ECRYPT在2004年启动eSTREAM项目,最终选出了
随着Internet的迅猛发展,人们已经不满足于在网络上传输简单的文本图像信息,更加丰富的多媒体信息,特别是连续的媒体内容(视频和音频)已经开始在互联网上普及。通过网络传输连续
业务过程管理作为一种提高企业业务过程效率的方法,受到越来越多企业的重视。新的业务过程一旦建立,需要信息系统的支持来完成过程管理和过程执行。工作流管理系统作为支持业
传统的数据库安全研究主要集中在如何进行防御上,如认证、加密、访问控制、防火墙、入侵检测等,其目标是建立更加安全的数据库系统。其缺陷是不能有效抵御所有入侵,对于内部攻击
随着计算机教育的发展与普及,大中专院校都建有自己的计算机机房提供学生上机实践,特别是各机房在课余时间大部分对学生开放,提高了机器的使用效率。但从管理角度来看,目前大多数
随着计算机技术和人工智能研究的迅速发展,图像特征信息提取技术的研究在数字图像处理领域显得愈加重要。在图像众多的特征中,代表图像局部结构的特征点起着独特的作用。在图