面向多源百科的实体匹配技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,互联网上的信息呈现出爆炸式增长,这给信息检索带来额外的成本与负担,为此人们从中清洗出知识并构建出知识库。目前已有的知识库,包括DBpedia,YAGO等,绝大部分都是基于英文维基百科或者其他英文语料建立的,因此中文知识库的构建迫在眉睫。实体匹配作为构建知识库的重要一环,在一定程度上决定着知识库的质量,是一项非常有意义且具挑战性的工作。  本文的工作主要包括中文百科实体匹配和中英文跨语言实体匹配两部分,分别如下所述:  1)中文百科实体匹配:以三大中文百科(百度百科,互动百科,中文维基百科)为基础,从中选择实体匹配文档候选集,提取候选集中两两文档之间的相关特征并计算相似度,构建相似度权重图。在图上添加相关约束,定义目标函数,构建混合线性规划模型。最后求解该模型,并以图的连通性来表示实体匹配的结果。本方法通过引入实体匹配文档候选集,大大减小了问题的规模;同时又通过构建混合线性规划模型,提高了实体匹配的准确率。在本文的实验中,实体匹配方法效果良好,达到了75.8%的查准率,82.5%的查全率和92.5%的准确率。  2)中英文跨语言实体匹配:以维基百科已有的中英文跨语言链接为基础,本文将中英文知识库中新跨语言链接的查找问题建模为排序问题。首先为一个中文实体寻找它的英文跨语言实体候选集,再通过手工特征提取、主题模型、深度学习的方法,为中文实体和它候选集中的每一个英文实体提取特征,最后将所有特征以一定方式拼接为一个长向量,用排序学习的方法去发现新的跨语言链接。在中英文维基百科上的实验表明,我们的方法取得了良好的效果。
其他文献
因特网协议第6版(Internet Protocol version 6,简称IPv6)是目前广泛使用的被称为"因特网基石"的因特网协议第4版(Internet Protocol version 4,简称IPv4)的新版本,它是为了
学位
工作流技术为企业的经营过程提供了模型建立、运行、分析的完整框架,将工作分解成任务、角色,按照一定的规则和过程来执行这些任务,并对它们进行监控管理,它是企业过程管理、过程
真实感面部合成是计算机图形学中最困难的问题之一。自从70年代Parke提出了世界上第一个人脸合成系统以来,对于计算机图形学领域的研究者来说,具有真实感的人脸合成就一直是一
在计算机新的应用领域以及管理信息系统、办公自动化等传统应用领域中,面临的共同问题是大型工程复杂数据的管理问题。单纯依靠传统的数据库系统是难以胜任的。因此,把先进的面
为了解决星载系统软件每次开发都需要重新设计硬件系统和软件系统,开发周期长,代码利用率低,安全性难以保障的问题,提出了一种星载系统软件可重用的结构设计方法,软件结构采用模块
该文论述了虚拟博物馆三维室内浏览人机交互系统,这个系统可以使用户方便的参观浏览虚拟博物馆,了解展品的各种相关知识.该文详细表述了系统中交互任务部分的设计与实现,利用
Java 是一项日趋成熟的技术,它从作为一种基于浏览器的脚本编制工具的商业起源演进而来.随着Java应用的普及与学入,对于安全问题,已经受到了越来越多人的重视.该文对于上述Ja
现代工业产品研发过程中,对设计产品进行有限元仿真分析是验证产品有效性的重要手段之一。在产品模型进行有限元仿真分析前,通常需要对其进行细节特征抑制和降维等简化以提高后
本文给出一个数据可视化系统的设计与实现方法,系统实现的环境是由多台indigo2和indy工作站组成的机群系统和以美国Oak Ridge国家实验室和Tennessee大学开发的基于消息传递模