知识库事实关系与分类体系自动扩充方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ahanyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络大数据时代的到来,知识库作为对网络数据进行存储,组织和管理的一项重要技术,其数量和规模也空前地增加。一方面,知识库的快速增长将越来越多的知识存储到计算机中,让用户能更加便捷地搜索到需要的知识;另一方面,大规模知识库的构建依赖于人力。受限于知识库构建者知识和精力的局限,大部分知识库中存储的知识都是不完善的。为了在节省人力资源的前提下,为用户提供信息更完善的知识库,我们需要知识库具有自动扩充的能力。本文主要研究知识库中事实信息与分类结构的自动扩充问题,事实信息是指知识库中实体与实体之间的事实关系,而分类结构则是指知识库中实体与类别,类别与类别之间的上下位关系。传统的知识库自动扩充方法主要关注单个知识库事实信息的自动扩充,而对跨知识库的扩充,以及知识库的分类体系自动扩充的研究相对较少。本文针对知识库自动扩充方法研究相对薄弱的领域,主要做出了如下贡献:  1)在跨知识库事实关系的自动扩充方面,本文提出了一种跨知识库的表示学习方法。利用一个稠密知识库帮助一个稀疏知识库进行表示向量学习,训练获得的表示向量能够更准确地表示稀疏知识库中实体与关系的语义,弥补了传统表示学习方法在稀疏知识库上不适用的局限。实验证明,该方法不仅提升了事实关系扩充的效果,训练获得的表示向量还可以支持跨知识库实体对齐和跨知识库事实关系扩充等新任务。  2)在知识库分类体系自动扩充方面,针对传统方法仅利用文本模式(textual pattern)提取上下位关系低准确率和低召回率的问题,本文提出了一种将粗粒度类别划分为多个细粒度子类别的方法,从而完成对维基百科层次分类体系(taxonomy)的自动扩充。该方法从维基百科的信息框中挖掘一个给定的粗粒度类别可能的划分属性,并提出使用划分率(diffusing ratio)来评价每个可能的划分属性用于将该粗粒度类别划分为多个细粒度子类别的合理性。相比传统方法,该方法在分类体系扩充这一任务上提供了全新的思路,并取得了较好的效果。  3)在知识库分类体系自动扩充方面,本文提出了一种基于表示学习的标签分类体系(folksonomy)自动扩充方法。该方法利用电影-标签对信息和电影的三元组信息,学习得到实体和标签的表示向量,避免了训练数据不足的电影上表示学习的冷启动问题。通过将实体归入与其距离较近的标签下,发现实体潜在的标签类别,从而完成标签分类体系自动扩充的任务。本文将该方法运用到已有系统中,通过典型案例证明了方法的实用性。
其他文献
负载均衡技术是实现虚拟服务器系统的一个关键技术,它建立在现有部件、网络结构之上,能够充分发挥各个部件的作用,提供一种廉价而又有效的方法提高网络数据处理能力、扩展服
决策支持系统(Decision Support System,简称DSS)是计算机管理信息系统(Management Information System,简称MIS)发展的崭新阶段。DSS为管理者和决策者提供信息,帮助其做出重大
学位
为了使基于角色访问控制模型能够应用于分布异构系统,必须解决角色的分散化和对分散角色层次结构维护的一致性问题.将角色层次结构中的角色分散化,即要将NTree中的角色分散化
由于SVG是新推出的标准,目前的SVG的编辑工具很少,特别是在行业用图上,可以说没有合适的工具.而基于SVG的矢量图形编辑系统就是一种可视化编辑SVG行业用图的工具.通过把基本
随着通信技术的发展,电信新业务的发展越来越快,能够方便地增加电信新业务的智能网技术也发展迅速.同时,移动通信技术在全球范围内发展迅猛,移动语音业务用户数迅速扩大.随着
该文通过扩展基于P2P模式的JXTA协议集来实现改进的连接机制并成功开发了P2P信息交换和共享系统,利用成员资格服务策略限制和确认加人对等实体群的对等实体身份.使用双向单播
时空数据库管理系统是管理既具有时间属性又具有空间属性的数据集合的数据库管理系统.近年来,随着GPS、GIS以及环境数据管理系统等技术的应用和发展,时空数据库管理系统逐渐
入侵检测是一种新兴的网络安全技术,专门用于检测发生于内部网络的恶意行为,它能与防火墙相互配合工作,防止网络从内部被攻破,为网络提供全面的防护,研究入侵检测技术十分必要。 
本文基于动态模糊逻辑理论,针对多Agent系统中在对抗和非对抗环境中的工作机理,建立了多Agent基于对抗和非对抗环境的协调工作模型,主要包括如下几个方面的工作: (1)基于让步