海量科学文献中知识检索与推理的融合

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:flysnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网知识表示相关研究的进展,特别是链接数据项目及相关数据集的发布,使得人类知识库达到了前所未有的规模。从网页中提取结构化知识的研究更促进了人类知识库向“万维网规模”发展。检索与推理是知识处理的两种重要手段,而知识规模的海量性为这两种手段提出了巨大的挑战:   1.对于检索:由于万维网用户背景及需求的差异,对于同样的查询输入,不同的用户可能期望得到更适合自己需求的结果。传统知识检索系统难以满足上述需求,特别是在海量知识库背景下。   2.对于推理:由于万维网海量知识库存在规模大、不完备、动态变化的特点,传统方法的假设(如小规模的事实与公理集、推理规则的完备性、知识源的静态性等)使得在万维网海量知识库上有效推理十分困难。   本文围绕以上问题,提出了知识检索与推理的双向融合方法与具体策略,并以万维网上科学文献知识库为背景进行了验证,具体研究内容概括如下:   1.知识检索与推理的融合框架:在海量信息与知识处理的已有研究成果中,曾提出通过逻辑改善检索,以及通过搜索改善推理的思想。以上两种思想缺乏具体的实现策略与在实际问题求解中的验证,且相关的方法强调单向的改善。本文在结合以上两种思想的基础上研究了知识检索与推理的双向融合框架。   2.万维网知识结构及组织方法:本文以概念及其关系为基础,对知识结构的基本组成与定义进行了论述,并在此基础上研究了集成万维网分散式知识源的方法。结合粒度理论,本文研究了两类万维网知识组织方法,并讨论了针对不同知识组织方法生成的知识结构的基本操作与运用。   3.研究兴趣的测度及其结构与动力学特性:为了在动态变化的知识源中追踪用户研究兴趣的变化,本文研究了量化刻画研究兴趣的测度方法。为了深刻认识研究兴趣的特点,本文依据复杂网络与人类行为动力学理论,对研究兴趣的结构及其动力学特性进行了探索与分析。   4.知识检索与推理的融合方法与策略:本文依据研究兴趣的结构与动力学特性,从不同角度(如累加兴趣、保留兴趣、兴趣时延等)量化衡量科研人员研究兴趣,并将其作为融合知识检索与推理的依据。受粒计算理论“多层次、多视角的结构化问题求解”思想的启发,本文研究了运用知识结构的粒化组织及问题求解的粒化思想解决知识处理中规模问题的具体策略。   本文的主要贡献体现在以下几方面:   1.为应对知识处理的规模瓶颈,提出了以用户为中心的知识检索与推理双向融合框架。该框架强调融合的双向性,即:在检索过程中,以用户兴趣之间的差异为出发点,通过与兴趣相关的推理改善检索;在推理过程中,通过检索与用户兴趣相关的知识源子集,减少与查询及用户需求无关的推理。此外,该框架还通过用户反馈指导检索与推理进行更为交互式的、贴近用户需求的融合。   2.结合信息表、粒逻辑及万维网知识表示语言的表达能力,提出了粒化知识结构并探讨了其多层次、多视角的组织方法,为融合知识检索与推理提供了可行的依据。在粒化知识结构的基础上,针对万维网知识源的分散性,提出了通过多种基本运算用于集成知识源,讨论了由此产生的知识结构在海量知识处理中的潜在意义。   3.为追踪科研人员研究兴趣及动态变化过程,提出了具体测度方法,特别是针对捕捉近期兴趣,受人类认知记忆理论启发,提出了类似记忆保持的保留兴趣模型。采用复杂网络与人类行为动力学理论,部分揭示了研究兴趣的结构与动力学特点,特别是兴趣分布、兴趣时延遵循幂律的结论为基于兴趣融合知识检索与推理提供了理论保证。   4.根据以上有关用户兴趣及知识粒化组织的研究成果,提出了基于兴趣及基于粒度两种融合检索与推理的具体方法。基于兴趣的融合方法包含两种策略,即基于兴趣的查询优化策略和基于兴趣的子集预选查询策略。这种方法在检索与推理的融合过程中从不同角度(累加兴趣、保留兴趣、兴趣时延角度等)融入用户背景,使得知识处理的结果更贴近特定用户。基于粒度的融合方法包含起始点策略、多层完备度策略、多层特定度策略、多视角策略、及不同策略的融合。该方法以不完备知识处理为背景,运用知识源的粒化组织特点减少知识处理的开销,并为从不同层次和视角满足用户需求提供了可行的方法。   本文提出的方法与策略为实世界应用中突破知识处理规模瓶颈提供了可行的参考,为实现以用户为中心的海量科学文献检索系统提供了实践基础。虽然本研究以科学文献知识库为背景,但是所提出的方法与具体策略的应用并不限于这个领域。相关方法对于解决新闻、博客系统及通用万维网知识搜索引擎中知识源的规模、用户需求个性化的问题也具有一定参考意义。
其他文献
随着计算机和互联网技术的快速发展,以及图像采集设备的广泛应用,数码图像的数量呈现爆炸式的增长。在数量巨大的图像中存在大量近相似的图像,近相似图像的检索具有广泛的应
随着信息时代的到来,不管采用何种方式获取信息,都面临数据的高维、非线性等难题。如何从这些数据中找到蕴藏的规律是目前迫切需要解决的问题。虽然一些传统的线性维数约简方
随着信息时代的到来,特别是Internet的普及,使得世界范围内的数字化产品的发布和传输变得越来越便捷和频繁,信息的安全保护问题也因此日益突出。数字产品很容易被非法编辑、
聚类是数据挖掘领域中的一个重要研究课题,目前己存在很多经典的聚类算法,但没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构。
基于构件的开发过程规范是目前在中小型软件企业普及构件化软件开发技术的关键,目前还没有适合于中小型软件企业发展的软件开发规范,加之当前没有一种统一的基于构件的开发过
随着我国城镇化发展水平的不断提升,车辆越来越多地服务于我们的日常生活。车辆在方便我们生活的同时也带来了一些问题,例如人工管理的效率低下、如何快速准确处理交通违章等
随着半导体技术以及集成电路技术的飞速发展,单个芯片中IP(Intellectual Property)核数量越来越多。当单个芯片上集成的IP核数日达到成百上千的时候,基于片上总线的SoC(SystemO
颜色是人类最敏感的视觉刺激,影响人们的情感,引起人们心理和生理反应,影响人们生活中的各个方面。因此系统地颜色-情感研究具有重要的理论和现实意义。本文通过设计颜色-情感的
空间聚类是空间数据挖掘的一项重要研究课题,空间聚类就是根据相似性对空间对象进行分组,使得每一个簇中的对象有非常高的相似度,而不同簇中的对象尽可能不同。空间聚类在地
Ad Hoc网络作为一种新型的无线网络,在日常生活中有着重要的应用,同时有着重要的科学研究价值。随着对Ad Hoc网络研究的不断深入,安全问题日益成为威胁其发展的重要瓶颈。在A