语义桌面搜索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yu0426
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的不断普及以及硬盘技术的迅速发展使个人计算机中的文档数量以惊人速度增长。如何有效地管理和利用这些文档,是需要解决的重要问题。近年出现的基于全文索引的桌面搜索工具在一定程度上可以解决部分问题,但是这些工具无法提供语义级的搜索服务,为用户找出那些与查询有着潜在关联的桌面资源。语义桌面概念的提出为解决桌面资源的管理问题创造了契机,它试图将语义网中的多种技术移植到个人计算机中,增强桌面管理的功能。  目前,国内外对语义桌面技术的研究还处于个案处理的初步阶段,并未形成通用的解决方法。在综合阅读国内外相关参考文献及分析研究现状的基础上,对语义桌面搜索中的若干关键技术进行了分类研究,包括元数据提取、无结构文档信息提取、桌面检索模型和检索结果排序等。  当前语义桌面的元数据处理方案只包含了与桌面文件静态属性相关的元数据,不能反映用户行为与文档之间的关系。为此,提出一种基于用户行为的动态元数据提取方案,该方案充分考虑桌面环境中与用户行为相关的桌面上下文,如电子邮件、文件目录、浏览器缓存等。同时,通过对用户隐反馈的分析来对上下文进行探测划分。创建元数据生成器,以本体的形式将桌面元数据保存在个人计算机中。  已有的语义桌面系统对无结构文档的处理能力较弱,其根本原因是难以从无结构文档中提取有效信息。在传统信息提取技术的基础上,给出了一种基于本体的无结构文档信息提取方案。该方案首先对文档建立本体加以描述,然后分析本体中实体之间的多种潜在关系,如文本相连关系、文本共存关系、高频率实体等,通过分析这些关系来确定各候选实体的匹配系数,从而确定被识别实体,并以XML的形式输出。实验表明,该方法能获得较高的识别率和准确率。  要对桌面文档进行搜索,需要某种信息检索模型来支持,而信息检索模型一直都是信息检索领域的重要研究课题。在对传统向量空间模型研究的基础上,设计了一种基于本体的语义信息检索模型,其工作重点包括:语义项权重的设计,各关键字之间的语义关系分析,以及语义特征向量之间的相似度计算策略等。在模型中,通过概念连通图对不同语义项之间的关系进行了重新考量,并将语义相似度的计算分为概念相似度和属性相似度两个方面,综合考虑了二者在语义检索中的作用,改善了检索效果。  对检索结果进行排序是文档检索的一个重要步骤。在对现有的Web排序算法和模式图理论研究后,提出一种基于权威传递的检索结果排序方法。该方法利用本体描述文档之间权威传递的模式,通过设定不同的传递系数,反映出文档之间的不同连接线索对文档联系紧密程度的影响。实验结果表明,该方法可将重要程度高的结果优先返回,并有效地体现出文档对象之间的关联关系。
其他文献
随着国内经济和网络应用技术的快速发展带动了网络游戏迅速发展,网络游戏用户规模也不断扩大,对游戏资源的需求也越来越高,因此产生了一系列的问题,如网络瓶颈、扩展性差、服
土壤墒情即土壤中的水分含量,制约着土壤中养分和矿物质的溶解以及转移,对作物的生长有着至关重要的作用,只有及时准确的掌握土壤水分盈亏状况才能及时排涝灌溉,保证作物的正
基于信号的稀疏性,压缩感知方法能够同时完成传统的信号获取中采样和压缩的两个过程,从而突破了传统奈奎斯特采样定理的限制,使得信号的采样率、采样时间以及存储成本大大降
随着计算机应用的日益普及和深化,计算机软件的数量急剧膨胀,软件规模十分庞大。然而,软件的在开发和维护过程中的一些模糊或错误做法和概念,致使很多项目不幸夭折,其中很多
信息是当今人类社会的重要资源,它必然要面对各种各样的安全威胁。在我们越来越依赖于信息技术的同时,信息安全的问题也日益突出。信息安全已经成为当前研究的热点课题,作为信息
随着数字网络通讯的飞速发展以及数字多媒体的广泛应用,对数字产品版权保护的需求也日益迫切。数字水印技术已经成为用来解决数字多媒体中版权问题和内容认证的主要工具。本
Internet技术的发展、移动设备的普及以及微博、微信等应用的兴起促进了网民对Web新闻的接触度,碎片化时间阅读Web新闻已经成为了Web用户的主要活动之一。然而,Web新闻网页中
本文探讨了中美关系正常化中的台湾问题,指出20世纪60年代末、70年代初,中美基于共同的战略利益,在台湾问题上达成了妥协和谅解,实现了关系正常化.
随着的Intemet飞速发展,人们利用Intemet发展和共享各种信息,使得信息爆炸式增长,普通网络用户查找所需资料变得非常困难,搜索引擎正是为了解决这一问题而发展起来的。而现在的搜
在传统的信息检索方式下,由于信息资源缺少统一的语义描述,用户难以快速查找到与需求相关的资源,难以实现信息资源的语义共享。如何使信息资源具有应用程序可以理解的含义,并根据