论文部分内容阅读
计算机技术的不断普及以及硬盘技术的迅速发展使个人计算机中的文档数量以惊人速度增长。如何有效地管理和利用这些文档,是需要解决的重要问题。近年出现的基于全文索引的桌面搜索工具在一定程度上可以解决部分问题,但是这些工具无法提供语义级的搜索服务,为用户找出那些与查询有着潜在关联的桌面资源。语义桌面概念的提出为解决桌面资源的管理问题创造了契机,它试图将语义网中的多种技术移植到个人计算机中,增强桌面管理的功能。 目前,国内外对语义桌面技术的研究还处于个案处理的初步阶段,并未形成通用的解决方法。在综合阅读国内外相关参考文献及分析研究现状的基础上,对语义桌面搜索中的若干关键技术进行了分类研究,包括元数据提取、无结构文档信息提取、桌面检索模型和检索结果排序等。 当前语义桌面的元数据处理方案只包含了与桌面文件静态属性相关的元数据,不能反映用户行为与文档之间的关系。为此,提出一种基于用户行为的动态元数据提取方案,该方案充分考虑桌面环境中与用户行为相关的桌面上下文,如电子邮件、文件目录、浏览器缓存等。同时,通过对用户隐反馈的分析来对上下文进行探测划分。创建元数据生成器,以本体的形式将桌面元数据保存在个人计算机中。 已有的语义桌面系统对无结构文档的处理能力较弱,其根本原因是难以从无结构文档中提取有效信息。在传统信息提取技术的基础上,给出了一种基于本体的无结构文档信息提取方案。该方案首先对文档建立本体加以描述,然后分析本体中实体之间的多种潜在关系,如文本相连关系、文本共存关系、高频率实体等,通过分析这些关系来确定各候选实体的匹配系数,从而确定被识别实体,并以XML的形式输出。实验表明,该方法能获得较高的识别率和准确率。 要对桌面文档进行搜索,需要某种信息检索模型来支持,而信息检索模型一直都是信息检索领域的重要研究课题。在对传统向量空间模型研究的基础上,设计了一种基于本体的语义信息检索模型,其工作重点包括:语义项权重的设计,各关键字之间的语义关系分析,以及语义特征向量之间的相似度计算策略等。在模型中,通过概念连通图对不同语义项之间的关系进行了重新考量,并将语义相似度的计算分为概念相似度和属性相似度两个方面,综合考虑了二者在语义检索中的作用,改善了检索效果。 对检索结果进行排序是文档检索的一个重要步骤。在对现有的Web排序算法和模式图理论研究后,提出一种基于权威传递的检索结果排序方法。该方法利用本体描述文档之间权威传递的模式,通过设定不同的传递系数,反映出文档之间的不同连接线索对文档联系紧密程度的影响。实验结果表明,该方法可将重要程度高的结果优先返回,并有效地体现出文档对象之间的关联关系。