论文部分内容阅读
随着Internet的快速发展,Web上承载的数据正以令人难以置信的速度迅速膨胀。Web使用挖掘是应用数据挖掘技术帮助用户从海量的Web数据中迅速发现使用模式的过程。由于目前Web上的数据大部分是非结构或半结构化的,作为智能程序的软件代理并不能理解和处理这些信息,因此Web使用挖掘的结果往往不尽如人意。语义Web作为当前Web的一种扩展,其中信息被赋予了良好定义的语义,有助于计算机自动地处理Web使用信息,能有效改善Web使用挖掘的结果,因此语义Web使用挖掘就成为当前Web挖掘的前沿研究领域。语义Web使用挖掘一方面从现有Web数据中抽取使用语义促进语义Web的构建,另一方面也利用语义Web数据有效提高了传统Web使用挖掘的质量和效率。本文回顾了语义Web使用挖掘研究的发展历程和各个阶段所取得的重要成果,阐述了它对促进Web技术发展的重要意义。系统地总结了语义Web使用挖掘的过程和任务,并指出了当前研究中存在的主要问题。本文从语义使用知识(半)自动构建和挖掘语义Web使用等角度出发,针对日志本体学习和日志本体挖掘所面临的几个关键问题进行了深入研究,并取得了如下创新性成果:(1)系统地提出了日志本体的分层体系结构。以事件为核心概念,采用自顶向下的分析方法,根据用户访问行为的语义从抽象到具体依次完整地给出了核心日志本体、应用日志本体和语义日志的形式化定义。这种分层体系架构弥补了相关研究对日志本体定义过于单调的缺陷,有利于不同层次上使用知识的语义描述,能提高后续语义Web使用挖掘的质量和效率。(2)提出了一种结合Web内容和使用挖掘学习应用日志本体的方法。该方法采用分步学习的思想,通过“原子应用事件抽取—原子应用事件分类关系学习—复合应用事件挖掘—应用事件非分类领域关系学习”依次确定应用日志本体的主要构成元素。在日志本体顶层架构的基础上,根据用户具体访问目的将用户请求映射为内容应用事件或服务应用事件;通过基于群体智能的Web页面聚类和用户访问路径上请求参数的语义分类,分别发现内容应用事件及服务应用事件的分类关系;以事件整分关系为基础构建事务空间,通过层次关联规则挖掘发现应用事件的非分类领域关系。实验表明,在Web使用领域内,该方法学习生成的应用日志本体在准确率和召回率上都明显优于目前主流本体学习工具生成的结果。(3)给出了DatalogSHIQ异构日志知识系统,并在此基础上提出了一种频繁Web访问模式发现的方法。DatalogSHIQ扩展了AL-log,支持表述能力更丰富的描述逻辑语言和异构Datalog规则,并降低了异构系统的安全性约束。在此基础上,引入应用访问规则集表示Web使用信息动态变化的语义,弥补了日志本体在表示动态访问知识上的不足。定义DatalogSHIQ之上的原子完善操作,提高了候选Web访问模式的表达能力。提出一种基于观察覆盖测试的ILP方法,能有效地从候选集中发现频繁Web访问模式,与已有研究相比,该方法增加了对复杂概念和独立角色的推理能力,发现的频繁Web访问模式具有更丰富的语义知识,能满足站点系统实际应用的需要。(4)提出了一种结合DL-safe规则的频繁Web访问模式及关联规则发现方法。在日志本体之上给出了异构规则语言DL-safeL以描述应用访问规则,增加了对选言规则的支持。基于trie树形结构提出DL-safeL之上的节点扩展算法,无需事先生成候选模式,可以直接通过计算容许谓词集而生成频繁Web访问模式和关联规则;巧妙地利用选言数据库中被证明的优化原则,通过语义等价模式以及模式分类冗余检查有效避免了过多逻辑推理所带来的算法性能瓶颈。实验结果表明,相比同样采用DL-safe规则的SEMINTEC,该方法在不提高计算复杂度的基础上,增加了对应用访问规则和观察集的覆盖,并支持模式中出现表示应用语义的Datalog原子。