论文部分内容阅读
Web使用挖掘(Web Usage Mining)是应用数据挖掘技术从Web数据中发现使用模式的过程。Web提供了一种不受时空限制的人机交互界面,为大规模记录,收集,分析和抽取用户行为信息提供了巨大的技术发展空间。在此背景下,Web使用挖掘研究得到了学术界和工业界的广泛关注,由此衍生的技术大量应用在科学研究,软件设计以及商业智能等领域。 本文总结了目前Web使用挖掘研究的现状,对其中存在的一些问题作了深入的研究和探讨。这些问题分别涉及频繁序列模式挖掘,Web用户行为特征相似性/差别的量化方法,以及支持Web站点设计优化的数据挖掘技术。 本文的主要贡献如下: (1)提出了一个称为TD-WAP-Mine的频繁序列模式挖掘算法。和已有的算法相比,它采用了新的频繁模式搜索策略,大幅度减少了在构造中间数据方面的工作量。大量的实验结果表明此算法在运行速度方面好于原有的算法,特别适合用在需要挖掘大量频繁模式的场合。 (2)提出了一种使用Web结构数据所蕴涵的语义信息量化使用行为特征差别的方法。与已有的研究相比,特征项之间的关系表示结构从有向根树扩展到了有向无环图。基于核心概念“最大相似宽度”,此方法为量化使用行为特征在语义上的差别定义了一组距离函数。在关系表示结构是有向根树的条件下,这些距离函数均满足三角不等式特性,在提高搜索效率方面具有优势,弥补了以往研究存在的缺陷。实验初步表明此类距离函数在最近邻查询效果和计算速度方面可与已有研究媲美。 (3)提出了一种新的支持站点设计优化的Web使用挖掘方案。此方案基于历史搜寻路径统计用户寻找目标花费的平均时间,用以量化Web页面的搜寻费用。在此基础上提出了一种高效的数据挖掘方法,寻找一组能够有效压缩搜寻路径(降低搜寻费用)的超链接。实验表明挖掘的结果能够提供许多有用的信息,帮助管理者及时发现站点设计中存在的问题。