论文部分内容阅读
自从Internet诞生以来,互联网上的信息正以指数形式飞速增长。如何在WWW这个全球最大的数据集合中发现用户的有用信息已成为数据挖掘研究的热点,Web数据挖掘也由此应运而生。 Web是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库;是一个巨大的文档积累的集合,包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。由于现行的网络环境以HTML语言为基础构建,它是一种只能描述形式而不能揭示内容的语言,因此,Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W 3C开发的XML (Extensible Markup Language)可扩展标记语言,支持丰富的数据结构,特别强调数据语义与元素之间的关系,因此基于XML的Web数据挖掘可以充分利用XML的特点,为Web数据挖掘带来了新的契机。 同时,在信息更新速度如此之快的今天,用户已经不满足只挖掘出某些信息,而是需要Web数据挖掘能够为他们及时提供出最快、最新、最有效的信息。所以,对Web实时信息数据挖掘的研究有着巨大的潜力,也是非常必要的。 本文首先详细阐述了基于XML语言的Web数据挖掘方法。通过介绍Web数据挖掘技术和XML技术的基本知识、分析了XML语言在