论文部分内容阅读
[摘 要]Internet 的出现使计算机拥有海量的信息资源,而其中蕴含的知识却未能得到充分的利用,为此,Web 挖掘技术成为当前高科技领域研究的热点。随着计算机和网络技术的发展,基于数据库表的数据挖掘已经不能满足需要;面对基于Internet 上的“信息海洋”,我们需要提取有用的、可以指导决策的知识。XML技术能够使不同来源的结构化数据很容易地结合在一起,从而使得搜索多样化、不兼容的数据库成为可能,为Web 数据挖掘带来了新的契机。
[关键词]Web数据挖掘;HTML;XML
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2014)47-0257-01
1、Web数据挖掘
Web数据挖掘是对Web信息进行分析整理、提取有效信息的过程。一般,数据挖掘又称为数据库知识发现(Knowledge Discovery in Database, KDD)。对网络信息进行挖掘的关键在于网络信息的提取;与传统数据挖掘相比,Web数据挖掘具有以下特点:一、Web数据挖掘的对象是丰富的、异构的、分布的;二、Web数据挖掘在逻辑上是由一个文档节点和超链接构成的图;三、Web文档的半结构化或结构化决定了传统数据挖掘技术需要对Web数据进行预处理才能够应用。
根据Web数据挖掘处理对象的不同,Web数据挖掘可分为Web内容挖掘、Web结构挖掘、Web使用记录挖掘,Web用户性质挖掘四类[1]。
2 XML技术
XML技术[2]是基于HTML技术的一种规范简化的技术,是一种结构化的解析语言。相比较HTML用来显示数据,XML用来传输和存储数据。在XML技术中,可以将内容和显示样式分离,对相同的内容以不同的样式显示,这就增强了XML技术的兼容性。XML技术在数据挖掘中的作用不仅仅在于信息内容的显示,而且关键在于网络信息的提取,这是利用XML技术进行数据挖掘的关键。XML技术将内容与显示分离。在XML中,标记的显示方案是在XML文档中附带的、用户编写的样式单中定义的。即标记的显示方案既不是由XML文档本身、也不是由浏览器确定的。XML中的标记只描述文档的内容,不描述显示方案。这也是XML与HTML的最大一个区别。内容与样式的分离使XML可以跨平台共享,也提高了文档输出的灵活性。这也对Web数据挖掘提供了一种便利,一种更高效的方法。
3 HTML与XML的转换
已有的数据大部分都是以HTML格式进行约束显示的,对此,我们需要先对HTML格式的数据进行转换[3],转换为XML方式的数据,因为XML数据有很好的结构性,对进行下一步的挖掘提供了便利。目前,已经有很多对HTML代码进行转换为XML数据格式的工具,主要有Tidy工具等。同时,工具的好坏也影响着进行下一步的数据挖掘。
4 基于XML数据挖掘
传统的数据挖掘是对关键字和词条进行搜索。根据文本的关键字或者文中出现的词条进行比对,从而确定挖掘的内容符合度。对词条进行出现次数统计,可以得出相似度。相似度越高,产生的结果就越准确。对于当前的Web信息,大部分是html语言编写的,结构上不是特别清晰,故而无法准确对信息进行分类查询。但是,如果针对的是XML语言规范约束的网页,具有很强的结构性,可以根据规范的标记来确定所要查询的内容所在点,降低了查询范围,提高了查询的速度,同时也提高了查询的准确度。
5 基于XML数据挖掘模型
5.1 基于XML数据挖掘模型的原理
本模型中,思想是把现有的、已经查询到的Web页面转换成XML格式,利用相关的方法对XML结构的数据进行抽取,改正HTML中出现的常见错误,生成格式规范、有效性高的等价文档。在这个过程中,可以利用相关语言编写构造一个类来完成Web数据从HTML格式到XML格式的转换,以及与XML相关的任务。数据抽取的过程[4]如图1所示。
(1)数据库是组成Web信息所有各种异构数据信息。
(2)对万维网上的信息进行查询,会得到一个没有经过进一步处理的XHTML文档集。
(3)对于一般的HTML文档,找到一个确定的标记,例如,就确定了内容的主体位置。利用tidy工具,对XHTML文档中的Table标记的内容进行抽取。得到一个新的XHTML文档。
[关键词]Web数据挖掘;HTML;XML
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2014)47-0257-01
1、Web数据挖掘
Web数据挖掘是对Web信息进行分析整理、提取有效信息的过程。一般,数据挖掘又称为数据库知识发现(Knowledge Discovery in Database, KDD)。对网络信息进行挖掘的关键在于网络信息的提取;与传统数据挖掘相比,Web数据挖掘具有以下特点:一、Web数据挖掘的对象是丰富的、异构的、分布的;二、Web数据挖掘在逻辑上是由一个文档节点和超链接构成的图;三、Web文档的半结构化或结构化决定了传统数据挖掘技术需要对Web数据进行预处理才能够应用。
根据Web数据挖掘处理对象的不同,Web数据挖掘可分为Web内容挖掘、Web结构挖掘、Web使用记录挖掘,Web用户性质挖掘四类[1]。
2 XML技术
XML技术[2]是基于HTML技术的一种规范简化的技术,是一种结构化的解析语言。相比较HTML用来显示数据,XML用来传输和存储数据。在XML技术中,可以将内容和显示样式分离,对相同的内容以不同的样式显示,这就增强了XML技术的兼容性。XML技术在数据挖掘中的作用不仅仅在于信息内容的显示,而且关键在于网络信息的提取,这是利用XML技术进行数据挖掘的关键。XML技术将内容与显示分离。在XML中,标记的显示方案是在XML文档中附带的、用户编写的样式单中定义的。即标记的显示方案既不是由XML文档本身、也不是由浏览器确定的。XML中的标记只描述文档的内容,不描述显示方案。这也是XML与HTML的最大一个区别。内容与样式的分离使XML可以跨平台共享,也提高了文档输出的灵活性。这也对Web数据挖掘提供了一种便利,一种更高效的方法。
3 HTML与XML的转换
已有的数据大部分都是以HTML格式进行约束显示的,对此,我们需要先对HTML格式的数据进行转换[3],转换为XML方式的数据,因为XML数据有很好的结构性,对进行下一步的挖掘提供了便利。目前,已经有很多对HTML代码进行转换为XML数据格式的工具,主要有Tidy工具等。同时,工具的好坏也影响着进行下一步的数据挖掘。
4 基于XML数据挖掘
传统的数据挖掘是对关键字和词条进行搜索。根据文本的关键字或者文中出现的词条进行比对,从而确定挖掘的内容符合度。对词条进行出现次数统计,可以得出相似度。相似度越高,产生的结果就越准确。对于当前的Web信息,大部分是html语言编写的,结构上不是特别清晰,故而无法准确对信息进行分类查询。但是,如果针对的是XML语言规范约束的网页,具有很强的结构性,可以根据规范的标记来确定所要查询的内容所在点,降低了查询范围,提高了查询的速度,同时也提高了查询的准确度。
5 基于XML数据挖掘模型
5.1 基于XML数据挖掘模型的原理
本模型中,思想是把现有的、已经查询到的Web页面转换成XML格式,利用相关的方法对XML结构的数据进行抽取,改正HTML中出现的常见错误,生成格式规范、有效性高的等价文档。在这个过程中,可以利用相关语言编写构造一个类来完成Web数据从HTML格式到XML格式的转换,以及与XML相关的任务。数据抽取的过程[4]如图1所示。
(1)数据库是组成Web信息所有各种异构数据信息。
(2)对万维网上的信息进行查询,会得到一个没有经过进一步处理的XHTML文档集。
(3)对于一般的HTML文档,找到一个确定的标记,例如