论文部分内容阅读
[摘 要] Web数据挖掘已经成为当前广泛研究的课题。目前许多网站都是用HTML构建的,给Web数据挖掘带来了诸多困难,XML的出现为Web数据挖掘带来了便利。本文介绍了Web数据挖掘的概念和遇到的困难,分析了XML在Web数据挖掘中的应用。
[关键词] Web数据挖掘 XML 半结构化数据
数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。Web上有大量的数据信息,怎样对这些数据进行挖掘以实现复杂的应用,已成为现今数据库技术的研究热点。
一、Web数据挖掘的概念
Web数据挖掘是一项涉及Web技术、数据库、机器学习、数据挖掘、统计学、计算机语言学等多学科的综合技术,不同的研究人员从不同的角度出发,对Web数据挖掘有着不同的理解。研究搜索引擎的人着重于Web页面的文本数据的分析;而设计Web站点结构的人,则着重于用户对Web站点访问模式的研究。具体来说,Web数据挖掘是指通过一定的算法,从大量的、不完全的随机的Web数据中抽取模式、提取知识的过程,其实质是一种从数据库中学习的方法,可以弥补数据检索的不足。
二、Web数据挖掘面临的困难
从数据准备阶段来看,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多,主要体现在以下两个方面:
1.异构数据库环境。从数据库研究的角度出发,Web网站上的信息也可以看作一个大而复杂的数据库。Web上的每个站点就是一个数据源,每个数据源都是异构的,而且每个站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。要利用这些数据进行数据挖掘,首先,要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决web上的数据查询问题,因为如果不能有效地得到所需的数据,对这些数据进行分析、集成,处理就无从谈起。
2.半结构化的数据结构。Web上的数据与传统的数据库中的不同,传统的数据库都有一定的数据模型,可以根据模型来描述特定的数据。而Web上的数据非常复杂,没有特定的模型,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,使其成为一种非完全结构化的数据,这也被称为半结构化数据。半结构化是Web上数据的最大特点 。
三、XML在Web数据挖掘中的应用
XML是一种标记语言,具有简单、开放、高效可扩充和标准国际化等特点。它可被看作一种半结构化的数据模型,能很容易地与关系数据库中的属性一一对应,实施精确的查询与模型抽取,方便地实现数据挖掘。XML在Web数据挖掘中的应用分析如下:
1.实现异构数据集成管理。XML是一种半结构化的数据模型。用户可以很容易地将其和关系数据库中的属性一一对应,实施精确地记录、查询与模型抽取。因此,XML解决了每一个站点之间信息和组织都不一样的问题,使不同站点上的非结构性数据可以很容易地规范到一个既定数据库上。软件代理商可以在中间层的服务器上,对从后端数据库和其他应用获取的数据进行集成。
2.将负载处理从web服务器转到web客户端。一般来说,数据处理阶段是数据挖掘的重要环节,Web挖掘也不例外,大量的数据预处理工作都需要服务器端完成。按照传统的C/S模式来开发,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理员还需事先调查各种不同的用户需求开发出相应的程序。假如用户的需求繁杂而多变,将所有业务逻辑集中在服务器端显然不合适。因为服务器端编程人员可能来不及满足众多的应用需求,也无法适应需求的变化,双方都很被动。而XML将数据处理的主动权交给了客户,服务器端所要做的工作只是尽可能准确、完善地将数据封装成XML文件后发送给客户。客户端根据自己的需求选择和制作不同的应用程序以解析所接收的数据,并对数据进行编辑和处理。XML自带的解释执行系统在接收到数据的同时也理解了数据的逻辑结构和含义,因而使分布式计算成为可能。
3.促进数据交换。在Web数据挖掘过程中,用户经常需要在不同结构的数据源之间进行业务数据传递。基于XML的数据是自我描述的,数据不需要内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理。XML格式的数据发送给客户后,客户可以用应用软件方便地解析数据,以及对数据进行编辑和再处理,使用者可以用不同的方法处理数据,而不仅仅是显示它,XML文档对象模式(DOM)允许用脚本或其他编程语言处理Web数据,数据计算不需要回到服务器就能进行。总之,在这类应用中XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是XML并没有定义文件中具体数据规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使得XML成为一种程序能自动理解的规范。
4.根据用户需求裁减信息内容。传统HTML主要描述数据的外观,而XML可以描述数据的类别。由于数据显示与内容分开,XML允许为数据指定不同显示方式,使数据更合理地表现出来。XML还可以对所取得的信息进行裁减和编辑以适应不同的用户需求:它采用简单灵活的格式分离使用者观察数据的界面,将同样的数据以不同浏览形式提供给不同用户。与其他数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使XML成为一种程序能自动理解的规范。
四、结束语
由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。随着XML作为在Web上交换数据的一种标准方式广泛普及,Web数据挖掘将会变得高效与轻松。
参考文献:
[1]Han Jiawei, Micheline K:数据挖掘概念与技术[M].北京:机械工业出版社,2001,290~294
[2]王泽彬 金 飞 李 夏 王 冠:Web数据挖掘技术及实现. 哈尔滨工业大学学报,2005.Vol.37.No.10
[关键词] Web数据挖掘 XML 半结构化数据
数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。Web上有大量的数据信息,怎样对这些数据进行挖掘以实现复杂的应用,已成为现今数据库技术的研究热点。
一、Web数据挖掘的概念
Web数据挖掘是一项涉及Web技术、数据库、机器学习、数据挖掘、统计学、计算机语言学等多学科的综合技术,不同的研究人员从不同的角度出发,对Web数据挖掘有着不同的理解。研究搜索引擎的人着重于Web页面的文本数据的分析;而设计Web站点结构的人,则着重于用户对Web站点访问模式的研究。具体来说,Web数据挖掘是指通过一定的算法,从大量的、不完全的随机的Web数据中抽取模式、提取知识的过程,其实质是一种从数据库中学习的方法,可以弥补数据检索的不足。
二、Web数据挖掘面临的困难
从数据准备阶段来看,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多,主要体现在以下两个方面:
1.异构数据库环境。从数据库研究的角度出发,Web网站上的信息也可以看作一个大而复杂的数据库。Web上的每个站点就是一个数据源,每个数据源都是异构的,而且每个站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。要利用这些数据进行数据挖掘,首先,要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决web上的数据查询问题,因为如果不能有效地得到所需的数据,对这些数据进行分析、集成,处理就无从谈起。
2.半结构化的数据结构。Web上的数据与传统的数据库中的不同,传统的数据库都有一定的数据模型,可以根据模型来描述特定的数据。而Web上的数据非常复杂,没有特定的模型,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,使其成为一种非完全结构化的数据,这也被称为半结构化数据。半结构化是Web上数据的最大特点 。
三、XML在Web数据挖掘中的应用
XML是一种标记语言,具有简单、开放、高效可扩充和标准国际化等特点。它可被看作一种半结构化的数据模型,能很容易地与关系数据库中的属性一一对应,实施精确的查询与模型抽取,方便地实现数据挖掘。XML在Web数据挖掘中的应用分析如下:
1.实现异构数据集成管理。XML是一种半结构化的数据模型。用户可以很容易地将其和关系数据库中的属性一一对应,实施精确地记录、查询与模型抽取。因此,XML解决了每一个站点之间信息和组织都不一样的问题,使不同站点上的非结构性数据可以很容易地规范到一个既定数据库上。软件代理商可以在中间层的服务器上,对从后端数据库和其他应用获取的数据进行集成。
2.将负载处理从web服务器转到web客户端。一般来说,数据处理阶段是数据挖掘的重要环节,Web挖掘也不例外,大量的数据预处理工作都需要服务器端完成。按照传统的C/S模式来开发,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理员还需事先调查各种不同的用户需求开发出相应的程序。假如用户的需求繁杂而多变,将所有业务逻辑集中在服务器端显然不合适。因为服务器端编程人员可能来不及满足众多的应用需求,也无法适应需求的变化,双方都很被动。而XML将数据处理的主动权交给了客户,服务器端所要做的工作只是尽可能准确、完善地将数据封装成XML文件后发送给客户。客户端根据自己的需求选择和制作不同的应用程序以解析所接收的数据,并对数据进行编辑和处理。XML自带的解释执行系统在接收到数据的同时也理解了数据的逻辑结构和含义,因而使分布式计算成为可能。
3.促进数据交换。在Web数据挖掘过程中,用户经常需要在不同结构的数据源之间进行业务数据传递。基于XML的数据是自我描述的,数据不需要内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理。XML格式的数据发送给客户后,客户可以用应用软件方便地解析数据,以及对数据进行编辑和再处理,使用者可以用不同的方法处理数据,而不仅仅是显示它,XML文档对象模式(DOM)允许用脚本或其他编程语言处理Web数据,数据计算不需要回到服务器就能进行。总之,在这类应用中XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是XML并没有定义文件中具体数据规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使得XML成为一种程序能自动理解的规范。
4.根据用户需求裁减信息内容。传统HTML主要描述数据的外观,而XML可以描述数据的类别。由于数据显示与内容分开,XML允许为数据指定不同显示方式,使数据更合理地表现出来。XML还可以对所取得的信息进行裁减和编辑以适应不同的用户需求:它采用简单灵活的格式分离使用者观察数据的界面,将同样的数据以不同浏览形式提供给不同用户。与其他数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使XML成为一种程序能自动理解的规范。
四、结束语
由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。随着XML作为在Web上交换数据的一种标准方式广泛普及,Web数据挖掘将会变得高效与轻松。
参考文献:
[1]Han Jiawei, Micheline K:数据挖掘概念与技术[M].北京:机械工业出版社,2001,290~294
[2]王泽彬 金 飞 李 夏 王 冠:Web数据挖掘技术及实现. 哈尔滨工业大学学报,2005.Vol.37.No.10