论文部分内容阅读
[摘要]Web数据挖掘是数据挖掘技术在Web信息集合上的应用,Web数据具有本身的特点,Web数据挖掘可以分为三类,各自有其相关技术,Web数据挖掘技术有着广泛的应用,而且随着Internet的不断发展,必将有着更加开阔的应用前景。
[关键词]数据挖掘 内容挖掘 结构挖掘 日志挖掘
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420044-01
数据挖掘(Data Mining,DM)是近年来发展迅速的知识发现的一个重要步骤,在科学研究和社会应用领域都得到了广泛的应用。目前数据挖掘没有一个完全公认的定义,一般认为:数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web技术中的应用。Web数据挖掘是一项综合技术,通过从Internet上的资源中抽取信息来提高Web技术的利用效率,也就是从Web文档结构和试用的集合中发现隐含的模式[1]。
一、Web数据挖掘的特点
传统的数据挖掘是以数据库为基础,对结构化的数据源进行信息的加工、分析和模式挖掘。从理论上讲,数据挖掘的各种理论和技术都可以直接或间接地应用于Web数据挖掘,然而由于Web的自身特点,使得Web数据挖掘与传统的数据挖掘有很大的不同[2]。
(一)分布式数据。相关主题的信息杂乱地散布在Web站点上的多个目录下, 这样就需要有一个强大的搜索引擎,通过查找关键字,来定位超文本的位置。
(二)Web上数据特点。特点一是动态性,Internet本身就是一个时刻在动态更新和变化的系统,需要借鉴数据仓库的技术,以此保存Web上动态更新的数据;特点二是多样性, Web数据经过过滤后,既有数值型,又有分类数据、性质描述数据以及Web特有的数据类型;特点三是数据源之间可能存在冗余、不一致甚至矛盾。
(三)用户目标的模糊性。Web挖掘用户对挖掘的主题提不出明确的目标,因此需要数据挖掘系统具有一定的智能性和学习机制,不断地跟踪用户的兴趣,直至获得所需的结果。
(四)异构数据库环境。数据库本身、运行环境和非结构化的数据都存在差异。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,构成了一个巨大的异构数据库环境。
(五)半结构化的数据结构。Web上的数据大多是HTML格式,数据复杂,没有特定的模型描述,因此是半结构化的数据结构。半结构化是Web上数据的主要特点。
二、Web数据挖掘的分类及技术现状
Web上信息的多样性决定了Web挖掘任务的多样性,按照处理对象的不同我们将Web挖掘分为三大类[3]。
(一)Web内容挖掘。Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。它分为Web文本挖掘和Web多媒体挖掘,针对的对象分别是Web文本信息和Web多媒体信息。Web内容挖掘的重点是页面分类和聚类。Web页面的分类是根据页面的不同特征,将其划归为事先建立起来的不同的类。Web页面的聚类是指在没有给定主题类别的情况下,将Web页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可能大,而簇间相似度尽可能小。
(二)Web结构挖掘。Web结构挖掘是指对Web页面之间的超链结构,Web页面内部结构和URL中的目录路径结构进行挖掘,从中抽取知识。Web在逻辑上可以用有向图表示出来,页面对应图中的点,超级链接对应图中的边。超链也体现了Web页面之间的某种关系,WebKB就是通过对超级链接的分类来辨别instructor-of, members-of-department等关系实例。PageRa
-nk方法则是通过分析页面的引用次数和引用关系来发现重要页面。Spertus对Web页面的内部结构和URL做了研究并提出一些启发式规则,用于收索新页面和自动索引。
(三)Web日志挖掘。个人浏览Web服务器时,服务器方会产生三种类型日志文件:Server Logs,Error Logs,Cookie Logs,记录了关于用户访问和交互的信息。Web日志挖掘正是对这三种日志文件进行挖掘,从而发现用户的访问模式、相似用户群体、频繁路径等知识[4]。
Web日志挖掘方法可分为基于Web事物的方法和基于数据立方的方法。前者是将用户会话划分成事物序列,然后采用数据挖掘的方法挖掘频繁路径等知识,后者则将Web日志组织成数据立方用于数据挖掘和OLAP,WAP2Mine采用的是第一种方法。
三、Web数据挖掘的应用
数据挖掘技术已经广泛应用于金融业、零售业、远程通信业、政府管理、制造业、医疗服务和体育等行业中,而它在网络中的应用(即Web挖掘)已经成为当今国际学术界的研究热点,并开始在许多行业得到应用。
Web数据挖掘的典型应用领域是在搜索引擎中的应用,通过引入Web挖掘技术可以提高搜索引擎的查询速度、关键词匹配的相关度以及网页的权重,改善检索效果。
另一个典型应用是网站设计, 通过对网站内容的Web挖掘可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。
在电子商务中的应用也是一个成功的范例,通过对客户访问日志数据应用神经元网络、模型化算法和其它信息处
理技术,进行分析加工,可获得商家用于向特定消费群体或个体进行定向营销的决策信息。
四、结语
Web数据挖掘是把Internet、WWW和数据挖掘结合起来的一种新兴技术,Web数据挖掘的应用非常广泛,不但涉及页面信息的提取、站点的分析和设计,在基于Internet的电子商务方面也有很好的应用前景。目前,在国内Web挖掘的研究仍处于起步阶段,是前沿性的研究领域,有待进一步研究的课题有:Web知识库的动态维护和更新方法;各种知识和模式的综合评价方法;数据挖掘的语言及评价标准的制定;满足实时性和深层分析的算法等。
参考文献:
[1]马保国、侯存军、王文丰等,Web数据挖掘技术与应用[J].计算机与数字工程,2006,6:20-22.
[2]蒋良孝、蔡之华,Web挖掘及其应用研究[J].现代计算机,2003,3:24-27.
[3]张小松、窦炳琳,Web挖掘研究[J].唐山学院学报,2003,12:80-84.
[4]高祥华,Web2.0中的技术及应用[J].中国科技信息,2006,13:127-128.
作者简介:
孟丛,女,汉族,山东济南人,硕士,济南职业学院技术教育部,助教,主要研究方向:数据库,数据挖掘,信息管理,电子商务。
[关键词]数据挖掘 内容挖掘 结构挖掘 日志挖掘
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420044-01
数据挖掘(Data Mining,DM)是近年来发展迅速的知识发现的一个重要步骤,在科学研究和社会应用领域都得到了广泛的应用。目前数据挖掘没有一个完全公认的定义,一般认为:数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web技术中的应用。Web数据挖掘是一项综合技术,通过从Internet上的资源中抽取信息来提高Web技术的利用效率,也就是从Web文档结构和试用的集合中发现隐含的模式[1]。
一、Web数据挖掘的特点
传统的数据挖掘是以数据库为基础,对结构化的数据源进行信息的加工、分析和模式挖掘。从理论上讲,数据挖掘的各种理论和技术都可以直接或间接地应用于Web数据挖掘,然而由于Web的自身特点,使得Web数据挖掘与传统的数据挖掘有很大的不同[2]。
(一)分布式数据。相关主题的信息杂乱地散布在Web站点上的多个目录下, 这样就需要有一个强大的搜索引擎,通过查找关键字,来定位超文本的位置。
(二)Web上数据特点。特点一是动态性,Internet本身就是一个时刻在动态更新和变化的系统,需要借鉴数据仓库的技术,以此保存Web上动态更新的数据;特点二是多样性, Web数据经过过滤后,既有数值型,又有分类数据、性质描述数据以及Web特有的数据类型;特点三是数据源之间可能存在冗余、不一致甚至矛盾。
(三)用户目标的模糊性。Web挖掘用户对挖掘的主题提不出明确的目标,因此需要数据挖掘系统具有一定的智能性和学习机制,不断地跟踪用户的兴趣,直至获得所需的结果。
(四)异构数据库环境。数据库本身、运行环境和非结构化的数据都存在差异。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,构成了一个巨大的异构数据库环境。
(五)半结构化的数据结构。Web上的数据大多是HTML格式,数据复杂,没有特定的模型描述,因此是半结构化的数据结构。半结构化是Web上数据的主要特点。
二、Web数据挖掘的分类及技术现状
Web上信息的多样性决定了Web挖掘任务的多样性,按照处理对象的不同我们将Web挖掘分为三大类[3]。
(一)Web内容挖掘。Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。它分为Web文本挖掘和Web多媒体挖掘,针对的对象分别是Web文本信息和Web多媒体信息。Web内容挖掘的重点是页面分类和聚类。Web页面的分类是根据页面的不同特征,将其划归为事先建立起来的不同的类。Web页面的聚类是指在没有给定主题类别的情况下,将Web页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可能大,而簇间相似度尽可能小。
(二)Web结构挖掘。Web结构挖掘是指对Web页面之间的超链结构,Web页面内部结构和URL中的目录路径结构进行挖掘,从中抽取知识。Web在逻辑上可以用有向图表示出来,页面对应图中的点,超级链接对应图中的边。超链也体现了Web页面之间的某种关系,WebKB就是通过对超级链接的分类来辨别instructor-of, members-of-department等关系实例。PageRa
-nk方法则是通过分析页面的引用次数和引用关系来发现重要页面。Spertus对Web页面的内部结构和URL做了研究并提出一些启发式规则,用于收索新页面和自动索引。
(三)Web日志挖掘。个人浏览Web服务器时,服务器方会产生三种类型日志文件:Server Logs,Error Logs,Cookie Logs,记录了关于用户访问和交互的信息。Web日志挖掘正是对这三种日志文件进行挖掘,从而发现用户的访问模式、相似用户群体、频繁路径等知识[4]。
Web日志挖掘方法可分为基于Web事物的方法和基于数据立方的方法。前者是将用户会话划分成事物序列,然后采用数据挖掘的方法挖掘频繁路径等知识,后者则将Web日志组织成数据立方用于数据挖掘和OLAP,WAP2Mine采用的是第一种方法。
三、Web数据挖掘的应用
数据挖掘技术已经广泛应用于金融业、零售业、远程通信业、政府管理、制造业、医疗服务和体育等行业中,而它在网络中的应用(即Web挖掘)已经成为当今国际学术界的研究热点,并开始在许多行业得到应用。
Web数据挖掘的典型应用领域是在搜索引擎中的应用,通过引入Web挖掘技术可以提高搜索引擎的查询速度、关键词匹配的相关度以及网页的权重,改善检索效果。
另一个典型应用是网站设计, 通过对网站内容的Web挖掘可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。
在电子商务中的应用也是一个成功的范例,通过对客户访问日志数据应用神经元网络、模型化算法和其它信息处
理技术,进行分析加工,可获得商家用于向特定消费群体或个体进行定向营销的决策信息。
四、结语
Web数据挖掘是把Internet、WWW和数据挖掘结合起来的一种新兴技术,Web数据挖掘的应用非常广泛,不但涉及页面信息的提取、站点的分析和设计,在基于Internet的电子商务方面也有很好的应用前景。目前,在国内Web挖掘的研究仍处于起步阶段,是前沿性的研究领域,有待进一步研究的课题有:Web知识库的动态维护和更新方法;各种知识和模式的综合评价方法;数据挖掘的语言及评价标准的制定;满足实时性和深层分析的算法等。
参考文献:
[1]马保国、侯存军、王文丰等,Web数据挖掘技术与应用[J].计算机与数字工程,2006,6:20-22.
[2]蒋良孝、蔡之华,Web挖掘及其应用研究[J].现代计算机,2003,3:24-27.
[3]张小松、窦炳琳,Web挖掘研究[J].唐山学院学报,2003,12:80-84.
[4]高祥华,Web2.0中的技术及应用[J].中国科技信息,2006,13:127-128.
作者简介:
孟丛,女,汉族,山东济南人,硕士,济南职业学院技术教育部,助教,主要研究方向:数据库,数据挖掘,信息管理,电子商务。