Web数据挖掘技术综述

来源 :硅谷 | 被引量 : 0次 | 上传用户:rain12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]Web数据挖掘是数据挖掘技术在Web信息集合上的应用,Web数据具有本身的特点,Web数据挖掘可以分为三类,各自有其相关技术,Web数据挖掘技术有着广泛的应用,而且随着Internet的不断发展,必将有着更加开阔的应用前景。
  [关键词]数据挖掘 内容挖掘 结构挖掘 日志挖掘
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420044-01
  
  数据挖掘(Data Mining,DM)是近年来发展迅速的知识发现的一个重要步骤,在科学研究和社会应用领域都得到了广泛的应用。目前数据挖掘没有一个完全公认的定义,一般认为:数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web技术中的应用。Web数据挖掘是一项综合技术,通过从Internet上的资源中抽取信息来提高Web技术的利用效率,也就是从Web文档结构和试用的集合中发现隐含的模式[1]。
  
  一、Web数据挖掘的特点
  
  传统的数据挖掘是以数据库为基础,对结构化的数据源进行信息的加工、分析和模式挖掘。从理论上讲,数据挖掘的各种理论和技术都可以直接或间接地应用于Web数据挖掘,然而由于Web的自身特点,使得Web数据挖掘与传统的数据挖掘有很大的不同[2]。
  (一)分布式数据。相关主题的信息杂乱地散布在Web站点上的多个目录下, 这样就需要有一个强大的搜索引擎,通过查找关键字,来定位超文本的位置。
  (二)Web上数据特点。特点一是动态性,Internet本身就是一个时刻在动态更新和变化的系统,需要借鉴数据仓库的技术,以此保存Web上动态更新的数据;特点二是多样性, Web数据经过过滤后,既有数值型,又有分类数据、性质描述数据以及Web特有的数据类型;特点三是数据源之间可能存在冗余、不一致甚至矛盾。
  (三)用户目标的模糊性。Web挖掘用户对挖掘的主题提不出明确的目标,因此需要数据挖掘系统具有一定的智能性和学习机制,不断地跟踪用户的兴趣,直至获得所需的结果。
  (四)异构数据库环境。数据库本身、运行环境和非结构化的数据都存在差异。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,构成了一个巨大的异构数据库环境。
  (五)半结构化的数据结构。Web上的数据大多是HTML格式,数据复杂,没有特定的模型描述,因此是半结构化的数据结构。半结构化是Web上数据的主要特点。
  
  二、Web数据挖掘的分类及技术现状
  
  Web上信息的多样性决定了Web挖掘任务的多样性,按照处理对象的不同我们将Web挖掘分为三大类[3]。
  (一)Web内容挖掘。Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。它分为Web文本挖掘和Web多媒体挖掘,针对的对象分别是Web文本信息和Web多媒体信息。Web内容挖掘的重点是页面分类和聚类。Web页面的分类是根据页面的不同特征,将其划归为事先建立起来的不同的类。Web页面的聚类是指在没有给定主题类别的情况下,将Web页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可能大,而簇间相似度尽可能小。
  (二)Web结构挖掘。Web结构挖掘是指对Web页面之间的超链结构,Web页面内部结构和URL中的目录路径结构进行挖掘,从中抽取知识。Web在逻辑上可以用有向图表示出来,页面对应图中的点,超级链接对应图中的边。超链也体现了Web页面之间的某种关系,WebKB就是通过对超级链接的分类来辨别instructor-of, members-of-department等关系实例。PageRa
  -nk方法则是通过分析页面的引用次数和引用关系来发现重要页面。Spertus对Web页面的内部结构和URL做了研究并提出一些启发式规则,用于收索新页面和自动索引。
  (三)Web日志挖掘。个人浏览Web服务器时,服务器方会产生三种类型日志文件:Server Logs,Error Logs,Cookie Logs,记录了关于用户访问和交互的信息。Web日志挖掘正是对这三种日志文件进行挖掘,从而发现用户的访问模式、相似用户群体、频繁路径等知识[4]。
  Web日志挖掘方法可分为基于Web事物的方法和基于数据立方的方法。前者是将用户会话划分成事物序列,然后采用数据挖掘的方法挖掘频繁路径等知识,后者则将Web日志组织成数据立方用于数据挖掘和OLAP,WAP2Mine采用的是第一种方法。
  
  三、Web数据挖掘的应用
  
  数据挖掘技术已经广泛应用于金融业、零售业、远程通信业、政府管理、制造业、医疗服务和体育等行业中,而它在网络中的应用(即Web挖掘)已经成为当今国际学术界的研究热点,并开始在许多行业得到应用。
  Web数据挖掘的典型应用领域是在搜索引擎中的应用,通过引入Web挖掘技术可以提高搜索引擎的查询速度、关键词匹配的相关度以及网页的权重,改善检索效果。
  另一个典型应用是网站设计, 通过对网站内容的Web挖掘可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。
  在电子商务中的应用也是一个成功的范例,通过对客户访问日志数据应用神经元网络、模型化算法和其它信息处
  理技术,进行分析加工,可获得商家用于向特定消费群体或个体进行定向营销的决策信息。
  
  四、结语
  
  Web数据挖掘是把Internet、WWW和数据挖掘结合起来的一种新兴技术,Web数据挖掘的应用非常广泛,不但涉及页面信息的提取、站点的分析和设计,在基于Internet的电子商务方面也有很好的应用前景。目前,在国内Web挖掘的研究仍处于起步阶段,是前沿性的研究领域,有待进一步研究的课题有:Web知识库的动态维护和更新方法;各种知识和模式的综合评价方法;数据挖掘的语言及评价标准的制定;满足实时性和深层分析的算法等。
  
  参考文献:
  [1]马保国、侯存军、王文丰等,Web数据挖掘技术与应用[J].计算机与数字工程,2006,6:20-22.
  [2]蒋良孝、蔡之华,Web挖掘及其应用研究[J].现代计算机,2003,3:24-27.
  [3]张小松、窦炳琳,Web挖掘研究[J].唐山学院学报,2003,12:80-84.
  [4]高祥华,Web2.0中的技术及应用[J].中国科技信息,2006,13:127-128.
  作者简介:
  孟丛,女,汉族,山东济南人,硕士,济南职业学院技术教育部,助教,主要研究方向:数据库,数据挖掘,信息管理,电子商务。
其他文献
[摘要]C++程序设计是计算机专业的核心课程,目前在教学过程中普遍存在重“语法”,轻“设计”的现象。给出一种新的教学方法,通过采用故事演绎,结合UML进行面向对象分析,以及案例教学的方式引导学生提高实际的编程能力,达到较好的效果。  [关键词]C++ 面向对象 UML  中图分类号:G42文献标识码:A文章编号:1671-7597(2009)0120155-02    一、引言    C++是一门
期刊
[摘要]基于网络的远程故障诊断是诊断系统的发展趋势,提出基于B/S结构的装备车辆的远程故障诊断技术的总体结构模型,B/S结构设计分析和系统软件平台设计思想。阐述基于B/S结构的远程故障诊断系统对提高装备车辆技术保障的重要意义。  [关键词]远程故障 B/S结构 诊断系统  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0120124-02    一、引言    随着科学技
期刊
[摘要]机床PLC控制程序采用模块化编程,通过编制不同功能的子程序完成了PLC对机床顺序动作的控制,通过利用PLC的应用指令和内部特殊继电器实现了加工计数器和计时器功能程序段的设计,并编制了机床报警自诊断程序,通过利用时间继电器实现了检测开关在电磁阀动作后一定时间内的动作是否到位检测,确定开关有故障而发出报警信号。  [关键词]机床数控化 PLC 控制程序  中图分类号:TP2文献标识码:A文章编
期刊
[摘要]随着科技的发展,我们的地球越来越像地球村,这正是取决于当今飞速发展的信息技术,主要对当前3S技术的状况做些简单的介绍。  [关键词]3S 技术 遥感  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420034-01    一、“3S”技术系统    “3S”技术是地理信息系统(GIS)、遥感(RS)和全球定位系统  (GPS)的统称,是现代信息技术与空间分析研
期刊
[摘要]简单介绍设计模式的概念,探讨属于创建型模式的抽象工厂设计模式的概念及运用场合,最后给出开发三层结构数据库应用系统,数据访问层使用抽象工厂设计模式的C#实例。  [关键词]设计模式 抽象工厂设计模式 三层结构数据库应用系统 C#  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420030-01    以数据为中心开发的应系统,都涉及到访问数据库问题,还有可能要求
期刊
[摘要]介绍在FPGA上实现PCI总线接口的设计方案,在主控与用户功能模块之间的进行数据交换,以突发写方式进行大量数据的高速传输。重点描述用户逻辑接口模块的程序设计,满足PCI总线时序要求,提高系统效率和性能。  [关键词]PCI总线 接口 FPGA  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420031-01    一、PCI总线及其接口概述    PCI(Pe
期刊
[摘要]加入世贸组织以后,我国要继续降低关税壁垒,进一步开放市场,我国的对外贸易必须纳入世贸组织的规则与框架。同时我国正处于经济转型阶段,市场经济的各方面制度尚不完善,经济总体实力还不强,因此,在对外贸易领域里,我国政府制定的贸易政策应该在世贸组织的规则与框架内,以本国经济利益为基本出发点,有利于本国企业参与国内外两个市场激烈的竞争,不断提高国际竞争力。实行战略性投入政策是一个符合国际惯例的现实选
期刊
[摘要]PCVSAT单收站运行监控系统运用现代计算机网络、数据库等软件技术,针对单收站在实时运行过程中接收并生成的数据而设计开发,来实现对全省单收站运行状况的监控,对于全面掌握单收站的运行状况,加强技术保障手段,提高技术保障能力,快速高效进行设备的技术保障有重要意义。主要从系统的结构、功能及实现技术等方面来叙述。  [关键词]PCVSAT单收站 运行监控  中图分类号:TP2文献标识码:A文章编号
期刊
[摘要]讨论内存泄漏的概念,Java语言的内存管理机制,垃圾回收器的原理,结合实际代码分析Java语言中可能存在的内存泄漏问题,并列举几种常见的检测及防止内存泄漏的方法。  [关键词]Java 垃圾回收 内存泄漏  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420040-01    一、引言    所谓内存泄漏,是指系统中存在无法回收的内存,有时候会造成内存不足或系
期刊
[摘要]总结教学经验的基础上,向初学者介绍几个容易忽视但是也是比较实用的几个小技巧。  [关键词]Access数据库 数据交流 压缩 表分析器  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420038-01    现在一般的高校都不开设Access数据库课了。绝大部分的高校都在开设SQL、oracle等。但是Access数据库还是存在的,作为一个功能强大的数据库管理
期刊