Web数据挖掘研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:qqw2020843
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:网络资源的迅速增长使Web挖掘研究日益重要,文章介绍了Web挖掘的概念、流程以及分类,并从挖掘对象、方法、过程等方面分别对Web内容挖掘、Web结构挖掘、和Web使用挖掘进行详细的阐述。
  关键词:数据挖掘;Web;Web内容挖掘;Web结构挖掘;Web使用挖掘
  中图分类号:TP302文献标识码:A文章编号:1009-3044(2007)18-31502-01
  The Rearch of Web Data Mining
  LI Xue-zhu1, WANG Feng2
  (1.Computer Department Suzhou College, Suzhou 234000, China;2. Computer Department Automobile Manage College, Bengbu 233011, China)
  Abstract:The rapid development of network resources has made the research of Web mining so increasingly important. This dissertation introduces the concept,process and classification of Web mining and also expounds detailedly the mining of Web content, structure and usage from the perspective of the object and method of Web mining.
  Key words:data mining; Web content mining; Web structure mining; Web usage mining
  
  1 引言
  
  随着数据库与网络技术的飞速发展,尤其是自从internet产生以来,WWW资源迅速增长。为使用者提供了一个极其巨大的信息源,由于Web缩具有的开放性、动态性和异构性,又让使用者很难快捷准确地获得所需要的信息。为适应网络的快速发展及人们对知识的需求,以网络数据为挖掘对象的Web挖掘(Web Data Mining)就应运而生并快速成为目前信息技术中的研究热点。
  IBM,NEC等机构对Web数据挖掘进行了大量的研究并取得了一定的成果;S.Charkrabarti对超文本数据挖掘进行了研究并指出基于知识的算法将会在Web数据挖掘中扮演重要的角色;B.Pinkerton对信息的收集和评价方法进行了讨论并引入了解雇挖掘来评价查询结果。Osmar R.Zaiane等还对Web多媒体数据挖掘进行了研究,并提出了一个多媒体数据挖掘的系统原型。Sbrin和L.page提出了Pagerank算法并将其应用到google。与国外相比,国内对Web数据挖掘的研究起步较晚。
  
  2 Web数据挖掘概念
  
  Oren Etioni在1996年首次提出Web数据挖掘这一概念,Web挖掘就是运用数据挖掘技术在Web文档与服务器中自动发现并提取有用信息。Web数据挖掘是一项综合技术,涉及很多领域,是数据库、信息检索、人工智能、机器学习、自然语言处理
  等几个相关研究领域的集合。
  
  3 Web数据挖掘的流程
  
  与传统的数据挖掘相比,面向Web的数据挖掘要复杂的多。Web上的信息是异构的、动态的,并容易造成混淆。所以很难直接对Web网页上的数据进行操作,而必须经过必要的数据处理。典型的Web挖掘的流程如图1所示:
  图1 Web挖掘的原理流程
  2.1 资源查找
  任务是从目标Web文档中得到数据。值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
  2.2 预处理
  任务是从取得的Web资源中剔除无用信息和讲将信息进行必要的处理。
  2.3 模式发现
  自动进行模式发现。可以在同一个网站内部或在多个站点之间进行。
  2.4 模式分析
  验证解释上一步骤的模式,可以是机器自动完成,也可以是与分析人员进行交互完成。
  Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获取IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。
  
  3 Web数据挖掘的分类
  
  Web数据有三种类型:Web文档(主要是HTML、XML格式的)、Web结构数据(如Web文档中的超级链接)、用户访问数据(如服务器上的Web LOG日志信息)。相应地,Web挖掘也分为三类:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用模式的挖掘(Web usage mining)。如图2所示:
  图2 Web数据挖掘分类
  以下就从挖掘对象、主要过程、方法等几个方面分别对这三种类型进行阐述。
  3.1 Web内容挖掘
  Web上的信息包罗万象,Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其它各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也称文本挖掘,是Web挖掘中比较重要的技术领域。Web内容挖掘就是针对这些大量的文档的集合进行总结、分类、聚类与关联分析来获取信息。其中多媒体数据的挖掘在近年来收到研究人员的关注。Web文本挖掘的基本过程如图3所示。
  图3 Web文本挖掘的基本过程
  3.2 Web结构挖掘
  Web结构不仅含有不同页面之间的超链接,还包括以HTML或XML表示的树形结构、文档URL的目录路径结构。Web结构挖掘通过分析一个网页链接和被链接数量、对象,建立Web自身的链接结构模式。这方面研究工作的代表有pageRank和CLEVER,它们正是利用了文档间的链接信息,查找相关的Web页。有关方面研究的算法有:page-rank、HITS(Hyperlink-Included Topic Search)以及改进的HITS(将内容信息加入到链接结构中)、Hub/authourity。这些方法可以用来改进搜索引擎。
  3.3 Web使用挖掘
  Web使用挖掘又叫Web日志挖掘,是指从Web访问日志中发现用户的访问模式。运用Web使用挖掘技术能够从服务器浏览器端的日志记录和用户的个人信息中自动发现隐藏数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。Web使用挖掘结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术。Web使用挖掘基本过程可以分为四个阶段:数据采集、预处理、模式发现、模式分析。基本流程如图4所示:
  图4 Web使用挖掘的基本过程
  
  4 结束语
  
  随着Web的迅猛发展,Web资源越来越丰富。如何更好的利用这些资源已成为大家关注的热点。Web站点设计、电子商务等工作变得更复杂、繁杂。由于Web数据挖掘在我国起步较晚,许多与之相关的技术都有待更新、提高和发掘。随着研究的进步,Web数据挖掘会变得更加轻松方便。
  
  参考文献:
  [1]马保国,候存军,王文丰,钱方正. Web数据挖掘及应用[J]. 计算机与数字工程, 2006,34(6):20-22.
  [2]将座东, 黄发良. 基于Web的数据挖掘研究综述[J]. 湖南工程学院学报, 2007,(3):61-64.
  [3]王焱梁. Web数据挖掘技术应用[J]. http://www.cnki.net.
  [4]顾晓燕. 关于Web挖掘技术的研究[J]. 电脑知识与技术, 2005,2:70-72.
  [5]李琳, 吴成东, 韩中华, 胡静. 基于Web的数据挖掘技术[J]. 计算机应用, 2007,(2):74-77.
  [6]朱德利. Web结构挖掘的XML实现策略[J]. 计算机工程与设计, 2006,(12):4447-4449.
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
第一台国产高级中文计算机、第一块填补了国内空白的大容量计算机硬盘驱动器,这两个“第一”让人们在20多年前就认识了这个饱含民族情结的品牌——长城。作为我国最早生产电脑的企业,长城的业务涵盖计算机核心零部件、计算机整机制造、软件和系统集成以及宽带网络和增值服务四大领域,产品包括台式电脑、笔记本电脑、显示器、电源、服务器、打印机及网络数码产品。在国内IT业风云变幻、跌宕起伏的20多年里,长城电脑凭借雄厚
期刊
在夜深人静时,笔者喜欢将液晶电视与电脑连接播放电影,虽说在线电影很丰富,但清晰度都不怎么好,而BT下载HDTV又需要时间。所以时常去楼下的音像店租DVD碟,但用电脑播放DVD碟时,光驱噪音非常大,严重影响了看大片的感觉,为DVD光驱降噪势在必行了。    一、降低DVD风噪  为了降低欣赏DVD大片时的噪音,首先就是降速,DVD光驱在读取DVD影碟时,光盘高速旋转就会产生风噪,DVD光驱的速度越高
期刊
采用Google独门技术研发而成的Google Web Accelerator是一款网页浏览加速小工具,假如自己平常在家中上网时总是嫌打开网页的速度较慢,那就让这款软件来助咱们一臂之力吧!一定错不了。    下载安装  在IE中打开 http://webaccelerator.google.com/这个站点,单击窗口右侧的"Dowmload now"图标按钮(图1),下载该工具。下载完毕后,进行相
期刊
摘要:在实际应用中,串口是计算机与外部串行设备之间常用的数据传输通道。本文介绍了串口通信的基本原理和函数,提出了在windows环境下实现串口通信的一般方法和步骤,并在VB6.0下编程实现。  关键词:串口通信;监控;VB6.0  中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)18-31487-01  VB6.0 Equipment with Serial Commu
期刊
对于企业用户而言,打印机是必须不可少的办公设备,而且为了高效管理和成本控制的考虑,很多公司都通过局域网内共事打印机使用,这样不仅可以提高打印效率,节省员工的时间,而且还方便管理,但不少用户对局域网打印知识不大了解,并且不懂得如何进行远程管理打印机,本文就告诉大家如何进行局域网打印,以及打印机远程管理的方法。
期刊
电脑为生活和工作带来了便捷,为了上网、办公、游戏、看电影,不少人甚至终日伏案在电脑前,然而电脑具有辐射、噪音、细菌等污染,这样带来了潜在的健康危害,长时间用电脑后,总是出现疲劳、恶心、视力下降、记忆减退等病状。为了减少电脑对人体健康的危害,建议用户选择环保型PC,以此让自己健健康康体验电脑生活。    一、电脑影响人体健康    对于一台电脑而言,它对人体所带来的危害很多,但总体概括起来主要有四方
期刊
暑期已然过去,应来了新学期的开始,对于升学的学生而言,在跨入大学新校园的时候,一定希望很快融入学习和娱乐的校园生活,如果有一台笔记本,不但可以上网查找学习资料,业余之下还可以看电影、听音乐、玩休闲游戏等,但对于学生而言,购买笔记本需要考虑实际应用,同时必须掌握一些基本采购常识。
期刊
一段时间来,ARP欺骗木马病毒在大面积危害局域网的安全。感染此木马病毒的计算机试图通过ARP欺骗手段截获所在网段内其实它计算机的通信信息,关因此造成网内其它计算机的通信故障。
期刊
参评软件信息及测试环境    本次横向对比测试中,我们选取了Foxmail、DreamMail(梦幻快车)、Koomail(酷邮)、The Bat! 四款邮件收发软件,均使用其最新版本。本次测试将从软件的界面、账户创建、邮件收发、邮件搜索、反垃圾邮件、安全性等多方面进行横向测试,为大家提供参考。具体的硬件测试环境如下:     账户创建和易用性对比    1.Foxmail  Foxmail第一次
期刊
朋友近来爱上了QQ邮箱,因为QQ是她每天必需用的东东,进入QQ邮箱方便,还有它提供了很多超值个性的功能,让她爱不释手。可是她平时使用的126、雅虎等邮箱,其中有许多的重要的联系人邮箱,想把它们加入到QQ邮箱中,这可如何操作呀!难道要一个一个来添加吗?这可不是一件简单的事儿,非把她搞晕不可。  虽然126、雅虎等邮箱都提供了联系人的导入/导出功能,但不能直接把导出的联系人添加到QQ邮箱中。经多次试验
期刊