基于Web数据挖掘技术研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:liuxpeter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:基于Web的数据挖掘是采用数据挖掘技术对网页资源进行挖掘的一个热门研究方向,此文分析了了网页数据挖掘的概念、分类、挖掘原理以及相关技术。
  关键词:数据挖掘;Web数据挖掘;分类;挖掘技术
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)09-0016-02
  Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology
  Key words: data mining; web data mining; classification; mining technology
  互联网的不断得到发展,网页中数据量迅速增加,如何从这么多的网页信息中获取有用的数据已经成功数据挖掘领域的一个热门的研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道, 尤其大量运用与社会和科学的方方面面。一般来说数据挖掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页数据中挖掘出来,为我們从事其他方面的运用。基于网页的数据挖掘是一门技术的综合研究方向,它的思想是从Internet中提取网页中的大量数据,也就是从网页的数据结构中发现隐含的模式[1]。
  1 数据挖掘的特点
  1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖掘的最大特点[2],因为网页上的数据分布没有规律,非常复杂,没有任何固定的模式能够很好的描述它的特点。因此称它为半结构化。
  2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数据存在世界各地的很多服务器上,因此是一种数据源分散的结构。
  3) 数据挖掘的特点之三是数据库的结构存在不同,因为互联网上的一个网站可以存为一个数据源,它们的结构互不相关,异构性特点比较强,由它们构成的数据库自然而然也属于一种异构的形式。
  4) 数据挖掘的特点之四是动态性强,网站上的数据资源是不断更新变化的,找不到固定的形式,网站与网站的直接访问的链接是形式变化的。
  2 数据挖掘过程
  基于Web的数据挖掘与传统的数据仓库相比,网页上的信息是半结构化的或非结构化、不容易识别、变化的,正因为它这些特点,要想在网页上开展直接数据挖掘,可谓很费功夫,就要借助一些方法来预处理数据,才能方便挖掘。通常进行网页数据挖掘可分为的如图1所示的四个步奏。
  1)数据源的获取,在网站的各个页面中获取数据信息,组成目标数据信息源,再从这些信息源中找到相关有用的数据。这个过程的目的就是从像网页文档、email、网页记录、新闻信息、各种网站数据库中挖掘出有用的数据。
  2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那些杂音数据,保证数据源的纯正,然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。
  3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析法、关联规则发等挖掘方法。
  4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识的转换过程,把提取到的模式再进行信息转化,转化为我们能够理解,识别的知识,为我们的决策需要提供有用的参考源。
  3 数据挖掘分类
  在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一种方法,这样挖掘的数据相应的杂音数据就比较多。大体上,我们把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网页内容挖 [3],如图2所示。
  4 数据挖掘相关技术
  互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对网页挖掘的各种方法和技术不断出现,就这些相关的技术[4],下面分别一一介绍。
  4.1 网页内容挖掘
  4.1.1 网页文档挖掘
  网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚类、分类、关联处理等多种方法进行分析,然后根据网页文档进行预测。在Internet的文档数据一般都是以html格式的网页文档出现,要采集这些网页文档数据,然后把这些文档数据变成记录的形式存贮进数据库,把这些记录用来表示文档内容特征,为后续的分析提供保障。表示文档的特征形式通常使用文档特征向量形式, 由于文档的特征表示中存在一些缺陷,文档的特征向量的维数非常高,对数据分析不利,因此一个好特征表示主要集中在特征集的选取方面,特征集需求好,对数据进行分析的时间就相对少,如果选取不好,将要花很长时间去等待。因此特征集选取好坏成为数据分析额关键。一旦特征集选择好后,就可以采用聚类、分类、数据关联等方法来进行提取信息,然后对这些提取的信息进行评价分析,找到有用的信息,为后续的决策工作提供指导。
  4.1.2 挖掘网页多媒体
  在进行网页多媒体挖掘主要关注的是特征提取,这点网页内容挖掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或者图片的颜色特征、键值、形式以及它们的URL,最后根据这些特征进行数据挖掘。   4.2挖掘网页结构
  挖掘网站空间中的知识,不仅关注包含在各个网页内容中的信息数据,同时也关注网站与网站之间的网页结构和超级链接结构,这也是非常重要的。进行网页结构挖掘主要分析网页结构之间的特征,利用聚类和分类来分析页面结构特征,找到特征模式。
  4.3 网页使用挖掘
  网页使用挖掘也是挖掘网页记录,实际就是挖掘用户在网页上留下的相关的记录信息,网页使用挖掘就是分析用户留言记录的相关信息,通过这些信息时报未来需要发展的用户; 网页使用挖掘通常使用扩展有向树模型分析用户的各种浏览行为习惯,挖掘出用户的日志信息,以及用户关心、关注的兴趣领域,把这些信息存放在知识库中,未下一步的分析工作提供数据, 对网页使用日志挖掘可分为三个步骤:日志预分析、分析方法处理、 模式分析阶段。在网页使用分析中,关注网页服务器记录的相关信息,这些信息主要包括用户访问的时间、URL、IP、使用方法、代理、返回结构、传输数据等相关信息雖然信息比较多,但是还存在无用的数据,需要进行提纯处理。一旦数据处理后,就能采用关联分析、如路径分析等模式发现技术来分析日志,获取有用的信息。
  5 结束语
  本文介绍了网页数据挖掘的相关概念、挖掘过程、分类方法以及相关技术。在Internet发展的今天, 网页数据挖掘的研究方面更加宽,人们不断关注如何对这些网页数据的处理。网页数据挖掘在各个方面,特别在结合语言问题、查询半结构化、数据库方面会得到不断发展。
  参考文献:
  [1] ITU–T Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.
  [2] 范亚芹, 刘颖. Web数据挖掘原理及实现[J]. 吉林大学学报, 2003(4):370-373.
  [3] 朱明编. 数据挖掘[M]. 安徽:中国科学技术大学出版社, 2002:105-122.
  [4] 左铁镛. 全面推进素质教育, 培养21世纪新型人才[EB/OL]. http://tjjs .bjedu.gov.cn/ acade/001. htm.
其他文献
摘要:根据应用需求,基于MATLAB GUI设计了数据格式标准化软件。首先对基于MATLAB GUI的软件设计流程进行了概述,之后对MATLAB GUI 数据传递的关键技术方法进行了介绍,结合对设计软件的主要功能的说明,分析了MATLAB GUI设计的优缺点。  关键词:MATLAB;GUI;数据格式;软件设计  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01
摘要:該文针对永磁同步电机(PMSM)的矢量控制,针对PMSM在坐标下的数学模型使用扩展卡尔曼滤波方法,根据测量永磁同步电机的电压、转速和转子位置对永磁同步电机三相电流进行观测,最后在Simulink里搭建永磁同步电机的矢量控制模型与EKF电流观测器模型。仿真结果表明电流观测器估计精度较高、运行稳定,动静态性良好。  关键词:永磁同步电机;矢量控制;电流观测器;扩展卡尔曼滤波  中图分类号:TP1
摘要:人脸识别在实际应用中,通常由于光照的影响导致识别率的大幅下降。针对这一情况,该文从人脸图像预处理和特征提取算法两方面进行改进。文章首先采用了基于光照分量的算法进行人脸图像预处理,提高了算法对于光照的鲁棒性,然后提出了改进的结合了Gabor小波和LBP滤波的算法,并在有光照变化的标准人脸库上进行识别率测试。实验结果表明,该文算法对于变化光照的鲁棒性较高,在标准人脸库中的识别率最高可达到98.9
摘要:介绍了Windows NT平台下RootKit实现的基本原理及步骤,探讨了在Windows平台下进行Ring0级编程的实现及如何修改安全参考监视器来彻底突破NT的安全防御系统,并给出了整个RootKit的部分核心汇编源代码。  关键词:RootKit;Windows NT;Ring 0;安全参考监视器  中图分类号:TP309文献标识码:A文章编号:1009-3044(2008)35-255
摘要:C语言作为计算机设计的高级语言,拥有很广泛的用途,该文讲述了使用C语言如何去实现模拟一个简单的Linux文件系统,对于我们学习操作系统知识有很好的借鉴作用。  关键词:C语言;Linux;文件系统  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)14-0058-03  Linux作为全球目前最大的一个自由免费软件,是一个能够与windows操作系统所能所相媲
在这个互联网时代,看电影、电视剧成为我们平时生活的一部分。但受限于网络问题,我们并不是所有时候都可以在线观看,基于此,许多人都习惯了把视频下载回来再欣赏。但对于忙碌的朋友而言,又不可能一直守着电脑下载。这个时候,离线下载就成为唯一选择。如果你计划在家里搭建无线网络,具有离线下载功能的无线路由器成为首选。为了方便大家选购,下面笔者就为读者们推荐几款离线下载路由器,并对它们进行试用体验。  推荐1:迅
摘要:随着计算机技术与网络技术的发展,远程教学方式受到越来越多人的关注。通过计算机网络进行远程教学能够扩大受众的规模,并体现教育的公平性,因此计算机远程教学在当今社会中有着非常大的发展空间及潜力。但是就目前我国远程教学实施的实际情况来看,教学手段还是显得过于单一,多数都是采用为受众提供视频、资料下载的方式或者视频播放的方式,学习者没有跟教学者形成一定的交流互动,缺乏沟通,导致遇到不懂的问题或存在疑
摘要:体绘制是渲染三维数据场的重要技术,可以探索物体的内部结构,相对于面绘制和切片技术体绘制能够更加形象地展示物体的内部形态,描述非定形的物体。然而体绘制算法复杂度高,数据存储量大,计算时间较长,为了能解决体绘制渲染效率问题,论文介绍了基于GPU加速的光线投射算法实时体绘制技术,并在此基础上提出了基于FBO的快速混合体绘制算法,解决了体绘制图形与常规图元同屏绘制互相遮挡的问题,目前该方法已应用于三
摘要:该文根据武汉航海职业技术学院信息工程系各专业《计算机网络基础》课程开设情况和高职院校学生的学习特点,结合自己多年教学实际提出了多种改进课程教学的方法和优化课程考核方式。  关键词:网络基础;教学方法;过程学习;授课形式;检测卡  中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)27-0126-03  Abstract: This paper according
摘要:高校民主的公平性决定了高校教师的幸福工作指数,伴随云计算技术的深入应用,在高校民主管理领域结合云计算技术转变高校民主管理模式,搭建基于云技术的高校民主工作信息系统,进一步增强高校教师民主管理意识,创新民主参与范围,优化民主管理流程,提高民主管理和民主监督的效率和质量,全面提升高校民主管理的决策水平和执政能,是高校民主管理值得深入研究的课题。文章论述基于云计算技术搭建高校民主工作信息系统的可行