数据挖掘技术探讨及其基于web的应用研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:bowangmosong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。论述web数据挖掘的基本概述,基本原理,然后讨论web数据挖掘的实现,最后对web数据挖掘的应用进行阐述。
  [关键词]数据挖掘 web 应用
  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120071-01
  
  一、引言
  
  在网络环境下,人们可以借助互联网上丰富的信息资源、功能强大的搜索引擎和快捷的传送手段,使文献资料的搜集和获取变得十分容易,然而在使用中,人们也发现要准确、快速地查找自己所需的信息却是越来越困难。Web数据挖掘应运而生,web挖掘指使用数据挖掘技术在www数据中发现潜在的、有用的模式或信息。web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等,数据挖掘技术不仅能够对过去的数据进行查询和遍历,并且能够找出数据间的潜在联系,从而促进信息的传递。他使数据库技术进入一个更高的阶段。
  
  二、web数据挖掘概述和基本原理
  
  (一)web数据挖掘概念。web数据挖掘是一项综合技术,是从www资源上抽取信息(或知识)的过程,是对web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。他反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对www资源进行挖掘的一个新兴的研究领域。 web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。web数 据挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面, web文档分类、web log挖掘、智能查询、建立MetaWeb数据仓库等。
  (二)web数据挖掘的分类。根据挖掘的对象不同,web数据挖掘可以分为Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)以及Web使用记录的挖掘(Web usage mining)。
  (三)web数据挖掘中主要技术。Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
  (四)web数据挖掘的基本原理。web数据挖掘的基本原理:目标数据集就是根据用户要求,从web资源中提取的相关数据,web数据挖掘主要从这些数据通信中进行数据提取;预处理是从目标数据集中除去明显错误的数据和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据开采算法(包括选取合适的模型和参数)寻求感兴趣的模型,并用一定的方法表达成某种易于理解的形式;模式分析是对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。
  
  三、Web数据挖掘的实现
  
  Web上有海量的数据信息,面对Web的数据挖掘是一项复杂的技术,面向Web的数据挖掘成了一个难以解决的问题。由于扩展标记语言XML(Extensible
   Markup Language)能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样、不兼容的数据库成为可能,XML的出现为解决Web数据挖掘的难题带来了机会。
  与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:
  1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
  
  四、数据挖掘基于web的应用
  
  Web数据挖掘已广泛地应用于金融业、电力、电信、科研、制造业、零售以及医疗服务中,对他的应用和研究正在成为一个热点。web数据挖掘的应用前景主要表现在五个方面。
  (一)电子商务。运用网络挖掘技术能够从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。例如通过评价用户对某一 信息资源浏览所花的时间,可以判断出用户对资源兴趣如何等。
  (二)优化Web站点。通过对网站内容的挖掘,可以有效地组织网站信息,例如通过对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。以用户需求为方向,针对用户设计个性化网站,强调信息个性化使得用户能以自己的方式来访问网站。
  (三)搜索引擎。用搜索引擎进行网络信息挖掘的最大特色体现在他所采用的对网页链接信息的挖掘技术上。通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
  (四)可以实现系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
  (五)科研以及数字图书馆。数据挖掘为高校学术研究深入提取网络各种数据资源提供了可能。高校数字网上图书馆就是要寻求一种有效的信息组织、管理方式,并对相关信息进行深层的加工和处理,提供多层次的、智能的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品。Web数据挖掘技术是解决这一问题的有效途径。它可以直接用于挖掘文档的内容,或在其他工具搜索的基础上进一步进行处理,得到更为精确和有用的信息。数字图书馆利用Web数据挖掘,可以对网络中的重要信息资源进行有效的导航和整合。
  数据挖掘在高校教研的价值数据获取应用方面,主要体现在数字图书馆的信息化上。表现为:指导数字图书馆采集各种信息数据、有助于完善数字图书馆栏目结构布局、实现数字图书馆提供个性化服务。
  
  五、结束语
  
  总之,本文探讨了基于web的数据挖掘的概念、基本原理、实现以及其目前的主要应用。如何进一步发展web数据挖掘,充分高效的利用web各种资源,需要进行更加深入的研究。
  
  参考文献:
  [1]韩家炜、孟小峰、王静、李盛恩,Web挖掘研究[J].计算机研究与发展. 2001.(04).
  [2]钱小军,Web文本挖掘技术研究及其实现[D].中国优秀博硕士学位论文全文数据库(硕士).2002.(02).
  [3]王丽娜,WEB日志挖掘的研究和实现[D].郑州大学.2005.
其他文献
[摘要]通过对GPS车载导航系统引发的交通事故的分析,联系日本和欧盟的相关设计导则,对制定符合我国国情的设计导则提出建议。  [关键词]GPS车载导航系统 安全性 设计导则  中图分类号:TN96 文献标识码:A 文章编号:1671-7597(2008)1120013-01    近年来我国车载导航系统的发展极为迅猛,但针对导航系统安全性的相关法规尚未出台,市场现有产品种类繁多,但安全性难以保障。
期刊
[摘要]设计了全面的动模试验,模拟线路一侧保护是LFP-902A,另一侧是CSL-l01A,在各种工况下考验了两套装置的高频保护动作情况。  [关键词]旁路保护 高频保护 非全相运行 动模试验  中图分类号:TM7 文献标识码:A 文章编号:1671-7597(2008)1120008-01    目前在成都地区220kV及以上电压等级主网系统中,都普遍的配置了高频保护,并且所有重要220kV线路
期刊
[摘要]电阻电容在线测试实现电阻电容测量的自动化,拓宽测试的量程范围,提高测量的精度。给出电阻电容在线测试的硬件和软件设计。   [关键词]单片机 电阻 电容 在线测试 LCD  中图分类号:TM93 文献标识码:A 文章编号:1671-7597(2008)1120021-01    对电子元器件的检测可分为在线检测合肥在线检测两种。在线检测是用万用表在电路板上直接对元件进行检测。在电路板上,电阻
期刊
[摘要]充分阐述LPC-530型保护器的功能及工作原理,正确认识保护器的作用和功能,对保护低压电动机存在着极为重要的作用。  [关键词]380 V工作段 保护器 功能  中图分类号:TM6 文献标识码:A 文章编号:1671-7597(2008)1120034-02    LPC1-530低压电动机综合保护测控装置主要用于380V低压电动机的保护和测控。为低压电动机提供各类启动和停车控制功能、保护
期刊
[摘要]空间数据挖掘技术(Spatial Data Mining)是建立在空间数据库的基础上,通过使用各种机器学习技术,从海量空间数据中挖掘出未知的有用的规律和知识,从而提供支持决策的依据。在现在已建立的GIS空间数据库中,大量的可分析、分类的知识,如空间位置分布规律、空间关联规则、形态特征区分规则等都隐藏在空间数据中需要被挖掘才能被发现。因此,空间数据挖掘技术就显得尤为重要。因而对于空间数据挖掘
期刊
[摘要]随着科技的发展,电子商务日益成为当前经济活动中的焦点,网络交易也成为热点。与此同时,网络安全却影响这网络交易的进行。分析探讨PKI技术应用于网络交易系统的情况。  [关键词]PKI 网络交易  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1120040-01    一、PKI技术简介    (一)何谓PKI技术  所谓PKI(Public Key Infra
期刊
[摘要]简单介绍MPEG四种压缩标准及应用,重点介绍MPEG-2的组成。  [关键词]MPEG-2 帧内压缩 帧间压缩 图像组I帧 B帧P帧  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1120022-02    MPEG是活动图像专家组的缩写,成立于1988年,致力于系统标准的制定。  MPEG-1标准是用于存储媒体的活动图像和伴随音频的编码,即在数字存储介质中
期刊
[摘要]针对基于Web的地理信息系统开发难度大,系统不稳定等问题,提出一种中间件技术,此技术在采油工程信息可视化系统中,取得了良好的效果。实践表明,WebGIS中间件可以无缝地嵌入到Web主页,实现网络环境下的GIS应用系统,一方面降低了系统的复杂性,加快了开发速度;另一方面也可以降低成本,增加可维护性。  [关键词]WebGIS 中间件 采油工程  中图分类号:TP3 文献标识码:A 文章编号:
期刊
[摘要]ASP和JSP是目前市场上比较流行的两种动态网页制作技术,二者在理论体系、开发平台、性能、开发效率、与数据库连接及安全性等几个方面各具特色。对asp技术和jsp技术开发web进行详细比较,对目前流行的两种服务器端动态网页技术从原理、性能、应用范围等各个方面作详尽的比较分析研究。  [关键词]Jsp asp web平台 服务器 客户端  中图分类号:TP3 文献标识码:A 文章编号:1671
期刊
[摘要]word2003是现在比较流行的文字处理软件之一,也是Office2003办公套装软件的一个重要组成部分。在日常的工作中,我们可以通过技巧更快捷灵活地使用它。  [关键词]Word2003 使用技巧 快捷灵活  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120052-01    在日常工作中,我们经常要做一些文档的处理工作。用Word 2003编辑文档固
期刊