WEB的数据挖掘技术的研究与实现

来源 :决策与信息·下旬刊 | 被引量 : 0次 | 上传用户:xx19890701
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 数据挖掘是一个逐渐演变的过程。最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来
  关键词: WWW Web数据挖掘
  中图分类号:TP311文献标识码:A
  
  一、 WWW局限性
  WWW上的信息量每天以几何级数增长,目前信息资源已经成为一个天文数字。如何利用这些大量的数据对我们提出了挑战,也就是说,怎样把Web转换并且组织,使其成为一个更加有用的信息服务体系。
  二、数据挖掘技术
  (一)数据挖掘概述。
  近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一趋势仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。怎样才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,变得越发的重要。要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,数据挖掘和知识发现DMKD技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
  (二)数据挖掘的历史背景。
  数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历,数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
  (三)数据挖掘的研究现状。
  KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。
  (四)数据挖掘的概念。
  从技术上来说,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
  (五)数据挖掘的范围。
  ▲自动趋势预测
  数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。
  ▲自动探测以前未发现的模式。
  ▲数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行。
  (六)数据挖掘与传统分析方法的区别。
  数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效性和实用性三个特征。
  (七)数据挖掘的任务、方法、及技术。
  1、任务。
  数据挖掘所能发现的知识有如下几种:
  (1)广义型知识;(2)特征型知识;(3)差异型知识;(4)关联型知识;(5)预测型知识;(6)偏离型知识。
  从挖掘任务和挖掘方法的角度,着重讨论数据抽取、分类发现、聚类和关联规则发现四种非常重要的发现任务。
  2、方法。
  数据挖掘的基本过程和主要步骤如下:(1)确定业务对象;(2)数据准备;(3)数据挖掘;(4)结果分析;(5)知识的同化。
  3、数据挖掘的常用技术。
  (1)人工神经网络。(2)遗传算法;(3)决策树方法;(4)其他方法。另外还包括临近搜索方法、集合论的粗集方法、规则推理、模糊逻辑、公式发现等方法。
  三、Web数据挖掘分析
  Web内容挖掘是Web挖掘的一个重要方向,它包括基于代理访问和数据库访问。其中,基于代理访问分为:智能搜索代理、信息过滤/分类、个性化Web代理;数据库访问分为:多层次数据库、Web上的查询系统。
  作为Web挖掘的另一个重要组成部分,Web应用挖掘主要包括:预处理、识别处理、模式发现工具、模式分析工具。
  将数据挖掘技术应用到WWW上是一个新兴的课题,同时也具有很大的实用价值。本文详细论述了数据挖掘技术以及Web实现,并提出一种自动从Web提取所需信息的方法,但这只是实现Web数据挖掘最基础的一步,还有更多的工作需要我们去做。当前的数据挖掘在WWW上的应用研究也处于起步阶段,还存在很多问题,随着WWW对我们生活的影响日益加深,数据挖掘技术的不断发展,今后,两者之间的相互结合也必然会越来越紧密,技术也一定会越来越成熟。
  (作者:湖北工业大学电气学院2007级计算机专业研究生 研究方向:计算机技术应用)
  
  参考文献:
  [1]S.Madria,S.Bhowmick,W.K.Ng,E.P.Lim,Research Issues in Web Data Mining.
  [2]N.Gudivada,V.Raghavan,W.Grosky,R.Kasanagottu,Information Retrieval on theWorkd Wide Web.
  [3]朱爱群编著.客户关系管理与数据挖掘.中国财政经濟出版社,2001.
  [4]史忠植编著.知识发现.清华大学出版社,2002.
  [5]商琳等一种基于数据仓库的数据挖掘系统的结构框架.计算机应用研究2000(9):63.
其他文献
笔者先对分析电气工程施工中的常见问题,然后再提出了电气工程施工中安全质量控制的方式.
9月6日,全省工会促进就业服务启动仪式在大连举行.省人大常委会副主任、省总工会主席杨忠林出席启动仪式,并就相关工作提出了具体要求.大连市委常委、市委秘书长熊博力出席仪
期刊
打磨2110公里rn大家或许不知道,钢轨在火车反复碾轧后,表面会产生裂纹、掉块等损伤,火车在磨损的轨道上运行就不平顺,乘客乘车舒适度会降低.这就需要钢轨打磨工用打磨机打磨
期刊
电力电缆是用于传输和分配电能的电缆,常用于工矿企业供配电、发电站引出线路和城市电网中,电力电缆的敷设技术直接关系到电网安全运行.本文从电缆敷设一般要求、敷设方式及
本文在企业文化建设实践的基础上,提出有关企业文化的新观念,较深入的阐述了新型文化在企业经营过程中的深远意义,并提出来一系列具有指导性的建设措施.这是一篇具有理论与实
去年以来,河南省方城县检察院共办理非法吸收公众存款、集资诈骗等涉众型金融犯罪案件64 件131 人,涉及16 个罪名。通过梳理发现此类案件主要有“五大特点”,亟须引起高度重视。  一是回报高。在非法吸收公众存款案中,犯罪分子往往以比正规银行存款高得多的利息为诱惑,虚构巨额回报期望,进行集资诈骗违法犯罪活动。二是人数广。受到利益驱动,非法集资案件的集资人数往往很多,且涉及许多社会群体。三是危害大。非
期刊
长期以来,基层检察机关内设机构存在设置不合理、分工不平衡、标准不统一等问题,一定程度上制约了检察职能的充分发挥.司法改革背景下,检察专业化建设对内设机构设置提出新要
期刊
本文充分分析我国中小企业信用担保体系发展现状,在借鉴发达国家经验的基础上,针对国内信用担保业发展存在的实际问题,提出了我国中小企业信用担保体系建设模式构想.
按照传统的黄金储备管理方法,黄金储备是不流动的,如要动用黄金储备必须经有关方面许可.这种固定的、封闭的管理方法,使央行承担了黄金储备的机会成本和金价下跌的风险.为了
变电站中配备着很多的设备,一次设备是其中重要的组成部分,在变电站中发挥着重要的作用.只有变电站一次性设备的正常运行,才能保证发电厂发出来的电能顺利的输送给用户.因此,