Web日志数据挖掘技术及应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:cyscwbr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]随着Web应用的高速发展和广泛普及,在Web服务器上收集大量的Web日志,这些日志记录Web用户对Web页面的每一次访问的过程,是一种宝贵的信息财富。主要介绍数据挖掘技术的应用。
  [关键词]Web日志 数据挖掘 应用
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220072-01
  
  一、Web数据挖掘技术
  
  数据挖掘就是从大量的数据中提取隐含的、事先未知的、具有潜在价值的有用信息。随着Web技术的发展,我们的网络正在面临着信息时代的挑战,大量的数据和记录充斥Internet,如何从中找到我们需要的有价值的信息和知识是我们面临的问题。Web数据挖掘就是从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息的过程。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。
  (一)Web数据挖掘技术概述
  Web数据挖掘可分为内容挖掘、使用记录挖掘和结构挖掘等。所挖掘的对象为服务器日志数据、在线市场数据、Web页面、Web页面超链接关系及其它信息,通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进我们的Web服务端设计。而更重用的是,通过对这些用户特征的理解和分析,可以有助于开展有针对性的电子商务活动,而对每个用户访问行为、频度、内容等的分析,能提取出每个用户的特征,为用户提供个性化的电子商务服务。发现Web用户访问模式可改进网站的拓扑结构以及改善分布式网络系统的性能,如在有高度相关的站点间提供快速有效的访问通道,帮助改善市场营销决策等等。
  (二)Web使用挖掘的过程
  Web使用挖掘过程主要包括数据预处理过程、发现模式的过程以及分析结果模式的过程。如下图1所示。
  


  
  二、数据挖掘技术的应用
  
  数据挖掘技术的潜在应用是十分广泛的,从政府管理决策、商业经营、科学研究、工业企业决策支持和Internet服务等各个领域都可以找到数据挖掘技术的用武之地。下面举出目前开展的比较活跃的数据挖掘的应用方向。
  (一)商业中的应用
  其实,数据挖掘技术从一开始就是面向应用的。目前,在银行、电信、保险、交通、零售(如超级市场)等商业领域,数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation&Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。
  数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
  通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
  (二)企业中的应用
  数据挖掘可用于对企业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助经营决策的关键性数据,可以挖掘出影响生产能力的关键因素如预测机器故障、预测生产销售额、决定库存量、批发点分布的规划、调度等,甚至在企业危机管理中也得到了普遍的应用。信息是企业竞争的关键因素。在企业管理过程中,可以利用Web挖掘技术对企业外部环境信息进行收集、整理和分析,尽可能地收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、消费者等与企业发展有关的信息,集中精力分析处理那些对企业发展有重大或潜在重大影响的外部环境信息,抓住转瞬即逝的市场机遇,获得企业发展的先兆信息,采取有效措施规避危机,促使企业健康、持续地发展。
  利用数据挖掘技术、数据仓库技术和联机分析技术,管理者能够充分利用企业数据仓库中的海量数据进行分析,并根据分析结果找出企业经营过程中出现的各种问题和可能引起危机的先兆,如经营不善、观念滞后、产品失败、战略决策失误、财务危机等内部因素引起企业人、财、物、产、供、销的相对和谐平衡体遭到重大破坏,对企业的生存、发展构成严重威胁的信息,及时做出正确的决策,调整经营战略,以适应不断变化的市场需求。
  (三)Internet上的应用
  Internet上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。除了Web内容,其服务效率也很重要,通过Web日志数据挖掘,可以提供网站服务效率全方位的信息。从而有助于找到平衡服务器负荷,优化传输减少拥塞的方法,缩短用户等待时间,提高系统效率和服务质量。
  随着Internet技术的迅猛发展,Web结构的复杂度也在飞速地提高。因此,Web站点和Web服务器的设计和维护难度也在增加,通过Web日志数据挖掘提供的用户使用网站信息,可以帮助网站设计者确定如何修改网站结构。
  
  参考文献:
  [1]吴艳,web日志挖掘技术的研究及应用[D].杭州,浙江工业大学.
  [2]杨厚群,web日志挖掘技术及应用研究[D].重庆,重庆大学.
其他文献
[摘要]介绍一种基于单片机和EDA技术的逻辑分析仪,阐述逻辑分析仪的工作原理和软硬件设计。  [关键词]逻辑分析仪 FPGA 单片机 AD7715  中图分类号:TP2文献标识码:A文章编号:1671-7597(2009)0220029-01    一、引言    随着大规模集成电路和微型计算机的发展,现代数字系统越来越复杂。在很多数字电路的研究和实验中,往往需要同时查看多路数字信号的时序关系,甚
期刊
[摘要]将web service技术与J2ME技术相结合,利用J2ME开发手机客户程序,调用企业应用服务器发布的Web Service,手机客户程序可以解析Web Service返回的XML数据。  [关键词]J2ME Webservice XML SOAP JSR17  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220051-01    一、引言    与以PC为
期刊
[摘要]阐明Visual Basic可视化编程方法进行图形程序设计的通用方法,以具体实例说明了Visual Basic图形处理过程中坐标设置、像素点、图形、颜色值的定义、读取、处理及各种图形艺术化处理的技术和方法,并给出处理图形的应用程序。  [关键词]VB 图形方法 像素 过程代码  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220069-01    一、引言  
期刊
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220054-02    提到FTP服务器,可能大家都会想到Serv-U、vs-FTP等软件,确实,Serv-U是一种被广泛运用的FTP服务器端软件,支持全Windows系列。可以设定多个FTP服务器、限定登录用户的权限、登录主目录及空间大小等,功能非常完备。它具有非常完备的安全特性,支持SSl FTP传输,支持在多个Ser
期刊
[摘要]对一个生物电波应用程序中的数据采集方法进行了研究,阐述多线程的原理及实际应用方法,运用VC++实现了数据采集。生物电波应用程序是针对医院的一些生物电波采集仪器,结合现代医学生理学原理与临床应用的实际需要设计的。医生在生物电波采集设备的帮助下,通过计算机上简单的操作界面,对患者的身体某部位的生物电波进行采样,然后对所得到的数据进行分析和测量。  [关键词]数据采集 VC++ 生物电波  中图
期刊
[摘要]互联网技术屏蔽了底层网络硬件细节,使得异种网络之间可以互相通信。TCP/IP协议组是目前使用最广泛的网络互连协议。但TCP/IP协议组本身存在着一些安全性问题。这就给“黑客”们攻击网络以可乘之机。由于大量重要的应用程序都以TCP作为它们的传输层协议,因此TCP的安全性问题会给网络带来严重的后果。  [关键词]TCP/IP 定时器 状态转移  中图分类号:TP3 文献标识码:A文章编号:16
期刊
[摘要]SQL是高级的非过程化编程语言,可以写出非常复杂的语句。SQL数据库编程技术在Foxpro中的应用是FoxPro推出的另一项具有革命性意义的关键技术。介绍SQL的定义以及SQL数据库编程技术在Foxpro中的应用。  [关键词]SQL语句 非过程化语言 存储过程  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220071-01    当今,数据库联网实现数据共
期刊
[摘要]遥感资料的特点、解译方法、标志及其在1:5万矿调中综合应用有助于提高成果质量。是用来区分和识别不同物体或确定物体属性的特定影像特征。  [关键词]遥感 解译方法 解译标志 影象特征  中图分类号:TP7文献标识码:A文章编号:1671-7597(2009)0220040-02    遥感(Remote Sensing)是六十年代发展起来的一系列远距离探测先进技术的总称。它采用了红外、微波、
期刊
[摘要]随着信息技术、网络技术和电子商务的高速发展,在广泛开放的网络平台上部署全球性的企业应用系统已经得到广泛的应用。J2EE作为中间件技术史上的一块具有决定意义的里程碑,相应地关于J2EE安全的研究也越来越广泛。以某工贸公司物流管理信息系统为背景,对基于J2EE技术的企业应用系统的安全进行了研究。  [关键词]J2EE技术 物流管理 访问控制  中图分类号:TP3文献标识码:A文章编号:1671
期刊
[摘要]由于ARP协议自身设计上的不足,使得ARP协议在使用的过程中存在ARP攻击等网络安全问题。分析ARP攻击的几种方式,给出几种抵御ARP攻击的防范措施。  [关键词]ARP协议 MAC地址 ARP攻击  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220073-01    随着计算机网络技术的发展,网络已经成为人们日常生活中不可缺少的部分。由于网络的开放性、资源
期刊