面向企业的Ｗｅｂ使用挖掘研究

来源 :中小企业管理与科技·学术版 | 被引量 : 0次 | 上传用户：fbyang

【摘要】

：

【作者】

：

张　彤　童向兰

【出处】

：

中小企业管理与科技·学术版

【发表日期】

：

2008年7期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：Web使用挖掘是Web数据挖掘的一种，通过分析用户浏览网站的模式，发现对企业决策、管理有用的知识与信息。本文介绍了几种常见的Web使用挖掘方式和相应算法，并说明了它们在企业经营中的具体应用。
　　关键词:Web使用挖掘日志数据挖掘
　　
　　现代企业在决策、管理、营销等环节变得越来越依赖于快速膨胀的互联网，很多公司和机构都架设了Web服务器开展电子商务和提供在线服务，有的大公司还通过互联网实施全球化管理，协同各个部门的工作。对企业Web服务器上保存的数据进行数据挖掘能够发现隐藏在海量数据下的知识与信息，对于提高企业竞争力有重要的价值。
　　
　　1、Web使用挖掘
　　
　　Web使用挖掘是Web数据挖掘的一种，与常规的数据挖掘不同，它的数据来源不是数据库而是Web服务器上的日志，故而又被称为Web日志挖掘。根据W3C组织的规定，标准Web日志格式中的各个域为：
　　IP Address 访问者IP
　　User ID 访问者ID
　　Date 本次请求的日期/时间
　　Request 请求方法
　　Status 状态代码
　　Size 本次请求的文件长度
　　有的Web服务器还会加上
　　 Referer 引用者
　　 User Agent 浏览器类型
　　这两个域。客户在浏览企业网站时，每次向服务器请求阅读一个Web页面，服务器都会依据这些信息生成一个记录保存在日志文件里。企业Web服务器日志文件通常积累了大量访问记录，对这些记录进行数据挖掘，可以分析出各种客户访问的模式以及他们对不同产品的兴趣，这些信息对于企业的客户管理、网站建设、产品研发具有重要的价值。
　　
　　2、Web使用挖掘流程及算法
　　
　　Web日志的数据挖掘过程分为数据采集、预处理、数据挖掘三个阶段。由于Web服务器上的日志文件有多种，如访问日志和错误日志等，而同一种日志文件又可能被分割成多个数据文件。所以数据采集工作将多个原始日志文件融合成待处理的数据源文件。
　　2.1 数据预处理预处理阶段的任务是过滤掉无用数据并识别用户。在日志中一般会存在与挖掘无关的数据，如网络搜索引擎对服务器的访问记录，所以这一阶段先要将这些无效记录从原始日志中删去，仅仅留下真实的用户访问记录。由于挖掘算法所需的数据是基于用户访问的，过滤后的原始记录需要按用户重新组织。
　　尽管在Web日志格式中含有用户名和用户IP域，但用户可能处于防火墙后或使用代理上网，使得不同用户的访问记录具有相同IP，因此难以直接从日志记录识别用户。目前工程中常用的用户识别技术有：使用登录名、Java Servlet、Cookie，也可以使用启发式规则来辨别用户。当某用户访问的所有页面被搜集后使用会话识别算法将其分割成会话（Session），例如，当时间上相邻的两条用户访问记录的时间差相差超过一个阈值则认为它们属于不同的会话，反之则属于同一会话。
　　2.2 数据挖掘 Web日志数据挖掘的目的是分析用户的访问模式、内容，进而获得对企业经营、决策有价值的知识，包括用户的身份、年龄、教育程度，他们对各种产品的兴趣，商业事务之间的关联关系，企业部门之间的互动规律等等。相应的挖掘算法有统计分析、聚类分析、关联规则发现、序列模式分析。
　　2.2.1 统计分析统计分析用以提取日志中基本信息，包括：访问站点用户数，各个页面的被请求的数量和频率等，这些信息对提高网络服务质量、企业市场决策很有帮助。联机分析处理（OLAP）是基于多维信息的快速统计数据分析技术，目前已有许多成熟的商业化OLAP产品，即使用户对这类技术不熟悉也可直接使用。
　　2.2.2 聚类分析聚类是数据挖掘工程中一项常见的任务，例如将浏览模式相近的用户归类，发现他们的消费习惯。聚类分析是一种无监督的模式识别方法，它能在模式的种类与数量未知的情况下把样本按相似性划分成若干有意义的子集。样本的相似性在聚类算法中以所谓的“距离”来衡量，例如，两个Web页面的相似性也称为Web页面距离，计算Web页面距离首先要将Web页面按照一定的关键字映射成矢量，然后计算矢量距离。常见的数据挖掘聚类算法有K-means、神经网络聚类、模糊聚类等[1]。
　　2.2.3 关联规则关联规则也称购物篮分析，目的是寻找数据仓库中数据项之间所存在的关系。Web挖掘中常用的关联规则挖掘算法是1993年提出的Apriori及其改进算法，数据库中出现次数大于一定比例的集合称为大项集或频繁集，Apriori算法循环扫描数据仓库中的记录，搜索第一个大项集，然后每次以刚得到大项集为基础搜索下一个大项集，进而发现这些大项集之间的关系[1]。
　　2.2.4 序列模式挖掘序列指时间上有先后的事务，序列模式挖掘不但寻找事务之间的关联，而且分析这些事务在时间上的顺序，挖掘成果可以应用在消费预测、疾病诊断等领域中。常见的序列模式挖掘有Apriori类算法、Markov模型、GSP算法等。
　　
　　3、Web使用挖掘应用
　　
　　3.1 企业客户关系管理忠诚的客户群是企业最有价值的资产，现代企业的经营方式正由原来的以企业自己为中心转变为以客户为中心。企业互联网网站是企业与客户便捷的联系纽带，如何吸引客户浏览，将随机浏览客户变为消费顾客，偶尔消费型客户变为忠诚客户是企业电子商务的宗旨。通过对企业网站日志进行访问模式挖掘，可以在许多方面帮助企业：
　　（1）对于已注册用户，他们消费记录一般会记录在系统的事务数据库中，对这些数据进行统计，能够了解顾客的消费偏好，有针对性的开展广告宣传与顾客调查活动。
　　（2）提供个性化的网络服务和推荐系统，能够有效的吸引用户注意力，延长他们在企业网站上的停留时间。例如用聚类分析和关联规则挖掘普通用户的浏览路径，可以得知在线用户可能属于哪类顾客，对何种产品感兴趣，从而动态推荐企业产品与服务。
　　（3）优化网站组织结构。如分析用户离开网站的页面，可以发现他们离开的原因，或减少他们浪费在无关网页上的时间，增加他们的浏览时间。
　　一个成功的CRM案例是网上软件商店ASK|net GmbH的Web服务器日志挖掘实践[2]，他们使用序列模式分析、决策树、神经网络等方法来分析用户的浏览路径，试图发现网站所提供服务是否简单而有效，实验得出了许多有价值的信息如：购买流程太长，太复杂，用户需至少点击七次才能完成一次购买事务；付款网页提供的信息不够清晰，许多用户在此网页频繁点击了求助网页；许多用户因无法找回密码而不得不重新注册成为新用户。该网站根据这些信息重新调整了网站结构，设计了新的密码找回系统，明显的改善了服务质量。
　　3.2 优化网站性能网络访问模式挖掘可以提高Web服务器软件的响应速度和安全性。利用挖掘结果可以建立一个用户访问路径的预测模型，负荷较重的企业网站可以根据该模型预测在线用户将要访问的网页，从而实现网络负载均衡和数据预取功能，提高服务性能。文献[3]中还提出了通过挖掘日志中异常的访问记录来发现脚本信息泄漏。
　　3.3 产品研发传统的企业产品研发过程是由企业自行发起并主导的串行流程，包含如下步骤：
　　（1）产品定义；（2）概念设计；（3）细节设计；（4）测试与评估；（5）产品生产。
　　其中设计工作主要由企业的工程师完成。在信息化和全球化的推动下，这个过程发生了巨大的变化。一方面，参与到这个过程的合作者越来越多，包括最终客户、供货商、销售商等，设计工作根据客户需求由多方共同参与完成；另一方面，过程由串行变为并行，任何时间内都可能有合作者修改工程的内容。这种复杂的开发过程需要依靠互联网来帮助实施：开发过程所需的共享资源放在企业Web服务器上，来自世界各地的合作单位通过互联网存取、修改这些资料，对这些用户的访问进行挖掘有助于优化产品研发的过程。HP公司是一个产品众多、分布广的大公司，该公司使用专门的软件WindChill来管理产品的生命周期，文献[4]提出使用关联规则和序列模式对HP公司的相关日志进行数据挖掘，利用挖掘结果深入理解合作各方的关系，改善设计流程，取得了满意的结果。
　　
　　4 总结
　　
　　越来越多的企业意识到Web挖掘是吸引顾客、优化服务的有效途径，目前市场上仅Web日志挖掘工具就有几十种，学者们还在探索新的算法。可以预料，未来Web使用挖掘将继续为人们提供有价值的知识与信息。
　　
　　参考文献:
　　[1]陈安等,数据挖掘技术及应用[M].北京：科学出版社,2006
　　 [2]TheusingerC,Huber K. Analyzing the Footsteps of Your Customers. In Proc. Of Workshop on Web Usage Analysis and User Profiling[J].Web KDD 2000,2000
　　 [3]LI Jian,ZHANG Guo-yin,GU Guo-chang,LI Jian-li.The design and implementation of web mining in web sites security[J]. 哈尔滨工程大学学报(英文版).2003,1(2):81-86
　　 [4]Yew-Kwong Woon,Wee-Keong Ng,Xiang Li,Wen-Feng Lu. Efficient Web Log Mining for Product Development. Proceedings of the 2003 International Conference on Cyberworlds.Page 294

其他文献

浅析２２０ｋＶ及以下变电所直流系统的设计与选择

摘要：220kV变电站在电网中所处的位置比较重要，保护种类多、信息量大，本文分析蓄电池个数选择的三个步骤，推荐保护屏采用双路直流电源辐射供电手动切换的方案，提出配电装置直流电源宜用环网供电及断路器弹簧贮能机构电机电源电缆按10%电压降选择的观点。电力市场的竞争要求我们必须认真分析现有系统的运行管理状况，不断总结经验，并善于跟踪、学习新的技术发展趋势，全面提高继电保护专业管理水平，才能为电网安全运行

期刊

贫困大学生的心理问题引导浅析

摘要：贫困大学生是校园内的特殊群体，经济窘迫是他们的共同特点，大多数贫困学生在承受经济压力的同时，还要面临心理上的困惑，文章通过对贫困大学生心理问题的分析、贫困大学生心理问题成因的探讨、提出了解决贫困大学生心理健康问题的对策，试图帮助贫困大学生以一种健康的心态对待生活、学习及未来　　关键词：贫困大学生心理问题引导　　　　贫困生在大学校园中是一个特殊群体，约占大学生总人数的20%左右。这个特殊群

期刊

浅谈ＩＰｖ６

摘要：随着Internet技术的迅猛发展和规模的不断扩大，IPv4已经暴露出了许多问题，因此，IETF开发了新一代的IPv6协议，来取代IPv4协议。本文浅析了IPv6的技术优势和IPv4到IPv6的过渡技术，并分析了IPv6未来的发展前景。　　关键词：IPv6 IPv4 NAT-PT　　　　随着Internet技术的迅猛发展和规模的不断扩大，IPv4已经暴露出了许多问题，如：地址资源紧缺、路由表

期刊

资源管理与企业文化

摘要：荣事达集团的“和商”理念使中国传统的经商管理理念与现代市场经济体制相结合的产物；在美国多文化环境的背景下3M公司的“热情奉献”即协作精神与之结合形成3M公司特有的人力资源管理理念；在新趋势下，中国企业与美国企业将如何进行人力资源管理。　　关键词：人力资源管理（HRM）企业文化全球化国际企业　　　　１.随着世界市场的融合和全球经济一体化的进程发展，各国间经济关系日益密切，不同国家之间在文

期刊

基于ＣＡＮＥ模型的企业研发团队激励分析

摘要：针对我国企业的研发团队管理实践当中存在激励不足的现象，本文结合企业研发团队的特点，运用CANE模型中工作目标承诺和精神激励两个变量，来分析和探讨我国企业的研发团队的激励问题。进而提出一些适合我国企业研发团队激励的方法和建议。　　关键词：企业研发团队激励 CANE模型目标承诺精神努力　　　　在我国企业的研发团队管理实践当中，能够有效实施团队管理、充分发挥团队功能的并不多。究其原因，最主要

期刊

煤炭企业市场营销ＳＷＯＴ分析的应用

摘要：黑龙江龙煤矿业集团有限责任公司是我国重要的冶炼精煤生产基地之一，2007年生产原煤5373万吨，其中冶炼精煤1287万吨。随着经济发展增速，工业结构的优化升级，煤炭需求不断增长，竞争日趋激烈。本文运用SWOT分析法对龙煤集团面临的市场营销环境进行了分析，其中包括企业自身的优势和劣势以及所面临的威胁和机会，由此制定了新的营销组合策略。　　关键词：SWOT 市场营销环境分析　　　　SWOT是由

期刊

论图形在企业ＶＩ标志设计中的运用

摘要：21世纪是一个读图的时代，图形作为一种视觉语言,不光具有形式表现、信息叙述和传达的功能，同时它还具有吸引人、感动人、缩短时空距离的功能，图形设计的主要功能就是传达信息,是视觉传达的基本形式。正因如此,图形设计被广泛的应用于:企业的VI标志设计、广告设计、包装设计、展示设计等方面。本文将对以上几点展开论述。　　关键词：图形企业VI标志设计形象推广　　　　随着北京奥运会的成功举办和神州七号飞

期刊

挖掘数据背后的财富

摘要：数据库的真正价值不在于数据本身,而在于对数据的分析挖掘以后的客户消费习惯、消费心理、消费需求等方面的判断。只有利用数据挖掘技术和智能分析系统，在数据中将客户真实需求挖掘出来，才能发挥数据库营销的真正价值。　　关键词：挖掘数据库价值　　　　随着科技的快速发展和市场竞争的加剧，越来越多的中小企业开始关注建立数据库营销模式。有一句话说得好，数据库不能保证你能赢得竞争，但是将为你在竞争中胜出增添

期刊

品牌塑造

摘要：品牌(Brand)这个名词在营销学中是指产品或服务的象征性、符号性的识别标记。狭义的品牌，或商标，通常包含名称、标志(Logo)以及一系列视觉元素。当一个文化符号还无法诠释一种生活方式或者再现一种综合体验时，就需要几种文化符号联合起来进行诠释和再现。而这种文化符号或几种文化符号的联合就是品牌形成的因素。　　关键词：品牌星巴克定位品质服务　　　　大量商业产品宣传充斥着我们的视野、头脑、

期刊

ＨＲＢ４００级钢筋以及剪力墙结构在设计项目中的全面应用

摘要：通过比较设计，测算发现：HRB400级钢筋及剪力墙结构的全面应用，可以减少钢筋用量，降低工程造价。　　关键词：HRB400级钢筋剪力墙结构全面应用　　　　引言　　　　我们通过采用不同设计方案进行技术经济比较分析，优化设计方案，在设计阶段为开发公司节约了大量成本。影响比较大的是HRB400级钢筋以及剪力墙结构在设计项目中的全面应用。　　　　1、HRB400级钢筋的全面应用　　　　2002年

期刊

面向企业的Ｗｅｂ使用挖掘研究

与本文相关的学术论文