论文部分内容阅读
摘要:Web使用挖掘是Web数据挖掘的一种,通过分析用户浏览网站的模式,发现对企业决策、管理有用的知识与信息。本文介绍了几种常见的Web使用挖掘方式和相应算法,并说明了它们在企业经营中的具体应用。
关键词:Web使用挖掘 日志 数据挖掘
现代企业在决策、管理、营销等环节变得越来越依赖于快速膨胀的互联网,很多公司和机构都架设了Web服务器开展电子商务和提供在线服务,有的大公司还通过互联网实施全球化管理,协同各个部门的工作。对企业Web服务器上保存的数据进行数据挖掘能够发现隐藏在海量数据下的知识与信息,对于提高企业竞争力有重要的价值。
1、Web使用挖掘
Web使用挖掘是Web数据挖掘的一种,与常规的数据挖掘不同,它的数据来源不是数据库而是Web服务器上的日志,故而又被称为Web日志挖掘。根据W3C组织的规定,标准Web日志格式中的各个域为:
IP Address 访问者IP
User ID 访问者ID
Date 本次请求的日期/时间
Request 请求方法
Status 状态代码
Size 本次请求的文件长度
有的Web服务器还会加上
Referer 引用者
User Agent 浏览器类型
这两个域。客户在浏览企业网站时,每次向服务器请求阅读一个Web页面,服务器都会依据这些信息生成一个记录保存在日志文件里。企业Web服务器日志文件通常积累了大量访问记录,对这些记录进行数据挖掘,可以分析出各种客户访问的模式以及他们对不同产品的兴趣,这些信息对于企业的客户管理、网站建设、产品研发具有重要的价值。
2、Web使用挖掘流程及算法
Web日志的数据挖掘过程分为数据采集、预处理、数据挖掘三个阶段。由于Web服务器上的日志文件有多种,如访问日志和错误日志等,而同一种日志文件又可能被分割成多个数据文件。所以数据采集工作将多个原始日志文件融合成待处理的数据源文件。
2.1 数据预处理 预处理阶段的任务是过滤掉无用数据并识别用户。在日志中一般会存在与挖掘无关的数据,如网络搜索引擎对服务器的访问记录,所以这一阶段先要将这些无效记录从原始日志中删去,仅仅留下真实的用户访问记录。由于挖掘算法所需的数据是基于用户访问的,过滤后的原始记录需要按用户重新组织。
尽管在Web日志格式中含有用户名和用户IP域,但用户可能处于防火墙后或使用代理上网,使得不同用户的访问记录具有相同IP,因此难以直接从日志记录识别用户。目前工程中常用的用户识别技术有:使用登录名、Java Servlet、Cookie,也可以使用启发式规则来辨别用户。当某用户访问的所有页面被搜集后使用会话识别算法将其分割成会话(Session),例如,当时间上相邻的两条用户访问记录的时间差相差超过一个阈值则认为它们属于不同的会话,反之则属于同一会话。
2.2 数据挖掘 Web日志数据挖掘的目的是分析用户的访问模式、内容,进而获得对企业经营、决策有价值的知识,包括用户的身份、年龄、教育程度,他们对各种产品的兴趣,商业事务之间的关联关系,企业部门之间的互动规律等等。相应的挖掘算法有统计分析、聚类分析、关联规则发现、序列模式分析。
2.2.1 统计分析 统计分析用以提取日志中基本信息,包括:访问站点用户数,各个页面的被请求的数量和频率等,这些信息对提高网络服务质量、企业市场决策很有帮助。联机分析处理(OLAP)是基于多维信息的快速统计数据分析技术,目前已有许多成熟的商业化OLAP产品,即使用户对这类技术不熟悉也可直接使用。
2.2.2 聚类分析 聚类是数据挖掘工程中一项常见的任务,例如将浏览模式相近的用户归类,发现他们的消费习惯。聚类分析是一种无监督的模式识别方法,它能在模式的种类与数量未知的情况下把样本按相似性划分成若干有意义的子集。样本的相似性在聚类算法中以所谓的“距离”来衡量,例如,两个Web页面的相似性也称为Web页面距离,计算Web页面距离首先要将Web页面按照一定的关键字映射成矢量,然后计算矢量距离。常见的数据挖掘聚类算法有K-means、神经网络聚类、模糊聚类等[1]。
2.2.3 关联规则 关联规则也称购物篮分析,目的是寻找数据仓库中数据项之间所存在的关系。Web挖掘中常用的关联规则挖掘算法是1993年提出的Apriori及其改进算法,数据库中出现次数大于一定比例的集合称为大项集或频繁集,Apriori算法循环扫描数据仓库中的记录,搜索第一个大项集,然后每次以刚得到大项集为基础搜索下一个大项集,进而发现这些大项集之间的关系[1]。
2.2.4 序列模式挖掘 序列指时间上有先后的事务,序列模式挖掘不但寻找事务之间的关联,而且分析这些事务在时间上的顺序,挖掘成果可以应用在消费预测、疾病诊断等领域中。常见的序列模式挖掘有Apriori类算法、Markov模型、GSP算法等。
3、Web使用挖掘应用
3.1 企业客户关系管理 忠诚的客户群是企业最有价值的资产,现代企业的经营方式正由原来的以企业自己为中心转变为以客户为中心。企业互联网网站是企业与客户便捷的联系纽带,如何吸引客户浏览,将随机浏览客户变为消费顾客,偶尔消费型客户变为忠诚客户是企业电子商务的宗旨。通过对企业网站日志进行访问模式挖掘,可以在许多方面帮助企业:
(1) 对于已注册用户,他们消费记录一般会记录在系统的事务数据库中,对这些数据进行统计,能够了解顾客的消费偏好,有针对性的开展广告宣传与顾客调查活动。
(2) 提供个性化的网络服务和推荐系统,能够有效的吸引用户注意力,延长他们在企业网站上的停留时间。例如用聚类分析和关联规则挖掘普通用户的浏览路径,可以得知在线用户可能属于哪类顾客,对何种产品感兴趣,从而动态推荐企业产品与服务。
(3) 优化网站组织结构。如分析用户离开网站的页面,可以发现他们离开的原因,或减少他们浪费在无关网页上的时间,增加他们的浏览时间。
一个成功的CRM案例是网上软件商店ASK|net GmbH的Web服务器日志挖掘实践[2],他们使用序列模式分析、决策树、神经网络等方法来分析用户的浏览路径,试图发现网站所提供服务是否简单而有效,实验得出了许多有价值的信息如:购买流程太长,太复杂,用户需至少点击七次才能完成一次购买事务;付款网页提供的信息不够清晰,许多用户在此网页频繁点击了求助网页;许多用户因无法找回密码而不得不重新注册成为新用户。该网站根据这些信息重新调整了网站结构,设计了新的密码找回系统,明显的改善了服务质量。
3.2 优化网站性能 网络访问模式挖掘可以提高Web服务器软件的响应速度和安全性。利用挖掘结果可以建立一个用户访问路径的预测模型,负荷较重的企业网站可以根据该模型预测在线用户将要访问的网页,从而实现网络负载均衡和数据预取功能,提高服务性能。文献[3]中还提出了通过挖掘日志中异常的访问记录来发现脚本信息泄漏。
3.3 产品研发 传统的企业产品研发过程是由企业自行发起并主导的串行流程,包含如下步骤:
(1)产品定义;(2)概念设计;(3)细节设计;(4)测试与评估;(5)产品生产。
其中设计工作主要由企业的工程师完成。在信息化和全球化的推动下,这个过程发生了巨大的变化。一方面,参与到这个过程的合作者越来越多,包括最终客户、供货商、销售商等,设计工作根据客户需求由多方共同参与完成;另一方面,过程由串行变为并行,任何时间内都可能有合作者修改工程的内容。这种复杂的开发过程需要依靠互联网来帮助实施:开发过程所需的共享资源放在企业Web服务器上,来自世界各地的合作单位通过互联网存取、修改这些资料,对这些用户的访问进行挖掘有助于优化产品研发的过程。HP公司是一个产品众多、分布广的大公司,该公司使用专门的软件WindChill来管理产品的生命周期,文献[4]提出使用关联规则和序列模式对HP公司的相关日志进行数据挖掘,利用挖掘结果深入理解合作各方的关系,改善设计流程,取得了满意的结果。
4 总结
越来越多的企业意识到Web挖掘是吸引顾客、优化服务的有效途径,目前市场上仅Web日志挖掘工具就有几十种,学者们还在探索新的算法。可以预料,未来Web使用挖掘将继续为人们提供有价值的知识与信息。
参考文献:
[1]陈安等,数据挖掘技术及应用[M].北京:科学出版社,2006
[2]TheusingerC,Huber K. Analyzing the Footsteps of Your Customers. In Proc. Of Workshop on Web Usage Analysis and User Profiling[J].Web KDD 2000,2000
[3]LI Jian,ZHANG Guo-yin,GU Guo-chang,LI Jian-li.The design and implementation of web mining in web sites security[J]. 哈尔滨工程大学学报(英文版).2003,1(2):81-86
[4]Yew-Kwong Woon,Wee-Keong Ng,Xiang Li,Wen-Feng Lu. Efficient Web Log Mining for Product Development. Proceedings of the 2003 International Conference on Cyberworlds.Page 294
关键词:Web使用挖掘 日志 数据挖掘
现代企业在决策、管理、营销等环节变得越来越依赖于快速膨胀的互联网,很多公司和机构都架设了Web服务器开展电子商务和提供在线服务,有的大公司还通过互联网实施全球化管理,协同各个部门的工作。对企业Web服务器上保存的数据进行数据挖掘能够发现隐藏在海量数据下的知识与信息,对于提高企业竞争力有重要的价值。
1、Web使用挖掘
Web使用挖掘是Web数据挖掘的一种,与常规的数据挖掘不同,它的数据来源不是数据库而是Web服务器上的日志,故而又被称为Web日志挖掘。根据W3C组织的规定,标准Web日志格式中的各个域为:
IP Address 访问者IP
User ID 访问者ID
Date 本次请求的日期/时间
Request 请求方法
Status 状态代码
Size 本次请求的文件长度
有的Web服务器还会加上
Referer 引用者
User Agent 浏览器类型
这两个域。客户在浏览企业网站时,每次向服务器请求阅读一个Web页面,服务器都会依据这些信息生成一个记录保存在日志文件里。企业Web服务器日志文件通常积累了大量访问记录,对这些记录进行数据挖掘,可以分析出各种客户访问的模式以及他们对不同产品的兴趣,这些信息对于企业的客户管理、网站建设、产品研发具有重要的价值。
2、Web使用挖掘流程及算法
Web日志的数据挖掘过程分为数据采集、预处理、数据挖掘三个阶段。由于Web服务器上的日志文件有多种,如访问日志和错误日志等,而同一种日志文件又可能被分割成多个数据文件。所以数据采集工作将多个原始日志文件融合成待处理的数据源文件。
2.1 数据预处理 预处理阶段的任务是过滤掉无用数据并识别用户。在日志中一般会存在与挖掘无关的数据,如网络搜索引擎对服务器的访问记录,所以这一阶段先要将这些无效记录从原始日志中删去,仅仅留下真实的用户访问记录。由于挖掘算法所需的数据是基于用户访问的,过滤后的原始记录需要按用户重新组织。
尽管在Web日志格式中含有用户名和用户IP域,但用户可能处于防火墙后或使用代理上网,使得不同用户的访问记录具有相同IP,因此难以直接从日志记录识别用户。目前工程中常用的用户识别技术有:使用登录名、Java Servlet、Cookie,也可以使用启发式规则来辨别用户。当某用户访问的所有页面被搜集后使用会话识别算法将其分割成会话(Session),例如,当时间上相邻的两条用户访问记录的时间差相差超过一个阈值则认为它们属于不同的会话,反之则属于同一会话。
2.2 数据挖掘 Web日志数据挖掘的目的是分析用户的访问模式、内容,进而获得对企业经营、决策有价值的知识,包括用户的身份、年龄、教育程度,他们对各种产品的兴趣,商业事务之间的关联关系,企业部门之间的互动规律等等。相应的挖掘算法有统计分析、聚类分析、关联规则发现、序列模式分析。
2.2.1 统计分析 统计分析用以提取日志中基本信息,包括:访问站点用户数,各个页面的被请求的数量和频率等,这些信息对提高网络服务质量、企业市场决策很有帮助。联机分析处理(OLAP)是基于多维信息的快速统计数据分析技术,目前已有许多成熟的商业化OLAP产品,即使用户对这类技术不熟悉也可直接使用。
2.2.2 聚类分析 聚类是数据挖掘工程中一项常见的任务,例如将浏览模式相近的用户归类,发现他们的消费习惯。聚类分析是一种无监督的模式识别方法,它能在模式的种类与数量未知的情况下把样本按相似性划分成若干有意义的子集。样本的相似性在聚类算法中以所谓的“距离”来衡量,例如,两个Web页面的相似性也称为Web页面距离,计算Web页面距离首先要将Web页面按照一定的关键字映射成矢量,然后计算矢量距离。常见的数据挖掘聚类算法有K-means、神经网络聚类、模糊聚类等[1]。
2.2.3 关联规则 关联规则也称购物篮分析,目的是寻找数据仓库中数据项之间所存在的关系。Web挖掘中常用的关联规则挖掘算法是1993年提出的Apriori及其改进算法,数据库中出现次数大于一定比例的集合称为大项集或频繁集,Apriori算法循环扫描数据仓库中的记录,搜索第一个大项集,然后每次以刚得到大项集为基础搜索下一个大项集,进而发现这些大项集之间的关系[1]。
2.2.4 序列模式挖掘 序列指时间上有先后的事务,序列模式挖掘不但寻找事务之间的关联,而且分析这些事务在时间上的顺序,挖掘成果可以应用在消费预测、疾病诊断等领域中。常见的序列模式挖掘有Apriori类算法、Markov模型、GSP算法等。
3、Web使用挖掘应用
3.1 企业客户关系管理 忠诚的客户群是企业最有价值的资产,现代企业的经营方式正由原来的以企业自己为中心转变为以客户为中心。企业互联网网站是企业与客户便捷的联系纽带,如何吸引客户浏览,将随机浏览客户变为消费顾客,偶尔消费型客户变为忠诚客户是企业电子商务的宗旨。通过对企业网站日志进行访问模式挖掘,可以在许多方面帮助企业:
(1) 对于已注册用户,他们消费记录一般会记录在系统的事务数据库中,对这些数据进行统计,能够了解顾客的消费偏好,有针对性的开展广告宣传与顾客调查活动。
(2) 提供个性化的网络服务和推荐系统,能够有效的吸引用户注意力,延长他们在企业网站上的停留时间。例如用聚类分析和关联规则挖掘普通用户的浏览路径,可以得知在线用户可能属于哪类顾客,对何种产品感兴趣,从而动态推荐企业产品与服务。
(3) 优化网站组织结构。如分析用户离开网站的页面,可以发现他们离开的原因,或减少他们浪费在无关网页上的时间,增加他们的浏览时间。
一个成功的CRM案例是网上软件商店ASK|net GmbH的Web服务器日志挖掘实践[2],他们使用序列模式分析、决策树、神经网络等方法来分析用户的浏览路径,试图发现网站所提供服务是否简单而有效,实验得出了许多有价值的信息如:购买流程太长,太复杂,用户需至少点击七次才能完成一次购买事务;付款网页提供的信息不够清晰,许多用户在此网页频繁点击了求助网页;许多用户因无法找回密码而不得不重新注册成为新用户。该网站根据这些信息重新调整了网站结构,设计了新的密码找回系统,明显的改善了服务质量。
3.2 优化网站性能 网络访问模式挖掘可以提高Web服务器软件的响应速度和安全性。利用挖掘结果可以建立一个用户访问路径的预测模型,负荷较重的企业网站可以根据该模型预测在线用户将要访问的网页,从而实现网络负载均衡和数据预取功能,提高服务性能。文献[3]中还提出了通过挖掘日志中异常的访问记录来发现脚本信息泄漏。
3.3 产品研发 传统的企业产品研发过程是由企业自行发起并主导的串行流程,包含如下步骤:
(1)产品定义;(2)概念设计;(3)细节设计;(4)测试与评估;(5)产品生产。
其中设计工作主要由企业的工程师完成。在信息化和全球化的推动下,这个过程发生了巨大的变化。一方面,参与到这个过程的合作者越来越多,包括最终客户、供货商、销售商等,设计工作根据客户需求由多方共同参与完成;另一方面,过程由串行变为并行,任何时间内都可能有合作者修改工程的内容。这种复杂的开发过程需要依靠互联网来帮助实施:开发过程所需的共享资源放在企业Web服务器上,来自世界各地的合作单位通过互联网存取、修改这些资料,对这些用户的访问进行挖掘有助于优化产品研发的过程。HP公司是一个产品众多、分布广的大公司,该公司使用专门的软件WindChill来管理产品的生命周期,文献[4]提出使用关联规则和序列模式对HP公司的相关日志进行数据挖掘,利用挖掘结果深入理解合作各方的关系,改善设计流程,取得了满意的结果。
4 总结
越来越多的企业意识到Web挖掘是吸引顾客、优化服务的有效途径,目前市场上仅Web日志挖掘工具就有几十种,学者们还在探索新的算法。可以预料,未来Web使用挖掘将继续为人们提供有价值的知识与信息。
参考文献:
[1]陈安等,数据挖掘技术及应用[M].北京:科学出版社,2006
[2]TheusingerC,Huber K. Analyzing the Footsteps of Your Customers. In Proc. Of Workshop on Web Usage Analysis and User Profiling[J].Web KDD 2000,2000
[3]LI Jian,ZHANG Guo-yin,GU Guo-chang,LI Jian-li.The design and implementation of web mining in web sites security[J]. 哈尔滨工程大学学报(英文版).2003,1(2):81-86
[4]Yew-Kwong Woon,Wee-Keong Ng,Xiang Li,Wen-Feng Lu. Efficient Web Log Mining for Product Development. Proceedings of the 2003 International Conference on Cyberworlds.Page 294