论文部分内容阅读
摘要:论述将基于像素的可视化技术运用到电子商务领域的基于像素的数据挖掘可视化系统的基本原理、运行步骤及使用价值,并提出对此系统的进一步构想。
关键词:电子商务;数据挖掘;像素;可视化
中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2011)0220063-01
0、引言
随着互联网的高速发展,电子商务已经成为最流行的经济活动。但随之而来的是信息量的迅速增长,导致了信息爆炸。又由于人类对于视觉分析的先天性优势,将可视化技术与数据挖掘结合起来已毅然成为时下最有效的解决方案。
1、基于像素的數据挖掘可视化技术的理论依据
1.1数据挖掘。数据挖掘,是指从海量数据之中获取隐含的、目前未知的、最终可理解的、有效的、对于决策过程有用的知识的非平凡过程;也就是使用复杂的统计分析和模型技术来揭示隐藏在组织机构的数据集中的模式和关系;在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。
1.2可视化技术。可视化是综合利用计算机图形学、图像技术、交互理论,将抽象数据通过映射、变换,在二维显示屏幕上展现出来以支持用户分析和决策的技术和方法,以此来使得研究者可以观察计算结果并准确的做出自己的判断。
1.3基于像素的数据挖掘可视化技术。数据挖掘可视化就是指使用可视化技术在大量的数据中发现潜在有用的知识的过程。它充分体现了以用户为中心的思想,抛弃了原本的“黑盒操作”,转而将挖掘成败的决定权交予用户手中,实现了挖掘结果的可视化输出。像素可视化技术的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。
2、基于像素的数据挖掘可视化系统
2.1数据源采集。日志文件:是客户访问服务器时留下的记录客户访问行为的数据,其中标准公用日志文件格式存储关于客户连接的物理信息。
查询数据:是用户在查询自己需要的信息时所生成的记录会形成查询数据,通过Cookie或是登记信息连接到电子商务站点服务器的访问日志上。
客户登记信息:是指客户通过Web页在屏幕上输入的要提交给服务器的相关信息。
数据仓库:存放着各种各样的数据,既有历史数据,也有实时数据。
2.2数据预处理。所谓数据预处理就是通过对各种不完全的、冗余的和模糊的原始数据源进行过滤、规格化、归纳、二义性分析等处理,为下一步数据挖掘提供干净、准确、简化的数据,即数据立方体。
2.3数据挖掘过程
2.3.1数据挖掘库。数据挖掘库中包含大量的数据挖掘算法,根据用户的实际要求可选择不同的挖掘算法,其主要的挖掘算法有:
分类:从数据集中选出已经分好类的子集作为训练集,并运用数据挖掘分类的技术,建立分类模型,再对没有分类标记的数据集进行分类,以建立有效的分类方法。
路径分析:即用以判定在一个Web站点中被最频繁访问的路径,从而可以得到有趣信息,使得能够精细地改进网站的设计结构。
聚类:将数据对象集分组为由相似数据对象组成的若干个类或簇,同一个簇中的对象之间相似,不同的类或簇中的数据对象之间相异。
关联分析:当属性之间存在关联,某些属性值就可以依据其他属性值来预测,可用以发现用户访问电子商务网站上各种文件之间的有趣联系。
序列分析:就是发现用户在一定的持续时间内的访问序列,这些序列反映的用户行为,有助于商家发现用户的购买规律。
孤立点分析:用于发现标准类型知识外的偏差型知识,可以揭示出事物偏离常规的异常现象。
2.3.2OLAP引擎。OLAF引擎的主要任务是对数据立方体中的数据进行快速分析处理和及时通过用户接口将分析出的信息返回给用户,以及创建数据立方体。
2.3.3知识库。知识库中存储一些领域知识和规则,以及数据挖掘所需的一些原型,随着数据挖掘的深入,可以将分析出的有效原型,存入知识库。
2.4基于像素的可视化。由于进行可视化前的结果文件有可能是不完整的,数据类型也不完全一致,因此需要进行规整性处理,即填充缺失数据和数据类型归一化。此后就可以继续处理像素可视化中的一系列核心问题,主要包括:显示窗口形状及子窗口大小的设置,属性的选取与排列,放置像素点,像素点着色。
2.5用户反馈机制。数据挖掘是一个反复的过程,过程的终止条件是用户对发现的知识满意。根据可视化系统分析出的结果信息,用户可以直观地对挖掘结果进行判断和筛选,若满意,结果就成为知识,挖掘过程结束:若不满意,就要反馈作用于系统的前几个阶段,直至结果逐渐接近用户的挖掘目标。
3、基于像素的数据挖掘可视化系统的使用价值
3.1挖掘潜在客户。在对电子商务网站中老客户的所有信息进行数据挖掘时,使用分类技术对老客户进行分类,确定分类的关键属性及相互间关系。当新的访问者访问页面时,根据其潜在的客户信息,分析此客户是否与已分类的老客户拥有一些公共的描述,从而可以对新客户进行正确的分类。
3.2个性化服务。在电子商务网站上所有商务活动都是以客户为中心而进行地,只有切实地分析客户,了解客户,才能站在客户的角度不断地提供符合客户个性的信息,提高客户的满意度。
3.3异常事件的预警和控制。通过使用孤立点分析技术,可以寻找出与某些与一般性客户不同的客户,作为潜在危险客户。进行及时防范。或将出现过信用风险的客户进行聚类,找出其相似的关键属性,对具有相似属性的新客户的行为进行分析和预测,准确、及时地对各种信用风险进行监视、预警和管理,进而确保在信用风险发生之前就对其进行预警和控制。
4、总结
本文所论述的基于像素的数据挖掘可视化系统,现阶段面向的用户都是电子商务网站的后台管理人员,纵然这样的挖掘方式比较专业,但不一定会完全满足访问者的需求。若能够使访问者切身地投入到挖掘中,既可快速准确的提供有效信息,也满足了访问者的好奇心,使得访问者的驻留时间变长。因此,在后期的改进中可以设置不同的用户权限,实现不同的需求。在可视化的结果上还要进一步简化,使得所有访问者能够轻松获得预想的信息。数据挖掘过程中还是有很多问题急需解决,比如怎样将服务器的客户数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘等。因此,将数据挖掘可视化技术有效地应用电子商务中,仍是一个重要的研究方向。
关键词:电子商务;数据挖掘;像素;可视化
中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2011)0220063-01
0、引言
随着互联网的高速发展,电子商务已经成为最流行的经济活动。但随之而来的是信息量的迅速增长,导致了信息爆炸。又由于人类对于视觉分析的先天性优势,将可视化技术与数据挖掘结合起来已毅然成为时下最有效的解决方案。
1、基于像素的數据挖掘可视化技术的理论依据
1.1数据挖掘。数据挖掘,是指从海量数据之中获取隐含的、目前未知的、最终可理解的、有效的、对于决策过程有用的知识的非平凡过程;也就是使用复杂的统计分析和模型技术来揭示隐藏在组织机构的数据集中的模式和关系;在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。
1.2可视化技术。可视化是综合利用计算机图形学、图像技术、交互理论,将抽象数据通过映射、变换,在二维显示屏幕上展现出来以支持用户分析和决策的技术和方法,以此来使得研究者可以观察计算结果并准确的做出自己的判断。
1.3基于像素的数据挖掘可视化技术。数据挖掘可视化就是指使用可视化技术在大量的数据中发现潜在有用的知识的过程。它充分体现了以用户为中心的思想,抛弃了原本的“黑盒操作”,转而将挖掘成败的决定权交予用户手中,实现了挖掘结果的可视化输出。像素可视化技术的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。
2、基于像素的数据挖掘可视化系统
2.1数据源采集。日志文件:是客户访问服务器时留下的记录客户访问行为的数据,其中标准公用日志文件格式存储关于客户连接的物理信息。
查询数据:是用户在查询自己需要的信息时所生成的记录会形成查询数据,通过Cookie或是登记信息连接到电子商务站点服务器的访问日志上。
客户登记信息:是指客户通过Web页在屏幕上输入的要提交给服务器的相关信息。
数据仓库:存放着各种各样的数据,既有历史数据,也有实时数据。
2.2数据预处理。所谓数据预处理就是通过对各种不完全的、冗余的和模糊的原始数据源进行过滤、规格化、归纳、二义性分析等处理,为下一步数据挖掘提供干净、准确、简化的数据,即数据立方体。
2.3数据挖掘过程
2.3.1数据挖掘库。数据挖掘库中包含大量的数据挖掘算法,根据用户的实际要求可选择不同的挖掘算法,其主要的挖掘算法有:
分类:从数据集中选出已经分好类的子集作为训练集,并运用数据挖掘分类的技术,建立分类模型,再对没有分类标记的数据集进行分类,以建立有效的分类方法。
路径分析:即用以判定在一个Web站点中被最频繁访问的路径,从而可以得到有趣信息,使得能够精细地改进网站的设计结构。
聚类:将数据对象集分组为由相似数据对象组成的若干个类或簇,同一个簇中的对象之间相似,不同的类或簇中的数据对象之间相异。
关联分析:当属性之间存在关联,某些属性值就可以依据其他属性值来预测,可用以发现用户访问电子商务网站上各种文件之间的有趣联系。
序列分析:就是发现用户在一定的持续时间内的访问序列,这些序列反映的用户行为,有助于商家发现用户的购买规律。
孤立点分析:用于发现标准类型知识外的偏差型知识,可以揭示出事物偏离常规的异常现象。
2.3.2OLAP引擎。OLAF引擎的主要任务是对数据立方体中的数据进行快速分析处理和及时通过用户接口将分析出的信息返回给用户,以及创建数据立方体。
2.3.3知识库。知识库中存储一些领域知识和规则,以及数据挖掘所需的一些原型,随着数据挖掘的深入,可以将分析出的有效原型,存入知识库。
2.4基于像素的可视化。由于进行可视化前的结果文件有可能是不完整的,数据类型也不完全一致,因此需要进行规整性处理,即填充缺失数据和数据类型归一化。此后就可以继续处理像素可视化中的一系列核心问题,主要包括:显示窗口形状及子窗口大小的设置,属性的选取与排列,放置像素点,像素点着色。
2.5用户反馈机制。数据挖掘是一个反复的过程,过程的终止条件是用户对发现的知识满意。根据可视化系统分析出的结果信息,用户可以直观地对挖掘结果进行判断和筛选,若满意,结果就成为知识,挖掘过程结束:若不满意,就要反馈作用于系统的前几个阶段,直至结果逐渐接近用户的挖掘目标。
3、基于像素的数据挖掘可视化系统的使用价值
3.1挖掘潜在客户。在对电子商务网站中老客户的所有信息进行数据挖掘时,使用分类技术对老客户进行分类,确定分类的关键属性及相互间关系。当新的访问者访问页面时,根据其潜在的客户信息,分析此客户是否与已分类的老客户拥有一些公共的描述,从而可以对新客户进行正确的分类。
3.2个性化服务。在电子商务网站上所有商务活动都是以客户为中心而进行地,只有切实地分析客户,了解客户,才能站在客户的角度不断地提供符合客户个性的信息,提高客户的满意度。
3.3异常事件的预警和控制。通过使用孤立点分析技术,可以寻找出与某些与一般性客户不同的客户,作为潜在危险客户。进行及时防范。或将出现过信用风险的客户进行聚类,找出其相似的关键属性,对具有相似属性的新客户的行为进行分析和预测,准确、及时地对各种信用风险进行监视、预警和管理,进而确保在信用风险发生之前就对其进行预警和控制。
4、总结
本文所论述的基于像素的数据挖掘可视化系统,现阶段面向的用户都是电子商务网站的后台管理人员,纵然这样的挖掘方式比较专业,但不一定会完全满足访问者的需求。若能够使访问者切身地投入到挖掘中,既可快速准确的提供有效信息,也满足了访问者的好奇心,使得访问者的驻留时间变长。因此,在后期的改进中可以设置不同的用户权限,实现不同的需求。在可视化的结果上还要进一步简化,使得所有访问者能够轻松获得预想的信息。数据挖掘过程中还是有很多问题急需解决,比如怎样将服务器的客户数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘等。因此,将数据挖掘可视化技术有效地应用电子商务中,仍是一个重要的研究方向。