基于像素的数据挖掘可视化技术在电子商务中的研究与应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:yocar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:论述将基于像素的可视化技术运用到电子商务领域的基于像素的数据挖掘可视化系统的基本原理、运行步骤及使用价值,并提出对此系统的进一步构想。
  关键词:电子商务;数据挖掘;像素;可视化
  中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2011)0220063-01
  
  0、引言
  
  随着互联网的高速发展,电子商务已经成为最流行的经济活动。但随之而来的是信息量的迅速增长,导致了信息爆炸。又由于人类对于视觉分析的先天性优势,将可视化技术与数据挖掘结合起来已毅然成为时下最有效的解决方案。
  
  1、基于像素的數据挖掘可视化技术的理论依据
  
  1.1数据挖掘。数据挖掘,是指从海量数据之中获取隐含的、目前未知的、最终可理解的、有效的、对于决策过程有用的知识的非平凡过程;也就是使用复杂的统计分析和模型技术来揭示隐藏在组织机构的数据集中的模式和关系;在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。
  1.2可视化技术。可视化是综合利用计算机图形学、图像技术、交互理论,将抽象数据通过映射、变换,在二维显示屏幕上展现出来以支持用户分析和决策的技术和方法,以此来使得研究者可以观察计算结果并准确的做出自己的判断。
  1.3基于像素的数据挖掘可视化技术。数据挖掘可视化就是指使用可视化技术在大量的数据中发现潜在有用的知识的过程。它充分体现了以用户为中心的思想,抛弃了原本的“黑盒操作”,转而将挖掘成败的决定权交予用户手中,实现了挖掘结果的可视化输出。像素可视化技术的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。
  
  2、基于像素的数据挖掘可视化系统
  
  2.1数据源采集。日志文件:是客户访问服务器时留下的记录客户访问行为的数据,其中标准公用日志文件格式存储关于客户连接的物理信息。
  查询数据:是用户在查询自己需要的信息时所生成的记录会形成查询数据,通过Cookie或是登记信息连接到电子商务站点服务器的访问日志上。
  客户登记信息:是指客户通过Web页在屏幕上输入的要提交给服务器的相关信息。
  数据仓库:存放着各种各样的数据,既有历史数据,也有实时数据。
  2.2数据预处理。所谓数据预处理就是通过对各种不完全的、冗余的和模糊的原始数据源进行过滤、规格化、归纳、二义性分析等处理,为下一步数据挖掘提供干净、准确、简化的数据,即数据立方体。
  2.3数据挖掘过程
  2.3.1数据挖掘库。数据挖掘库中包含大量的数据挖掘算法,根据用户的实际要求可选择不同的挖掘算法,其主要的挖掘算法有:
  分类:从数据集中选出已经分好类的子集作为训练集,并运用数据挖掘分类的技术,建立分类模型,再对没有分类标记的数据集进行分类,以建立有效的分类方法。
  路径分析:即用以判定在一个Web站点中被最频繁访问的路径,从而可以得到有趣信息,使得能够精细地改进网站的设计结构。
  聚类:将数据对象集分组为由相似数据对象组成的若干个类或簇,同一个簇中的对象之间相似,不同的类或簇中的数据对象之间相异。
  关联分析:当属性之间存在关联,某些属性值就可以依据其他属性值来预测,可用以发现用户访问电子商务网站上各种文件之间的有趣联系。
  序列分析:就是发现用户在一定的持续时间内的访问序列,这些序列反映的用户行为,有助于商家发现用户的购买规律。
  孤立点分析:用于发现标准类型知识外的偏差型知识,可以揭示出事物偏离常规的异常现象。
  2.3.2OLAP引擎。OLAF引擎的主要任务是对数据立方体中的数据进行快速分析处理和及时通过用户接口将分析出的信息返回给用户,以及创建数据立方体。
  2.3.3知识库。知识库中存储一些领域知识和规则,以及数据挖掘所需的一些原型,随着数据挖掘的深入,可以将分析出的有效原型,存入知识库。
  2.4基于像素的可视化。由于进行可视化前的结果文件有可能是不完整的,数据类型也不完全一致,因此需要进行规整性处理,即填充缺失数据和数据类型归一化。此后就可以继续处理像素可视化中的一系列核心问题,主要包括:显示窗口形状及子窗口大小的设置,属性的选取与排列,放置像素点,像素点着色。
  2.5用户反馈机制。数据挖掘是一个反复的过程,过程的终止条件是用户对发现的知识满意。根据可视化系统分析出的结果信息,用户可以直观地对挖掘结果进行判断和筛选,若满意,结果就成为知识,挖掘过程结束:若不满意,就要反馈作用于系统的前几个阶段,直至结果逐渐接近用户的挖掘目标。
  
  3、基于像素的数据挖掘可视化系统的使用价值
  
  3.1挖掘潜在客户。在对电子商务网站中老客户的所有信息进行数据挖掘时,使用分类技术对老客户进行分类,确定分类的关键属性及相互间关系。当新的访问者访问页面时,根据其潜在的客户信息,分析此客户是否与已分类的老客户拥有一些公共的描述,从而可以对新客户进行正确的分类。
  3.2个性化服务。在电子商务网站上所有商务活动都是以客户为中心而进行地,只有切实地分析客户,了解客户,才能站在客户的角度不断地提供符合客户个性的信息,提高客户的满意度。
  3.3异常事件的预警和控制。通过使用孤立点分析技术,可以寻找出与某些与一般性客户不同的客户,作为潜在危险客户。进行及时防范。或将出现过信用风险的客户进行聚类,找出其相似的关键属性,对具有相似属性的新客户的行为进行分析和预测,准确、及时地对各种信用风险进行监视、预警和管理,进而确保在信用风险发生之前就对其进行预警和控制。
  
  4、总结
  
  本文所论述的基于像素的数据挖掘可视化系统,现阶段面向的用户都是电子商务网站的后台管理人员,纵然这样的挖掘方式比较专业,但不一定会完全满足访问者的需求。若能够使访问者切身地投入到挖掘中,既可快速准确的提供有效信息,也满足了访问者的好奇心,使得访问者的驻留时间变长。因此,在后期的改进中可以设置不同的用户权限,实现不同的需求。在可视化的结果上还要进一步简化,使得所有访问者能够轻松获得预想的信息。数据挖掘过程中还是有很多问题急需解决,比如怎样将服务器的客户数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘等。因此,将数据挖掘可视化技术有效地应用电子商务中,仍是一个重要的研究方向。
其他文献
期刊
摘要:通过介绍余姚有线电视网络双向改造的实践和经验,分析网络改造中的设计、施工应用等问题,希望对同行有所帮助。  关键词:EOC HFC;双向;解决方案;广电;改造;网络  中图分类号:TN93 文献标识码:A 文章编号:1671-7597(2011)0220036-01    余姚有线广播电视网络始建于1994年,主要是HFC网,采用550MHz单向邻频传输系统。经过十多年的运行、发展和局部改造
对于绝大多数的蚕品种而言,催青有效积温主要因期别不同而有所高低,且品种之间差异较小,所以催青有效积温基本上是一个常数,不同蚕品种之间可以互为参照,在催青实际操作中比
摘要:基于AT89C51單片机,设计出一种简易的数字集成电路测试系统。测试仪所采取的是多值参数相比较的方法,再利用单片机控制功能以及数学运算的功能,测试数字IC的功能,并同步完成每项直流参数的测试。各路显示测试项目参数以及测量过程中量程的切换等,由8279键盘进行控制实现。  关键词:数字集成电路;测试系统  中图分类号:NT 文献标识码:A 文章编号:1671-7597(2011)0220042
摘要:介绍一种微流控阵列光开关芯片,通过对光开关中微流体位置的控制,来控制光路中的光束的透射及全反射,以此实现光的“开”和“关”的动作。讨论光开關的耦合损耗等参数。该器件具有结构简单、功耗低、能实现集成化和微型化制作等特点。  关键词:微流控光学;微流体;光开关;光开关阵列  中图分类号:TN2 文献标识码:A 文章编号:1671-7597(2011)0220048-01
摘要:针对油井油藏的油井汽窜产生成因、危害进行分析,提出适合稠油藏防治汽窜的方法,并对现场防治汽窜的效果进行了阐述。  关键词:油井;防汽窜;技术;研究;应用  中图分类号:TE345 文献标识码:A 文章编号:1671-7597(2011)0220060-01    1、汽窜成因分析    当油田一相邻井注汽时,生产井产液量会相应增加,含水量持续上升,井口温度持续提高;而一旦汽窜严重,相邻井注汽
期刊
摘要:介绍MEMS传感技术的特点,分析国内动态装饰领域的市场前景和一种基于MEMS传感器的动态装饰花设计方案。  关键词:传感器;MEMS;动态装饰  中图分类号:TP212.6 文献标识码:A 文章编号:1671-7597(2011)0220064-01    0、引言    MEMS是微机电系统Micro-Electro-Mechanical System的缩写。它是以微电子、微机械及材料科学
摘要:综采工作面多功能安装设备解决传统综放工作面安装工作量大,浪费人力、效率低,不安全等问题。可实现工作面的快速安装、大倾角支架安装、并具备一机多用等特点。  关键词:煤矿;综放工作面;设备安装;大倾角  中图分类号:TL93 文献标识码:A 文章编号:1671-7597(2011)0220052-02    0、引言    综合机械化放顶煤开采在铁法能源公司已应用许多年,但受煤矿矿井生产系统的限
摘要:简要分析企业内部网络所面临的主要问题,阐述安全管理人员针对不同威胁的主要技术应对措施。进一步介绍各种技术措施的现状,并分析未来可能的发展趋势。  关键词:内网;网络安全;防火墙;入侵防护系统;网络准入控制;网络行为分析  中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2011)0220059-01    0、前言    目前,信息化的大潮已席卷各行各业,于此同时,安全