Ｗｅｂ数据在电子商务技术中的使用分析

来源 :中国校外教育·理论 | 被引量 : 0次 | 上传用户：candysan

【摘要】

：

【作者】

：

吴　飞

【出处】

：

中国校外教育·理论

【发表日期】

：

2007年2期

【关键词】

：

序列规则模式数据挖掘用户发现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　【摘要】在信息爆炸的电子商务时代，利用Web数据挖掘可以迅速从海量数据中获取有利于商业运作和提高竞争力的信息。文章在介绍Web数据挖掘概念和常用技术的基础上，阐述了其在零售业电子商务领域的应用。
　　【关键词】电子商务 Web数据挖掘零售业关联聚类分类
　　
　　Web数据挖掘是数据挖掘技术在Web上的应用，它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，涉及Web技术、数据挖掘、计算机语言学等多个领域，是一项综合技术。对于零售企业，通过Web数据挖掘，不仅为企业做出正确的商业决策提供强有力的工具，也为商家更加深入地了解客户需求信息和购物行为特征提供了可能性，从而开展有针对性的电子商务。
　　
　　一、Web数据挖掘
　　
　　Web数据挖掘是针对包括Web页面内容、站点拓扑结构、用户访问信息、用户注册信息及电子商务交易信息等在内的各种Web数据，在一定基础上应用数据挖掘方法以发现有用的隐含知识的过程。Web挖掘可分为三类：Web内容挖掘（Web Content Mining）、Web使用挖掘（Web Usage Mining）和Web结构挖掘（Web Structure Mining）。
　　Web内容挖掘。Web内容挖掘是指从Web页面内容及其描述信息中获取有价值的知识或模式的过程，它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web文本挖掘的数据对象既可以是结构化的，也可以是非结构化的、半结构化的。Web内容挖掘可以完成概括某些特定文本内容、对文本集合进行分类或聚类，以及进行Web文档趋势预测等工作。多媒体信息挖掘的挖掘对象则是Web上的音频、视频数据和图像等。
　　Web使用挖掘。Web使用挖掘目的是从用户访问Web时在服务器上留下的访问记录中抽取感兴趣的知识。挖掘对象主要是服务器上的日志信息，包括服务器日志、代理服务器日志和客户端的Cookie等。通过分析关于用户访问和交互的信息，发现用户感兴趣的模式，更好地理解用户的行为，从而改进站点的结构，为用户提供个性化的服务。
　　Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识，Web结构包括不同网页之间的超链接结构和一个网页内部的树形结构，以及文档URL中的目录路径结构等。通过文档之间的超链接，可以挖掘出文档间关联关系所代表的信息，从而帮助发现用户相关主题的权威页面和进行页面等级划分；通过分析Web网页内部树形结构，可以发现与给定页面集合相关的其它页面。
　　
　　二、使用的Web数据挖掘技术
　　
　　首先，关联规则。关联规则主要关注事务内在关系。关联规则挖掘就是挖掘出用户在一个访问期间（session）从服务器上访问的页面／文件之间的关系，找出在某次服务器会话中最经常一起出现的相关页面。挖掘发现的关联规则往往是指支持度超过预设阀值的一组访问网页，这些网页之间可能并不存在直接的引用（Reference）关系。
　　关联分析是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。序列模式与此类似，它寻找的是事件之间时间上的相关性，如对股票涨跌的分析。以市场货篮这个典型例子分析关联规则。“在购买面包和黄油的顾客中，有90%的人同时也买了牛奶“(面包黄油牛奶)。用于规则发现的对象主要是事务型数据库，分析的是售货数据，也称货篮数据。以下给出的数学模型用来描述关联规则的发现问题：增长、STEM、AIS、DHP等算法分类发现-Y在事务集D上的支持度support（X∪Y）＝s。可信度为c，如果c=support（X∪Y）*100/support（X），则说明D中包含X的事务中有c%的事务同时也包含了Y。可信度说明了蕴涵的强度，而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”（strong rules）。关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为，这对于改进零售业等商业活动的决策很有帮助。
　　其次，序列模式。序列模式分析描述的问题是：在给定交易序列数据库中，每个序列是按照交易时间排列的一组交易集，挖掘序列函数作用在这个交易序列数据库上，返回该数据库中出现的高频序列。在进行序列模式分析时，同样也需要有用户输入最小值信度c和最小支持度s。序列模式主要关注事务之间的关系。序列模式数据挖掘就是挖掘出交易集之间有时间序列关系的模式，在访问日志中发现所有满足用户规定的最小支持度s的大序列模式，寻找用户普遍访问的规律(例如通过序列模式分析，能发现数据库中形如“在某一段时间内，顾客购买商品A，接着购买商品B，而后购买商品C，即序列A)，预测用户的访问趋向，用来直接指导经营活动，给客户提供最直接、最周到的服务。例如当访问者浏览到某页面时，检查他的浏览所符合的序列模式，井在显眼的位置提示“访问该页面的人通常接著访问”的若干页面。
　　再次，分类聚类。分类技术是把数据项映射到预先定义好的类中，即对新添加到数据库里的数据进行分类。分类分析的输入集是一组记录集合和几种标记，按标记分类记录，然后检查这些标定的记录，描述出这些记录的特征。分类规则可以挖掘用户群的访问特征（某些共同的特性）。分类要解决的问题是为一个事件或对象归类。设有一个数据库和一组具有不同特征的类别（标记），该数据库中的每一个记录都赋予一个类别的标记，这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用这个分类规则对其它数据库中的记录进行分类。在电子商务中分类分析可以预测客户响应，如哪些客户最倾向于对直接邮件推销做出回应，又有哪些客户可能会换他的手机服务提供商，或进行商店定位，如按成功的商店、一般商店和失败商店排列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库，分析每一预期的商店位置属性，以确定预期的商店定位属于哪一类。只有那些符合成功一类要求的商店位置才作为商店定位的候选。用于分类分析的技术有很多，典型方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。最近数据挖掘技术也将关联规则用于分类问题。另外还有一些其它分类方法，包括k－最临近分类、MBR、遗传算法、粗糙集和模糊集方法。目前，尚未发现有一种方法对所有数据都优于其它方法。实验研究表明，许多算法的准确性非常相似，其差别是统计不明显，而训练时间可能显著不同。一般地，大部分神经网络和涉及样条的统计分类与大部分判定树方法相比，趋向于计算量大。
　　聚类技术不同于分类，它的输入集是未标记的记录。聚类主要是把所有用户划分为若干组，具有相似特性（或浏览模式）的用户分在一组，以便制定特殊市场战略，如自动给一个特定的顾客聚类发送销售邮件，为一个顾客聚类动态地改变一个特殊的站点等。聚类在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同客户群的特征。此外聚类分析可以作为其它算法（如分类）的预处理步骤，这些算法再在生成的簇上进行处理。聚类技术主要有两类：统计方法和神经网络方法。自组织神经网络方法和K-均值是比较常用的聚集算法。
　　最后，路径分析。使用路径分析技术进行Web数据挖掘，主要是从由网站结构构成的图中确定最频繁的路径访问模式，从而改进页面及相应调整站点的结构。另外，还可以从相似访问子图的客户中进行分析和聚类。
　　
　　三、Web数据在电子商务中的实践
　　
　　在零售业电子商务中，Web数据挖掘主要用于商品的市场定位和消费分析，以辅助制定市场策略，还可以用来分析购物模式，预测销售行情等。通常表现在以下几点应用：
　　首先，聚类客户，随着“以客户为中心”的经营理念不断深入人心，分析客户、了解客户并引导客户的需求已成为企业经营的重要课题，在电子商务中客户聚类足一个重要的方面。通过对电子商务系统收集的交易数据进行聚类分析，对具有相似浏览行为或客户指标（如自然属性、收入贡献、交易额、价值度等）的客户进行分组，找出分组中客户的共同特征，从而确定不同类型客户的行为模式，以便根据市场细分采取相应的营销措施，促使企业利润的最大化。例如有一些客户经常浏览有关“家具”、“家用电器”的页面，经过分析这些客户被聚类分为一组，他们可能是将要结婚的客户,商家可以针对该群体的需求,为他们发送相应产品目录和广告、
　　其次，提供个性化服务。针对不同的客户，让其感到整个网站完全为他自己定制的个性化网站，是Web网站成功的秘诀。通过Web数据挖掘，分析出客户频繁访问路径和兴趣页面集合，掌握其浏览兴趣和基本特征，及时调整商品销售信息，迎合客户的需要，从而向客户提供个性化服务，提高客户的满意度。个性化服务的主要表现形式有：推荐的超链接列表，推荐的商品列表，推荐的广告列表，经裁剪的文本或图像列表等。
　　再次，挖掘潜在的客户。对一个现代商家来说，如何快速发现更多潜在的客户，提高对市场活动的响应力，从而提高市场占有率是至关重要的。通过web数据挖掘可以对潜在客户信息进行分类和聚类分析，再由模式分析预测哪些可能成为新客户，以帮助市场销售人员找到正确的营销对象，Web数据挖掘还可以揭示客户的行为习惯，发现在不同情况下有相似行为的新客户，帮助商家识别出潜在的客户群，并提高对市场活动的响应力，采用积极的营销策略，不断挖掘新客户，从而提高市场占有率。
　　最后，改进站点的设计。利用Web数据挖掘，可以使网站管理人员更清楚地了解和掌握站点的运行状况，更合理地设计站点的拓扑结构和网页的链接，有利于访问者快速找到自己所需要的信息和商品，让客户能够容易地访问到想访问的页面，节约客户的访问时间，给客户留下好的印象，增加下次访问的机率。
　　Web数据挖掘是在传统的数据挖掘的基础上发展起来的一门综合技术，它主要致力于在网络海量的异构的信息资源中寻找蕴涵的有价值的知识。而近年来，随着电子商务的迅速发展，Web数据挖掘有了更大的用武之地。它能够帮助零售业商家获得和保留客户，延长客户驻留时间，调整市场策略，进行正确的决策，促进电子商务的发展。随着基于Web的数据挖掘算法的不断发展和成熟，Web数据挖掘一定会有更加广阔的应用前景。
　　
　　参考文献：
　　[1]《数据挖掘概念与技术》．（加）Jiawei Han，Micheline Kamber，著．范明，孟小峰等，译．机械工业出版社，2005．8．
　　[2]《构件面向CRM的数据挖掘應用》．（美）贝尔森，（美）史密斯，（美）西瑞林，著．贺奇等，译．人民邮电出版社，2001.8．
　　[3]《数据挖掘原理》．David Hand,Heikki Mannila，Padhraic Smyth，著．张银奎，廖丽，宋俊等，译．机械工业出版社，2003．4．
　　[4]《Web数据挖掘：将客户数据转化为客户价值》．（美）Gordon S.Linoff，Michael J.A.Berry，著．沈钧毅，宋擒豹，燕彩蓉等，译．电子工业出版社，2004．3．
　　
　　（作者单位：吉林大学）

其他文献

浅谈“寓教于乐”在小学语文教学中的实践

【摘要】从平时的教学实践中找到了小学中年级段学生“乐学”的神经元，从中摸索出“寓教于乐”的心得和实践方法。　　【关键词】小学语文寓教于乐方法探索实践　　【中图分类号】 G623.2　　【文献标识码】 A　　【文章编号】 1992-7711（2020）02-148-010　　三年级是小学阶段的转折期，是从低段向高段过渡的中段时期，学生的思维开始从形象思维向抽象思维转变，语文学习中对学生的听

期刊

学生古诗寓教于乐快乐西沙群岛他们的

就这样被音乐征服

[摘要]:奥尔夫的观念是一种原本性的音乐教育，认为音乐教育首先是人的教育，孩子们在参与音乐活动过程中，学习合作交往，增强自信心，学会理解和爱。作者结合自己的实际工作情况，论述了奥尔夫音乐教育的魅力。　　[关键词]:奥尔夫音乐教育儿童发展　　　　音乐教育首先是人的教育，这是德国音乐教育家卡尔奥尔夫的一个很重要的教育思想，他特别强调“原本性音乐”，即不只是单纯的音乐，它是和动作、舞蹈、语言紧密结合

期刊

音乐孩子们孩子自己的音乐教育奥尔夫

春风化雨　润物无声

[摘要]高等师范学校加强学生人文素质培养是实现高师教育目标、培养合格师资的必然选择。教育学课程教学是渗透人文知识、增进人文修养的一个很有力的途径。教育学课程教学工作者应挖掘教材中的人文因素，从传授人文知识、培养人文精神、塑造完善人格等方面加强人文教育。　　[关键词]教育学高师生人文素质培养　　　　人文素质，是指由知识、能力、观念、情感、意志等多种因素组成的一个人的内在品质，它包括文化知识素养

期刊

教育学人文学生教师教育家素质

期刊开架管理，更好服务读者

[摘要]本文通过对杨凌职业技术学院图书馆期刊阅览室“乱架”现象的认真观察与分析，总结出了造成这种现象的原因，并提出了一些新的排架方法，既节省了人力，大大降低了乱架率，又便于读者取阅，保证服务质量。　　[关键词]图书馆开架阅览科学排架服务措施　　　　笔者长期在图书馆期刊阅览室工作，经历了从原始的闭架人工管理到现代化的开架计算机管理的转变过程，对开架阅览有一定的了解，下面将如何做好开架阅览的管理

期刊

读者期刊排架学生阅览室图书馆

教什么

摘要　本文从实例出发，结合教学活动的本质和信息时代教育资源的特点，从理论与实践两个层面，回应“教什么——信息时代的教学追问”。探讨了信息时代教学目的性的重组问题，阐述了以“传导信息采集方法，解读知识迁移原理，优化情感构建体系”为主要特征的教学内容更新原则，以期信息能更好地服务于教学，让教研活动尽快回归到教育的本源。　　关键词　信息时代　信息采集　知识迁移　情感构建　　　　一、问题的提出　　　　19

期刊

信息时代教育资源信息的书学生过程

高校辅导员职业指导胜任力初探

【摘要】随着高校扩招和国家经济发展的转型，高校毕业生就业形势变得日益严峻，加强对大学毕业生的职业指导越来越重要。职业指导价值观、职业指导知识、职业指导文化构成了高校辅导员所应该具备的职业指导胜任力的重要因素。　　【关键词】职业指导胜任力就业形势　　　　随着高校毕业生就业压力的逐渐增大，高校辅导员在毕业生就业中的指导作用越来越得到更多的关注。这要求高校辅导员除了做好学生思想政治教育和日常管理工

期刊

职业指导辅导员自己的高校文化职业

构建和谐警营　强化院校德育工作

[摘要]和谐警营建设本质要求武警院校培养出政治合格、品学兼优的复合型高素质人才，院校德育工作承担着培养学生素质的任务。本文在分析构建和谐警营对警校德育工作的时代要求基础上，对院校德育工作存在的诸如教育位置上的不适当、观念上的不适应、内容上的不同步、手段上的不丰富、机制上的不协调等“不和谐”现象进行了审视，并对如何让和谐充盈院校德育工作进行了积极思考。　　[关键词]和谐警营德育工作高素质人才　　

期刊

德育工作院校德育和谐学生警校

整体感知的铺色训练

[摘要]学习色彩静物既要关注色彩与表现的科学规律，又要遵循学习心理学的科学规律。从正确的整体观察方法的确立，到科学认知和阅读色彩，再到一定强度的铺色训练，关注的是人本的艺术学习，使学习得更有效。　　[关键词]色彩静物铺色训练右脑观察阅读色彩大笔小画　　　　色彩静物是历年美术高考专业测试科目之一，不管是统考，还是校考，都非常注重考生的色彩修养。在考生学习专业课的过程中，辛辛苦苦地从素描学到色

期刊

色彩关系静物画面物体素描

运动生物力学在羽毛球技术中的研究现状及趋势

[摘要]采用文献资料法、逻辑分析法，对运动生物力学研究现状进行回顾总结，并进一步分析了其在羽毛球技术中的研究现状以及其未来的发展趋势，以期促进运动生物力学在羽毛球技术中研究的更快发展。　　[关键词]运动生物力学羽毛球技术研究方法　　　　1 前言　　　　1972在美国宾夕法尼亚大学第四届生物力学大会上，运动生物力学(Sport Biomechanics)从生物力学中独立出来。历经了三十多年的发展

期刊

力学生物羽毛球技术方法测试

论小学班级管理中的不公平性

【关键词】班级管理不公平性正式群体　　　　追求教育公平是现代教育的重要理念,在班级管理中也应做到这一点。青少年是社会的未來，　　是国家的希望，每一个学生都应该成为教师关注的对象。学生之间存在着较大的差异，其差异的表现又反应在不同的方面，我们要承认差异，尊重差异，转化差异，不要歧视他们。　　　　一、重视正式群体、忽视非正式群体　　　　学生生活在群体之中。在每一个班级中，都存在着若干比较正式的群体

期刊

学生群体班主任正式差生差异

Ｗｅｂ数据在电子商务技术中的使用分析

与本文相关的学术论文