Web数据挖掘初探

来源 :中国集体经济·中 | 被引量 : 0次 | 上传用户:yilongfengyue5656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:Web数据挖掘是数据挖掘领域中一个新兴方向。文章介绍了Web数据挖掘的概念、流程,融合前人的众多研究,重点分析了Web数據挖掘的分类及其功能,并对其未来的发展提出了自己的看法。
  关键词:Web;数据挖掘;内容挖掘;结构挖掘;使用挖掘;应用
  
  一、引言
  
  相对于传统数据挖掘中结构化的数据,Web上的数据是半结构化或非结构化的。由于半结构化和非结构化的信息用数据模型不能清楚地表示,Web的用户群也表现出多样性的特点,因此,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。同时,基于Internet的服务也如雨后春笋般产生并发展起来。如网上银行、搜索引擎等。企业急需由Internet这个巨大的信息源中分析客户行为,寻找商机。
  在上面两个需求的推动下,产生了一个新的研究领域——Web数据挖掘。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web中的应用。
  
  二、Web数据挖掘概述
  
  (一)Web数据挖掘的概念
  Web数据挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息(Web mining is the use of data mining techniques to automatically discover and extract information from Web documents and services)。
  Web数据挖掘是在分析大量数据的基础上,做出归纳性的推理,预测客户行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。研究覆盖了多个领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
  


  (二)Web数据的特点
  1、数据量大。Internet将分布于世界各地的数量巨大的电脑连接起来,每个电脑上都存有丰富的数据,这些数据涉及不同的行业和领域,这其中还有很多的用户行为数据,所以Web数据量非常巨大。
  2、半结构化数据结构。半结构化是Web上数据的最大特点。传统数据库都有一定的数据模型,可以根据该模型具体描述特定的数据,比如关系型的数据库,有统一的格式:按一定序列编排的二维表格结构,其中存储的数据是完全结构化的数据。而Web上的数据非常复杂,没有特定的模型描述。每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,但因自述层次的存在,从而是一种非完全结构化的数据,即半结构化数据。
  3、异构数据库环境。从数据库研究的角度来看,Web网站上的所有信息也可以看作是一个比普通数据库更大、更复杂的数据库。每一个Web站点都可以看作是一个数据源,由于各站点是相互独立的,之间除了可以互相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境。要对这些数据进行分析,必须要解决各站点之间异构数据的集成问题,提供给用户一个统一的视图,才可能从巨大的数据资源中获取有用的信息。
  4、动态性极强。相对于数据仓库的数据而言,Web的数据量似乎过于庞大,而且其中的信息还在不断的更新。这几乎不可能去构造一个数据仓库来复制、存储和集成Web上的所有数据。
  
  三、Web数据挖掘的分类
  
  Web包括三种类型的数据:Web页面数据、Web结构数据、Web日志文件。根据数据挖掘对象的不同可以将Web数据挖掘分为内容挖掘、结构挖掘和使用挖掘三类,其具体分类见图1。
  (一)Web内容挖掘
  1、文本挖掘。对非结构户文本进行的Web挖掘,称为文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域。对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯。对模型的质量评价主要有分类的正确率、准确率和信息估值。
  2、多媒体挖掘。多媒体数据挖掘是数据挖掘的一个重要领域,是从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。广义的多媒体数据挖掘既包括对图像、视频和声音的挖掘,也包括对文本数据的挖掘。
  (二)Web结构挖掘
  整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在Web页面的结构之中。Web结构挖掘是指挖掘Web潜在链接结构模式,即通过分析页面链接和被链接数量以及对象来建立Web自身的链接结构模式,在此基础上对页面进行分类和聚类,从而找到权威页面。文档之间的超链接体现了文档之间的逻辑关系,与文档所处的位置无关,一个Web站点内的文档完全可以包含指向其他站点的链接,这是站间链接,与之对应,位于同一个站点的链接就是内部链接。Web结构挖掘是对Web页面超链接关系,文档内部结构,文档URL中的目录途径结构的挖掘,所以Web结构挖掘又可以分为超链接挖掘、内容挖掘和URL挖掘。
  (三)Web使用挖掘
  现代许多商务以及交易都是通过Internet或Web来实现的,从而每天在服务器方都会产生大量的数据,这些数据通常是由服务器自动产生并将其存放在服务器日志文件中,除此之外还有很多用户信息如用户的注册信息。尽管Internet作为一个信息资源是繁杂、异质和庞大的,然而从局部上来说,在每一个提供信息资源的服务器上都有一个结构化较好的记录集,即Web访问日志。Web使用挖掘就是运用数据挖掘技术在这些资源中发现使用模式的一个过程,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。Web使用挖掘可以分为一般的访问模式跟踪和定制使用跟踪。一般的访问模式跟踪通过分析Web访问日志来理解访问模式,利用这些分析可以清楚地给出较好的Web结构及资源提供者的分组情况,把数据挖掘技术应用与Web访问日志可以获取有趣的访问模式,这些访问模式有助于网站的重构。定制使用跟踪可以分析个人的倾向,它的主要目的是为每个用户定制符合其个人特色的Web站点。根据个人喜好,可以在显示的信息,网站的结构及资源的格式等方面动态地进行定制。
  (四)三种Web数据挖掘的比较(见表1)
  
  四、Web数据挖掘的功能
  
  (一)系统提升
  系统提升又分两个方面,一是网站自身的提升,二是网络性能的提升。
  网站自身的提升是指根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户。比如当通过数据分析发现大多数的用户在访问本站时都是经过路径A=>B=>C=>D来访问的,则可以将页面A、D直接链接在一起,方便用户访问。
  


  网络性能的提升是指应用缓存技术加快网络信息传输,从proxy的访问信息中可以分析用户的访问模式,从而可以预测用户的Page访问,提高Web Caching的性能。比如大多数用户的访问习惯为A=>B=>C,A=>B=>D,则当用户从A访问到B时就可以将C、D调入缓存,等待用户访问。
  (二)个性化定制
  个性化定制是指根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议。例如网上的零售系统捕捉到大量采购过程的细节,提供了深入分析的可能。从用户的每次浏览的页面可以发现他的兴趣爱好,这样商家可以为该用户定制观看的内容或提供浏览建议,这样可以方便用户的浏览和查询,增强顾客的忠诚度。同时商家可以对广告的最佳摆放位置做出决策,从来提高广告的效用,促进网上销售。
  
  五、发展方向
  
  Web数据挖掘有众多应用,有两项是上文已经提及的Web数据挖掘的功能,已经投入应用,也就是提升系统和为顾客提供个性化定制服务。本文另外将提出两个Web数据挖掘应用未来的发展方向。第一种是改造和构造新的算法,把原有旧的数据源(例如Web Log)和新的数据(Business Data)结合起来,用以发现新的使用模式。旧的数据源是指日志能服务器自动记录下来的信息,而基于电子商务的迅速发展,新增了海量的商务数据,包括用户的购买记录,点击记录等等,如果将旧的数据源与新的数据源相结合,一定可以发现新的使用模式,从来发现新的电子商务模式。第二种是提供完整的应用功能。也就是集数据收集、清理和转换,数据存储,数据挖掘,个人定制,市场分析和决策于一体,将这么多功能整合以一种商业服务的方式提供,一定能受到众多商家的青睐。因为由商家自己去做数据挖掘,技术不过关,成本太高,如果由专业的第三方来提供这样的服务,由专业人士帮助商家进行数据挖掘,可以有效地节约资源。
  
  六、结束语
  
  本文讨论了Web数据挖掘的概念、流程,详细描述了Web数据挖掘的分类和功能,并对其未来的发展提出了一些想法。Web数据挖掘是随着Internet、数据挖掘兴起的一门新的综合性技术,是一个交叉的研究领域,国内外在这一研究领域还没有形成比较成熟的理论和同意的体系,因此Web数据挖掘具有极大的挑战和巨大的开发潜力,其研究有着很好的商业和实用价值,这也是一个新的挑战。
  
  参考文献:
  1、马保国,侯存军,王文丰,钱方正.Web数据挖掘技术及应用[J].计算机与数字工程,2005(34).
  2、麦晓冬,余海冰.Web数据挖掘综述[J].科技咨询导报,2007(14).
  3、高岩,胡静涛.Web数据挖掘的原理、方法及用途[J].现代图书情报技术,2002(51).
  4、李健.Web的数据挖掘[J].数据库及信息管理,2006(20).
  5、刘明刚,吴继娟.基于Web数据挖掘研究[J].信息科学,2006(63).
  (作者单位:南京大学商学院电子商务系)
其他文献
摘要:农业垂直一体化经营作为一种制度创新,是实现我国农业现代化的重要途径。文章结合山东农业产业经营的实践,根据交易成本经济学的相关理论,运用资产专用性、交易特性理论,阐述了垂直一体化经营的内涵、特征及类型,分析了其实现条件,认为其具有独特的制度优势和广阔的发展前景,必须采取切实可行的措施加以扶持,使其健康发展。  关键词:垂直一体化;交易成本;制度优势    垂直一体化经营是实现我国农业现代化的重
期刊
摘要:文章运用向量自回归模型(VAR)研究CPI在内在关系以及CPI与食品价格的相关系数,探究物价上涨的原因,并从时间序列趋势性的角度预测CPI的未来走势。  关键词:CPI;食品价格指数;VAR;内在原因    居民消费价格指数(Consumer Price Index,CPI)是反映居民购买并用于消费的商品和服务项目价格水平的变动趋势和变动幅度的指数。CPI的采价对象既有城乡居民日常生活需要的
期刊
摘要:全要素生产率(TFP)是经济增长内在动力研究中的核心问题之一,其中,贸易开放度、人力资本积累水平与全要素生产率的关系成为20世纪90年代以来研究的重点问题。就这三者之间的关系研究来看,国内外文献主要从贸易开放度对全要素生产率变动的影响、人力资本对全要素生产率的影响作用以及贸易开放度和人力资本如何共同作用影响全要素生产率的变动等三个方面进行了深入研究。  关键词:贸易开放度;人力资本;全要素生
期刊
摘要:文章通过对IT技术在金融业应用的观察,讨论IT技术对金融业发展的影响。IT技术的发展可以促进金融业的发展和创新,使其提高效率,减少人力成本,扩大业务范围等,但也埋下了一定程度的安全隐患。总体上看IT技术对金融业的影响还是利大于弊的,将使金融业朝着健康、高效、便捷、安全和多样化的方向发展。  关键词:IT技术;金融;进步;安全    一、引言    所谓IT技术,是信息技术的简称,英文Info
期刊
摘要:在信息技术(以下简称IT)广泛应用的当今社会,信息传播、处理和反馈的速度大大加快,导致企业间竞争日益加剧,而且随着信息产业成为社会主导产业,产品生命周期不断缩短,技术含量不断提高,對企业经营管理能力和决策水平提出了更高的要求,当然也给企业传统的内部控制带来了新的问题。对此,文章主要探讨了信息技术的发展对传统内部控制要素的影响。  关键词: IT环境;内部控制;影响    内部控制要素包括控制
期刊
摘要:文章基于协整分析与脉冲响应函数,分析了北京市1978~2006年以来地区生产总值与三次产业就业之间的协整关系。研究表明,北京市第二产业和地区生产总值有双向的Granger因果关系,在当前经济增长快速上升的情况下更应该注重第二产业的投入。政府通过适当的方式,积极促进劳动力进入第二产业,将有助于北京市更稳健地向现代化国际大都市发展。  关键词:北京就业结构;脉冲响应;VAR模型;Granger非
期刊
摘要:虽然各国在WTO服务贸易国内法规谈判的目的和内容上持相同意见,但发达国家对于加快贸易增长的要求与发展中国家逐步发展本国服务业、减轻政府负担的意图矛盾,双方在必要性测试、技术标准等方面存在不可忽视的矛盾。  关键词:WTO服务贸易谈判;国内法规;谈判进程    一、引言    2001年11月,WTO多哈第四次部长会议启动新一轮谈判。基于GATS第六条(GATS Article VI)的国内法
期刊
摘要:在以人为本,共创和谐社会这一方针的指导下,我国于2006年7月1日出台并强制实施了《机动车交通事故责任强制保险条例》。实施一年多来,其在保障受害者权益方面起到了重要作用,也暴露出许多不足和亟待改进之处。尤其是在经济负担过重及其相应的保险保障不足方面,投保人对该险种的各种规定产生困惑,对其合理性提出质疑。为使交强险的实施更符合天津市的具体情况,调整财产损失限额将更有助于降低投保人负担和提高保险
期刊
摘要:目前江苏省养老保险制度改革重点是把养老保险制度现有的现收现付制转变为部分积累制。目前最重要的问题是养老保险基金缺口越来越大,养老基金无以为继。寻求定量研究養老保险需求和供给问题,确立未来养老基金的需求量和供给量,以此构建养老保险缺口模型,无论对理论研究和实际应用都很有意义。  关键词:养老保险改革;社会养老基金需求;社会养老基金供给;基金缺口    一、研究背景    随着我国人口老龄化高峰
期刊
摘要:随着计算机网络在人类生活中的地位越来越重要,网络安全被放在了网络研究的一个重要的位置。文章简要介绍了SNMP协议,提出了实现测量的所需要的系统模型,并对其中的关键技术进行了阐述。  关键词:SNMP;数据流量    计算机网络在现代人类生活中的地位越来越重要。随着网络管理的发展,网络流量的监测是整个网络管理的一个重要的组成部分。有效的网络流量监控数据不仅能够让网络管理人员及时获得网络运行的最
期刊