面向Web的数据挖掘技术

来源 :中国高新技术企业 | 被引量 : 0次 | 上传用户:nyjnju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着Internet的发展,Web数据挖掘有着越来越广泛的应用,Web数据挖掘是数据挖掘技术在Web信息集合上的应用。文章阐述了Web数据挖掘的定义、特点和分类,并对Web数据挖掘中使用的技术及应用前景进行了探讨。
  关键词:数据挖掘;Web;路径分析;电子商务
  中图分类号:TP311 文献标识码:A 文章编号:1009-2374(2009)12-0047-02
  
  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
  
  一、概述
  
  (一)数据挖掘的基本概念
  數据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。
  
  (二)Web数据挖掘
  Web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。
  
  二、Web数据挖掘分类
  
  (一)Web内容挖掘
  Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。
  IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本,后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。
  (二)Web结构挖掘
  Web结构挖掘是从Web组织结构和链接关系中推导知识。Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS(Hy-pertext Induced Topic Search),PageRank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。
  
  (三)Web访问挖掘
  Web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。
  Web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的Web站点。Web的log数据包括:scnrer log,proxy serverlog,client端的cookie log等。Web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分);模式识别阶段(采用统计法、机器学习等成熟技术,从Web使用记录中挖掘知识);模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解,使采用各种工具挖掘出的模式得到很好利用)。
  
  三、Web数据挖掘中的关键技术
  
  Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
  
  (一)路径分析技术
  用路径分析技术进行Web数据挖掘时,最常用的是图,因为Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点V的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。
  
  (二)关联规则挖掘技术
  关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(SESSION),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(RIFERENCE)关系。最常用的是用APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。
  
  (三)序列模式挖掘技术
  序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式,它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。
  
  四、Web数据挖掘的应用
  
  随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前Web数据挖掘已广泛应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,基于Web的数据挖掘技术已经成为一个热点,下面主要介绍Web数据挖掘的三个应用前景:
  
  (一)在电子商务中的应用
  在电子商务中,运用Web挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些Web日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
  
  (二)在搜索引擎中的应用
  利用Web数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。
  
  (三)在网站设计中的应用
  在网站建设中,使用Web挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的Web访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。
  
  五、结语
  
  本文就Web数据挖掘技术及应用进行了分析,Web挖掘的应用研究是当前数据挖掘的研究热点。随着电子商务的迅速普及,网络资源的广泛利用,如何进一步开发Web数据挖掘,使用Web挖掘技术进行更深层次的应用是目前研究的重点。
  参考文献
  [1]王国荣Active.Server.Pages&数据库[M]人民邮电出版社,2000
  [2]谢欣,王韬,一种支持动态网站生成的模型与系统[J]计算机应用研究,2004
  [3]王涛,陈怀义,基于WEB的远程教学平台的设计与实现Ⅲ计算机应用研究,2003
  [4]甘早斌,陈传波,裴先登,基于web的软件需求管理系统研究[J]计算机应用研究,2003
  作者简介:邓雪峰,湖南常德人,供职于湖南城建职业技术学院,研究方向:计算机网络的应用与维护。
其他文献
摘要:在以PLC控制为核心、三相调压模块为基础的温度自动控制系统中,PLC将锅炉内胆温度设定值与温度传感器的测量值之间的偏差经PID运算后得到的信号控制三相移相SCR调压装置,从而调节加热器加热,实现温度自动控制的目的。文章介绍了在实训教学环节中基于S7-200温度控制系统的PID调节器的实现。  关键词:PLC;温度控制;PID调节器;S7-200;三相移相SCR调压装置;温度传感器  中图分类
期刊
摘要:瓦窑堡油田长4+5储层岩性主要为浅灰白色细粒长石砂岩、粉砂岩为主,粒度概率曲线以两段式为主,在观察的基础上,研究长4+5油层的岩性、结构、构造特征,结合该区十几口井的测井资料及粒度参数图件分析,长4+5储层沉积为湖泊三角洲平原沉积,分流河道砂体形成本区的主要储集层,储层分布主要受沉积特征控制。  关键词:沉积特征;延长组;瓦窑堡油田;鄂尔多斯盆地;沉积微相  中图分类号:TE112 文献标识
期刊
摘要:文章介绍了一种基于XTR105芯片的两线制压力变送器设计制造方案,它具有硬件电路简单、可靠性高、配置灵活、通用性强的特点,有突出的性价比优势,可广泛应用于对水、油、气等介质的压力测量。目前,该产品已成功安装在三峡工程84拌和系统氨冷车间的XKT5-B系列电气控制箱中,实现了对氨气压力的自动化测量与控制,确保了出厂混凝土的温控质量。  关键词:压力变送器;两线制;电流变送器;测力传感器;桥传感
期刊
摘要:对于开发基于数据库的中小型管理系统来说,采用Access 数据库应用程序直接能满足实际需求,其界面友好、易学好懂、开发简单、接口方便、功能强大,对程序设计能力的依赖性不高,使其成为最受欢迎的数据库管理系统之一。菜单操作是用户在使用应用程序时最有效的操作方法,但Access中没有专门的菜单设计器,文章介绍了利用宏来实现菜单的设计,为Access应用程序的开发者提供借鉴。  关键词:数据库管理;
期刊
摘要:实行HSE管理体系是石油化工行业安全、稳定生产的保障,对企业持续快速发展也起着极为关键的作用。近年来,我国石油化工公司在HSE管理方面都不断加大投入,并已取得一定成效,但是安全事故仍时有发生。文章分析了我国石油化工行业HSE管理体系中存在的问题,并提出了相应的改进对策。  关键词:HSE管理体系;安全管理;石油化工;安全经济观念  中图分类号:X937 文献标识码:A 文章编号:1009-2
期刊
摘要:SBS改性沥青路面施工是一项技术性强、涉及范围比较广的一个系统工程。现代化的施工机械、高素质的人员、成熟的施工工艺是必要的质量保证手段,同时必须建立质量岗位责任制。在施工过程中,要充分调动施工人员的积极性和责任心,从原材料把关开始,对沥青混合料拌和、运输、摊铺、压实等工艺上进行层层把关,这样才能铺筑出优良的路面工程。   关键词:沥青路面工程;施工工艺;质量控制;SBS改性沥青混合料  中图
期刊
摘要:文章着重介绍了国产智能化节电设备在本钢供水厂的应用情况,并结合变频调速技术在循环水泵变工况运行方式中的应用,对变频系统作了说明。改造结果表明,采用国产低压变频器对供水厂的给水泵设备进行调速节能的改造,具有较高的社会效益和经济效益。  关键词:LP-160型;智能化;节水设备;循环水系统;变频;节能  中图分类号:TM301 文献标识码:A 文章编号:1009-2374(2009)15-014
期刊
摘要:现浇混凝土空心楼板适用于大跨度、大荷载、大空间的建筑。其施工工艺简单,安装方便,速度快,保温、隔音性能好,能有效降低结构自重,使地震力减弱;减少支撑楼板的主梁、柱、墙和基础荷载,减小结构构件配筋量;有效节约能源,降低工程成本,因而前景可观,是建筑技术的一种发展和应用方向。文章以PCM空心楼板施工技术为例,简要介绍了其施工技术。  关键词:PCM空心楼板;PCM管;现浇混凝土;施工技术;模板工
期刊
摘要:文章介绍了机组原直流励磁机励磁系统存在的问题,着重阐述了改造所采用的LF2212型自并励静止励磁系统的配置及调节器的主要功能和特点,改造后励磁系统的可靠性得到了大大提高。  关键词:励磁系统;直流励磁机;自并励静止励磁系统;西贡改造  中图分类号:TM621 文献标识码:A 文章编号:1009-2374(2009)12-0029-02    励磁系统是同步发电机的重要组成部分,在电力系统中起
期刊
摘要:文章通过对首钢京唐焦化一期一步焦台深基坑支护工程施工经验和教训的总结,提出了对同类工程施工控制的建议。  关键词:京唐焦化工程;深基坑支护;基坑监测;施工质量控制  中图分类号:TU471 文献标识码:A 文章编号:1009-2374(2009)12-0044-02    一、工程概况    首钢京唐焦化一期一步焦台工程位于焦化现场A焦炉北侧,焦台基坑长105m,宽15m,基坑最深-13.9
期刊