基于WEB日志挖掘的智能化站点研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:focus2316acn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络规模的迅猛发展以及用户需求的膨胀,Internet已成为人们信息发布,娱乐和交流的媒体。尽管Internet提供大量的信息和搜索门户网站,但用户往往无法找到自己所需的内容。WEB站点的日志数据记录了浏览用户对此WEB站点访问时的大量路径信息,对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯,网站设计人员可以用来对网站的结构进行优化和页面重组。更重要的是智能化站点能够通过历史日志数据自动对用户未来访问页面进行预测。 本文首先对WEB挖掘技术分类进行介绍,并针对WEB日志挖掘系统体系结构进行分析,重点介绍预处理过程的步骤及难点。其后将关联规则挖掘技术应用到日志事务会话中,介绍了传统的关联规则发现的Apriori挖掘算法,在对日志数据的特性分析的基础上提出类Apriori挖掘算法。 本文对类Apriori挖掘算法得到的频繁项集如何有效提取关联规则提出五种方法,通过试验对比,我们得出了最有效的方法。在实际应用中,如何从多个匹配的关联规则中选择合适的规则,本文提出两种匹配规则思想。 最后简单介绍聚类思想,提出基于密度的递归聚类应用到日志的挖掘算法。通过递归聚类算法找到几组相关页面集合,从而可能为推荐系统提供与当前用户访问会话序列符合的页组,推荐系统根据此页组预测可能访问的后继页面。
其他文献
本文在分析当前企业应用集成国内外研究现状的基础上,阐述了企业对新的应用集成框架的需求,研究了企业应用集成所面临的复杂性、架构策略、粒度等带来的挑战。在此基础上自行分
该文作为"基于MAS的智能决策支持系统"(Multi-Agent System Based In-telligent Decision Support System,M-IDSS)研究的一部分,系统地研究了M-IDSS中Web挖掘Agent的理论基础
随着Internet技术的广泛普及和应用推广,现代企业在功能和组织上对时间和空间分布有着较高的分布协作处理要求.采用Internet技术,研究和开发一种具有大范围时空协作处理能力
在现代社会中,人们需要一个信息平台来进行信息交流,正是基于这种需求,开发了基于COM+的电视发布信息平台系统,并在开发中采用了组件技术。 组件技术最基本的特征就是“即插即
随着人类对物质世界认识的不断深入,需要设计能量和精度更高的高能物理实验装置,由此将产生海量的数据,这些数据的存储和处理面临着巨大的挑战。自从互联网及WEB技术出现以来,人
该文对协同设计技术的若干问题开展研究.●研究了协同设计的公理化描述模型.●研究了协同集成设计环境的计算机辅助工具的协同用户界面和协同感知.按照以群体为中心的设计思
IPSec作为一种安全技术体系,极大地增强了网络通讯的安全性,而作为体系中重要组成部分的PF_KEY协议,使IKE守护进程能够方便地和内核中的安全关联数据库进行通讯。本文首先简要介
传统的网络管理系统是集中式模式,在现代的大规模复杂网络环境下难以满足网络管理的要求.目前的网络管理研究向分布式管理模式发展,该文在介绍了Web服务这种分布式对象技术的
几个世纪以来,信息逐渐在社会和经济的发展中发挥作用,但是进展缓慢。直到二十世纪六十年代中期科学家在电子和数学领域的发现促使了第一台计算机的面世,这一现象才得以改观。从
本文对软件可靠性工程在软件测试中的应用进行了研究。文章在对软件可靠性工程和软件测试等相关理论进行深入研究后,将软件可靠性工程与镇江海关口岸电子政务项目测试过程相结