Web用户访问日志数据挖掘方法研究与实践

来源 :西安交通大学 | 被引量 : 0次 | 上传用户:yyy_chj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在综述Web数据挖掘的分类、研究内容和目前的研究现状基础上,明确了Web用户访问日志数据挖掘研究难点在于:如何对原始日志数据进行预处理;如何设计有效的挖掘算法以及与特定应用背景相适应的模式过滤方法,从而得到有价值的用户访问模式.在数据预处理方面,该文设计了基于最大参引模型和时间窗口模型的访问事务划分方法;在模式挖掘方面,针对Web用户访问特点设计了关联规则WARM系列算法和序列模式WSPM算法.WARM系列算法不仅能挖掘出用户频繁访问规则,而且可以挖掘非频繁访问规则和不同长度的访问模式.WSPM算法利用APRIORI挖掘算法思想结合WAP算法数据结构,提高了算法效率;在模式过渡方面,研究了结合网站结构信息如何利用简单证据推断进行频繁关联规则过滤的方法,设计了非频繁关联规则过滤方法.同时,针对ICP网站用户访问序列模式设计了模糊评价方法进行了模式过滤.
其他文献
长绒393等新品种(系),是从岱字棉中选出的天然长绒为母本与上海农科院从“长绒8号”中选出的605为父本的杂交后代中选出来的单株,再经多品种自然杂交,定向选育而成。在选育
近年来细颗粒物(PM2.5)成为了影响我国京津冀、长三角等地区空气质量的主要污染物,这些区域的政府在发展经济同时,如何控制和治理PM2.5污染也成为了一个需要关注的重点。因此,推
该论文在借鉴跨国经营理论的基础上,首先对于旅游企业跨国经营的一些基本理论问题进行了探讨,对旅游企业跨国经营的表现形式、特征等问题的论述构成了该论文的导论部分;动因
本文通过对荣华二采区10
作者从中国电信的存在价值,选择竞争战略、改革组织结构、激活员工队伍等四个层面上入手,进行战略思维,确立走向未来的基本思路与关键对策.在第二章,作者首先研究了电信市场
该文重点介绍了制约因素管理的基本原理和方法,并对其运用到企业生产系统管理进行了探讨.全文分为三章.第一章,对生产系统管理原理进行了概述说明,介绍了制约因素管理的基本
1978年由墨西哥引入六倍体小黑麦品种(系)196个,其中有一个矮秆品系“TUZ A”(图扎)原产地编号为X-16332-101Y,原粮作室编号为S81245,当年与八倍体小黑麦杂交。目前选育出一
双低油菜从菜苗至菜薹均可作蔬菜食用。尤其在春节前后摘一次油菜薹,可解决春节前后蔬菜供应相对较紧张的问题,实现一种两收,大幅度提高油菜种植经济效益。 Canola from veg
中国入世后,中小企业面临的生产经营环境将发生较大的变化,该文分析了广东中小企业入世后面对的机遇和挑战.广东中小企业只有通过国际化才能更好适应入世后经济等各方面环境
该文首先介绍了中小型企业网络的概念,进而提出中小型企业网络的安全性要求,并根据中小型企业的网络服务及应用状态,分析了其网络服务及应用中存在的安全问题,然后从计算机及