Web日志挖掘技术的研究与应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:lislin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的快速发展,WWW的广泛应用以及所有用户行为的网络化,使得收集用户的Web访问日志数据、深入研究用户行为规律成为数据挖掘的重要研究方向,并由此产生Web日志挖掘。Web日志挖掘是指使用数据挖掘技术,对用户与Web服务器在交互时产生的数据进行分析,发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式,从而改善Web站点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,同时加强网站的安全性。 本文讨论了Web日志数据预处理的意义、一般过程及日志数据的预处理方法。在研究了国内外现有Web日志挖掘算法的基础上,重点对数据结构是一个用户/页面(UserID-URL)关联矩阵的聚类算法进行了研究和分析。通过编写和实施WebLogMineV1.0程序将统计分析、聚类算法、频繁路径发现算法结合起来构成了一个混合处理系统。并以广东轻工职业技术学院网络中心Web服务器上的Web日志为数据源,在WebLogMineV1.0上进行了实例挖掘,实现了用户聚类、页面聚类和频繁访问路径等模式发现。进一步考虑把这个混合处理系统应用到Web站点,可以建设一个自适应智能化网站,从而为网站管理和决策者提供有力的支持。
其他文献
期刊
期刊
期刊
期刊
期刊
学位
期刊
期刊
期刊
期刊