Web日志挖掘技术的研究与应用

论文部分内容阅读

Internet的快速发展，WWW的广泛应用以及所有用户行为的网络化，使得收集用户的Web访问日志数据、深入研究用户行为规律成为数据挖掘的重要研究方向，并由此产生Web日志挖掘。Web日志挖掘是指使用数据挖掘技术，对用户与Web服务器在交互时产生的数据进行分析，发现隐含的规律性知识，得到用户访问站点的频繁程度和行为模式，从而改善Web站点结构及页面间的超链接结构，提高站点的服务质量，改进站点性能，同时加强网站的安全性。本文讨论了Web日志数据预处理的意义、一般过程及日志数据的预处理方法。在研究了国内外现有Web日志挖掘算法的基础上，重点对数据结构是一个用户/页面(UserID-URL)关联矩阵的聚类算法进行了研究和分析。通过编写和实施WebLogMineV1.0程序将统计分析、聚类算法、频繁路径发现算法结合起来构成了一个混合处理系统。并以广东轻工职业技术学院网络中心Web服务器上的Web日志为数据源，在WebLogMineV1.0上进行了实例挖掘，实现了用户聚类、页面聚类和频繁访问路径等模式发现。进一步考虑把这个混合处理系统应用到Web站点，可以建设一个自适应智能化网站，从而为网站管理和决策者提供有力的支持。

与本文相关的学术论文