论文部分内容阅读
随着网络技术的迅速发展,以及网络在社会生活中的广泛使用,使得网络上的信息资源越来越多,人类交互信息已不可避免地海量化,而巨量、无组织的信息给用户寻找感兴趣的信息增加了困难。面对巨大的网络信息,如何发现用户所需信息?为了解决这个难题,Web挖掘技术应运而生。Web使用挖掘是Web数据挖掘研究领域中一个重要方面,它是通过挖掘Web服务器日志记录以发现用户访问Web页面的模式,挖掘有用模式和预测用户浏览行为的技术。
本文对Web使用挖掘进行了系统、全面地归纳与分析。并在分析和总结国内外相关资料的基础上,深入研究了Web使用挖掘的二个阶段:
(1)通过对Web使用挖掘的数据预处理过程的研究,提出了结合网页内容与网站结构进行预处理的方法。具体实现过程是利用IP+Agent+参考页面+网站拓朴结构识别用户,然后利用用户访问的网页内容进行事务处理。利用这种方法对数据预处理后,结果具有较高的精确性。
(2)采用蚁群混合聚类算法进行用户聚类分析。即利用蚁群聚类算法进行初始聚类获得初始聚类中心,然后用K-均值聚类算法改进聚类的结果。在利用蚁群混合聚类算法实现用户聚类算法中,考虑到用户访问行为以及内容对用户兴趣的影响,改进了蚁群混合聚类算法的相似性计算公式。改进后的算法充分结合了两种聚类算法的优点,解决了传统聚类算法所面临的一些问题,能产生比较理想的聚类结果,从而提高了聚类质量。