论文部分内容阅读
随着WWW网上可利用信息呈现爆炸性的增长,人们急需要从WWW网上发现有用的知识。面对海量的信息,人们获取有价值的信息变得越来越困难。Web服务器访问日志文件,记录了用户的地址、访问日期和时间、方法、网页、信息大小等用户访问信息和交互信息。Web日志挖掘主要是从Web服务器的访问日志文件中抽取用户感兴趣的访问模式,发现用户的浏览行为,实现个性化推荐服务。聚类可发现具有相似浏览行为的用户群,也可对具有相似特征的页面分组。但传统的聚类未考虑用户偏好的多样性,导致聚类效果不理想。本文对现有聚类算法进行了深入的研究,提出了改进的LFCM模糊聚类算法,对用户事务聚类。频繁访问路径反映了用户的访问模式。Apriori关联规则是挖掘频繁访问路径的一种典型方法,但会产生大量的候选项目集,效率不高。本文中,挖掘频繁访问路径的基本思想是挖掘长度为k的频繁访问路径通过两个长度为k-1的频繁访问路径自连接产生,这种算法可以减少数据库扫描次数,提高效率。目前网页推荐常采用页面的访问频次、访问时间反映用户的兴趣度。我们认为这种方式不能完全反映用户的兴趣度。为此,我们提出频繁访问路径和网页的访问频次、会话结尾的页面可以体现用户的兴趣浏览模式。本文从大量的Web日志中对有效挖掘用户访问模式进行探索,主要研究工作如下:①介绍和分析了预处理技术,包括数据净化、用户识别、会话识别、路径补充、事务识别等,预处理是Web挖掘过程中关键的一步,其结果直接影响挖掘的效果。②通过引入模糊数学,利用其处理不精确、不确定性问题的优势,在研究了模糊c-均值(FCM)聚类算法的基础上,提出了改进的LFCM算法,降低了时间复杂度,LFCM算法的时间复杂度与输入的用户事务数n和选择参数p成线性比例关系。实验结果表明LFCM较FCM算法可以更有效地实现聚类。本文还引入了聚类有效性函数,以获得最佳的分类数。③频繁访问路径反映了用户的访问模式,利用最大向前访问路径(MFP)方法和基于有向树的方法识别用户事务模式,频繁访问路径从用户会话的最大向前访问路径中产生。本文研究了一个新的网页推荐算法,向用户推荐可能感兴趣的页面。④初步设计了一个具有个性化推荐的系统原型,系统实时监测用户的访问行为,根据当前用户的访问情况,预测用户下一个可能访问的页面,动态为其推荐兴趣度最高的页面。