论文部分内容阅读
随着Internet的不断发展,越来越多的组织、企业、机构通过网络与用户交流或交易。为了留住已有用户,争取潜在客户,必须提高用户体验,使自己的网站更加实用,更加有吸引力。为了实现这个目标,必须知道用户兴趣所在,根据用户的访问特点来优化网站结构,发展个性化服务。通过对用户的访问记录,即Web日志进行分析可以发现潜在的用户访问模式,从而来改善网站结构,发展个性化服务,提升用户体验。Web日志挖掘是Web数据挖掘的一个重要子领域,从Web日志数据里挖掘潜在的、有用的知识或模式。会话识别是Web日志挖掘中的重要步骤。本文针对目前各种会话识别方法,提出了一种优化的会话识别方法,即基于页面兴趣度动态阀值会话识别方法。该方法通过把页面兴趣度和页面的动态平均停留时间相结合生成基于页面兴趣度动态阀值来识别会话。本文主要工作有:1)本文首先系统地介绍了数据挖掘、Web挖掘的概念和分类,然后对Web日志挖掘相关概念、技术和过程进行了详细的阐述,重点研究了Web日志挖掘的数据预处理过程。2)为了生成个性化的动态阀值来识别会话,本文提出了页面兴趣度,即用户对页面感兴趣程度,根据页面的性质和用户相对浏览速度对页面兴趣度进行量化。3)针对目前会话识别方法存在的问题,提出动态阀值会话识别方法,通过把页面兴趣度和页面的动态平均停留时间相结合,产生基于页面兴趣度动态阀值,弥补了传统时间阀值会话识别方法不能根据不同用户、不同网站动态调整阀值的不足。实验结果表明,相对于目前会话识别使用的单一固定阀值进行会话识别,本文提出的方法能更好地利用用户和页面的特点,更为合理有效。