论文部分内容阅读
当前,World Wide Web(简称WWW)正在从深度和广度方面飞速发展着。Internet在前所未有地改变我们的生活。而与此同时,WWW上的一些主要工作,例如Web站点设计、Web服务设计等工作也正变得越来越复杂和繁重。 WWW上存在着海量的Web访问信息。通过对Web访问信息进行有效的数据挖掘,可以获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。总之,挖掘Web访问信息可以获取非常有价值的潜在信息。 目前,Web访问信息挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。 本文首先对Web访问信息的特性进行了系统、全面地归纳与分析,并对当前国内外的相关研究进行了分析与总结。然后在此基础上,对Web访问信息挖掘中的群体性及个性化两个领域进行了研究,主要研究成果为: 1.面向大量用户的群体性领域: 挖掘Web用户访问行为,把具有相似访问倾向的用户分类,提出用户空间模型,其元素为用户群。提出投票选举策略的模糊聚类算法并引入聚类度的概念,基于算法建立了用户空间模型。算法对比模糊C均值聚类算法,不仅在无监督给出类数方面具有较好的鲁棒性,而且得到的收敛中心更稳定,得到的聚类结果与实际需要更相符。用户空间模型是本文对用户群体特性研究的基础。 对群体用户在Web页面上的访问兴趣展开研究,提出混合马尔可夫模型,并将该模型引入到兴趣导航模式发现中,拓展了马尔可夫模型的应用领域。提出基于混合马尔可夫模型的用户群兴趣导航模式发现方法。方法解决了现有的用户导航模式发现方法发现的导航模式只代表了用户通过路径的访问次数,不能反映用户通过路径的访问时间,因此不能更真实地反映用户访问兴趣等问题。基于该模型的兴趣导航模式发现比采用传统马尔可夫模型可以获得更高的预测准确率以及预测覆盖率,能有效地提高用户访问网站的效率。 基于群体用户的访问特性,提出基于用户群的站点自适应模型。在模型中,提出基于放置策略和后退策略的自适应过程,并通过关联规则发现算法发现关联访问集合,将导航页面合理地变成导航访问页面,从而实现站点根据群体用户的访问情况进行自适应。模型的建立可以有效地减少用户的冗余访问。