Web访问信息挖掘若干关键技术的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:louism123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,World Wide Web(简称WWW)正在从深度和广度方面飞速发展着。Internet在前所未有地改变我们的生活。而与此同时,WWW上的一些主要工作,例如Web站点设计、Web服务设计等工作也正变得越来越复杂和繁重。 WWW上存在着海量的Web访问信息。通过对Web访问信息进行有效的数据挖掘,可以获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。总之,挖掘Web访问信息可以获取非常有价值的潜在信息。 目前,Web访问信息挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。 本文首先对Web访问信息的特性进行了系统、全面地归纳与分析,并对当前国内外的相关研究进行了分析与总结。然后在此基础上,对Web访问信息挖掘中的群体性及个性化两个领域进行了研究,主要研究成果为: 1.面向大量用户的群体性领域: 挖掘Web用户访问行为,把具有相似访问倾向的用户分类,提出用户空间模型,其元素为用户群。提出投票选举策略的模糊聚类算法并引入聚类度的概念,基于算法建立了用户空间模型。算法对比模糊C均值聚类算法,不仅在无监督给出类数方面具有较好的鲁棒性,而且得到的收敛中心更稳定,得到的聚类结果与实际需要更相符。用户空间模型是本文对用户群体特性研究的基础。 对群体用户在Web页面上的访问兴趣展开研究,提出混合马尔可夫模型,并将该模型引入到兴趣导航模式发现中,拓展了马尔可夫模型的应用领域。提出基于混合马尔可夫模型的用户群兴趣导航模式发现方法。方法解决了现有的用户导航模式发现方法发现的导航模式只代表了用户通过路径的访问次数,不能反映用户通过路径的访问时间,因此不能更真实地反映用户访问兴趣等问题。基于该模型的兴趣导航模式发现比采用传统马尔可夫模型可以获得更高的预测准确率以及预测覆盖率,能有效地提高用户访问网站的效率。 基于群体用户的访问特性,提出基于用户群的站点自适应模型。在模型中,提出基于放置策略和后退策略的自适应过程,并通过关联规则发现算法发现关联访问集合,将导航页面合理地变成导航访问页面,从而实现站点根据群体用户的访问情况进行自适应。模型的建立可以有效地减少用户的冗余访问。
其他文献
目的:探讨QT间期离散度和超声心动图预测阿霉素引起的早期心肌损伤的应用价值。方法:收集2012-01至2013-12期间在我院确诊并有明确病理分型的44例乳腺癌患者,且均采用含蒽环
简要介绍了选煤厂存在的浮选入料粒度过粗的问题,分析了旋流微泡浮选柱的分选原理,开创性地采用小于0.7mm煤泥作为入料,通过浮选试验、正交试验分析了各个因素对粗粒回收效果
<正>~~
期刊
僵尸网络是被攻击者远程控制、而其用户尚无感知的一群计算机组成的综合攻击平台,已发展为当今互联网的最严重安全威胁之一。僵尸网络区别于传统木马、蠕虫等恶意攻击方式的
群体Agent合作是多Agent系统(MAS)研究的重要问题之一,也是MAS问题的一种有效的求解方式。针对群体Agent合作求解研究工作中存在的问题,本文主要研究了群体Agent合作求解模型
计算机在人类生活中扮演的角色随着经济社会的不断发展而日益重要,在当今社会其已经成为了人们工作生活中不可或缺的重要组成因子。而在计算机技术中,软件系统的影响是决定性
期刊
面对新型冠状病毒疫情发展迅猛的严峻形势,国网东台市供电公司第一时间响应,周密部署,全体员工迅速投入新型冠状病毒感染肺炎疫情防控工作中,精心构筑阻击疫情的坚强屏障,全
随着多媒体和网络技术的快速发展和广泛应用,多媒体信息的内容保护已成为一个迫切需要解决的问题。数字图像是一类非常重要的多媒体信息,数字图像的内容保护可分为两个方面:版权
电气化助水产养殖更高效3月16日,在宣城市宣州区水阳镇双盈村养殖户袁长林的养殖场,几十台排水泵正在蟹塘里作业。"虽然疫情还没完全过去,但是本地蟹农们可没闲着。"袁长林说