Web用户使用模式与兴趣挖掘方法研究

被引量 : 14次 | 上传用户：yanyong

【摘要】

：

随着Internet和WWW的迅速发展,用户访问信息广泛、海量地遍及于其上。这些信息从用户维、时间维、空间维、访问对象维等方面详尽地反映出用户的访问细节。对这些细节信息再进

【作者】

：

朱志国

【发表日期】

：

2010年01期

【关键词】

：

Web数据挖掘 Web使用模式挖掘用户会话识别 Web用户聚类用户访问兴趣

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet和WWW的迅速发展,用户访问信息广泛、海量地遍及于其上。这些信息从用户维、时间维、空间维、访问对象维等方面详尽地反映出用户的访问细节。对这些细节信息再进一步挖掘之后,就可以发现隐藏其中的一些更深层次的知识和规律-用户(用户群)的使用模式和访问兴趣。这些知识可以广泛应用于Web个性化服务、系统改进以及商业智能等领域。针对这个具有广泛而深远意义的研究课题,本文完成的主要工作包括以下几个方面：1.首先从用户使用模式挖掘过程中的四个主要阶段：数据采集、数据预处理、模式发现以及模式分析,宏观综述了国内外学者一些经典和最新的研究进展,并对这些研究成果进行详细地整理、归纳与分析,力求展现出这个研究领域的全貌。在前期调研成果的基础上,确立了本文研究工作的两个关键技术层面：Web使用数据预处理技术和Web使用模式与兴趣挖掘方法。2.在Web使用数据预处理技术层面,Web用户会话的识别与构建是其中一个非常关键的步骤。针对于此,提出了一个基于用户访问URL语义分析的会话识别方法。这个方法借助Web目录服务对URL记录进行概念化,为Web日志中的每一条URL访问记录赋予一定的语义信息,在此基础上再根据一些测度指标定义对URL之间的语义相似度进行评价,并建立预设时间间隔内的URL间语义距离矩阵。然后在静态和流动的Web日志情况下,分别给出了两类日志数据的语义奇异值鉴别方法：SOAS和SOAD。通过对候选语义奇异值的计算来判定一个切分会话标志的合理性,继而达到用户会话识别、构建的目的。实验结果表明,与一些已有的经典会话识别方法相比较,这个方法在各项评测指标的评估中均占优。同时这个成果将用于本文后续Web用户使用模式与兴趣挖掘方法的研究工作中。3.在Web使用模式与兴趣挖掘方法层面上,本文首先以Web用户访问信息的历史变化特性为视角,给出了一个Web用户聚类方法。在这个方法体系中,首先需要依次构造出每个用户的历史访问序列树：E-WAS树和H-WAS树。然后从H-WAS树中抽取出持久偏爱的Web访问模式PP-WAP作为Web用户的聚类特征。接下来,根据本章定义的一些PP-WAP的相似度判定方法对用户的相似性进行度量,并且选用著名的划分聚类方法-K-Medoid算法对用户相似度矩阵进行聚类计算。本章的最后部分进行了两方面的实验：PP-WAP的抽取实验和Web用户聚类实验。通过实验验证,本文将用户历史访问信息的变动特性作为聚类特征进行用户聚类的方法是新颖的,并且算法的可扩展性与计算效率也较好。4.在Web使用模式与兴趣挖掘方法层面上,本文还以用户的访问兴趣为出发点,基于经典隐马尔可夫模型建立了两个Web用户兴趣浏览路径模型：INPM和SINPMPe,并给出了从这两个模型中发现用户兴趣关联模式的方法。这些发现的用户兴趣关联模式不仅可以反映出用户访问路径上的时间特性,而且更多地是反映了带有用户访问兴趣特性的最佳关联路径信息。最后,安排了三部分的实验：模拟数据实验、带有实际背景的实验以及与传统方法的对比实验。实验结果表明,提出这个兴趣关联模式发现方法的确是一个高效、扩展性良好的用户兴趣路径序列挖掘方法。利用发现的兴趣关联模式可以更好地理解访问用户的偏好,帮助Web站点设计者改进站点结构。此外这个方法还可以以周期性、离线方式进行挖掘工作。

其他文献

《奥斯维辛没有什么新闻》的三个反差分析

<正>《奥斯维辛没有什么新闻》这样一篇优秀的新闻,如果按照传统的教学模式,从新闻报道的特点入手,划分新闻结构,引导学生认识法西斯的暴行,了解新闻的主要事件,再对课文段落

期刊

奥斯维辛焚尸炉毒气室《奥斯维辛没有什么新闻》

山楂薄荷甘草汤防治风热感冒等10题

<正>01山楂薄荷甘草汤防治风热感冒山楂、甘草、麦芽、薄荷叶各50克。将前3种原料洗净放入砂锅,加清水适量,煮沸10分钟后放入薄荷叶,然后加盖离火,5分钟后即可去渣饮用。每日

期刊

风热感冒甘草汤健脾消食

氢溴酸高乌甲素药物代谢及动力学研究

高乌甲素是从高乌头中提取总碱,经化学分离获得的二萜类单体刺乌头碱,是国内首创的非成瘾性中枢神经系统镇痛药,具有显著的抗炎消肿、降温解热及较强的镇痛作用。其镇痛强度

学位

氢溴酸高乌甲素HPLC-MS/MS药动学排泄代谢

廊坊供电公司配网管理信息平台的研究和应用

本论文在论述国内外配电网管理的现状、方法和存在问题的基础上,提取精益化和流程化管理理论精髓,依据SOA服务架构和嵌入式系统设计原则,采用组件化的C／S和B／S相结合的开发方式

学位

配电网信息平台一体化精益化过程监督

赫尔巴特兴趣教育思想之研究

赫尔巴特是西方近代教育史上的一位巨匠。他的教育思想丰富、博大、精深。本文力图挖掘赫尔巴特教育思想体系中真实存在、且尚未被人们完全认识的一个领域——赫尔巴特的兴趣

学位

赫尔巴特多方面兴趣兴趣教育思想杜威

论工业企业总平面的科学管理

<正> 工业企业厂区总平面布局的科学管理与规划,是企业管理工作的一个重要组成部分。在四化建设中,这方面的科学管理工作,愈来愈迫切地提到企业管理的议事日程。一、企业总平

期刊

总图管理社会主义总平面布局

社会主义和谐社会法律信仰的养成

本文意在从人与自我的关系、人与人的关系、人与国家的关系的视角出发,对我国社会主义和谐社会法律信仰的养成问题进行思考。从人与自我的关系分析,人对自身全面发展的认识是

学位

法律信仰养成人与自我人与人人与国家

基于区域差距的高等教育公平指标体系构建

高等教育公平是实现社会公平和构建和谐社会的重要基础。1998年,随着我国高等教育大众化战略的实施,我国高等教育获得了快速的发展。但与此同时,原本由于区域经济发展不平衡

学位

高等教育教育公平指标体系区域差距

西宁地区小儿慢性咳嗽68例病因分析

目的:探讨西宁地区小儿慢性咳嗽的病因特点,为临床诊断治疗提供参考。方法:对2008年1月—2010年12月在我院儿科门诊就诊的68例慢性咳嗽患儿进行回顾分析,总结其病因特点。结

期刊

小儿慢性咳嗽病因

地下工程中的非线性接触算法研究及数值实现

基于罚函数法的点对面形式因其具有显著的简便性而在工程领域内应用广泛。针对罚因子可能引起矩阵病态的缺陷,采用局部坐标系下的相对位移作为与接触相关的广义自由度,大幅提

期刊

地下工程接触有限元罚函数法点对面

Web用户使用模式与兴趣挖掘方法研究

与本文相关的学术论文