面向用户意图的Web使用挖掘预处理模型研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:lihan5200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的飞速发展,网络用户行为分析已经成为当下多个学科领域的研究热点之一,Web使用挖掘是网络用户行为分析的重要手段,作为其重要组成部分,Web使用挖掘的预处理由于对后续挖掘效果的重要影响,引起了众多学者的关注。但是,由于现有理论模型存在缺陷,Web使用挖掘预处理无法模拟用户的访问意图。针对该项研究存在的问题,本论文对面向用户意图的Web使用挖掘预处理相关理论进行了探讨,对其若干关键技术提出了改进思路。   本文的研究工作主要包括以下几个方面:   (1)对面向用户意图的Web使用挖掘预处理模型相关问题进行了讨论。第一,Web使用挖掘预处理模型的概念、类型。在现有研究的基础上,将Web使用挖掘预处理分为三类:基于时间的、基于导航的和基于语义的模型。第二,预处理模型的表示方法及改进后的模型表示方法。对其中的各种规则进行统一形式化表示,本文采用集合论来表示预处理模型中的规则,对现有的时间、导航、语义等三类规则各自独立表示。最后,借鉴心理学和信息系统领域的研究成果,通过将三者有机融合,提出一种面向用户意图的预处理模型。第三,日志语义识别方法。本文通过日志语义识别的定义提出其独特的语义分类特点、根据该特点确定日志语义识别的目标、借鉴逻辑语义学的词汇概念确定日志语义识别的标准、对使用聚类还是分类算法来对日志语义分类进行了讨论。第四,面向用户意图的Web使用挖掘预处理模型关键技术。主要包括日志语义分类技术、面向用户意图的会话识别技术和面向用户意图的事务识别技术等。   (2)提出了一种兼容独立日志请求的聚类算法。在语义识别过程中采用K-means算法作为聚类算法,但是该算法必须事先指定一个聚类数k,影响了其自动化水平,现有确定聚类数的方法在单一样本类的处理方面存在不足,导致无法识别用户只访问一个页面的情况,本文针对BWP方法的局限性,借鉴认知心理学中的空间感知原则,提出了改造的算法,对单一样本类的类内距离值进行动态评估。   (3)提出了一种适合动态容量的日志请求网页文本聚类算法。本文采用BWP4方法进行文本聚类,但是对拥有相同词汇的不同内容进行文本聚类时,文本聚类效果不佳,而且聚类效果无法根据样本量动态调整,这就导致用户浏览同一主题的不同网页时无法聚为一类。本文针对BWP4方法的局限性,提出了改造的算法,借鉴发展心理学的分化理论,在类内距离和类间距离的评估中引入共词及发展调节因子。   (4)提出了一种适合大规模容量的日志语义分类算法。本文采用支持向量机进行分类,但是,采用单个简单核进行映射的方式对所有样本进行处理并不合理,因此,出现了大量关于组合核方法的研究。然而,目前组合核函数在构成方法上还存在一定局限性,导致无法准确识别出用户访问不同类别的网页。本文针对线性组合核函数的不足,提出一种基于相乘关系的组合核函数构成算法。   (5)提出了一种面向用户意图的会话识别方法。本文对目前主要的会话识别方法在理论上进行了讨论,归纳成基于时间、基于导航和基于语义的三类方法,对比分析了各种方法的优缺点,指出了会话识别研究的不足。最后,阐述了面向用户意图的会话识别目标、会话识别的要素,在以往研究不足的基础上,提出面向用户意图的会话识别算法,使用户会话识别过程可以同时采用时间、导航、语义三类信息以模拟用户意图。   (6)提出了一种面向用户意图的事务识别方法。从用户事务识别研究的分类入手,分析并指出现有事务识别方法存在的诸多不足,阐述了面向用户意图的事务识别目标、事务识别的要素,并从模拟用户意图角度出发,提出了一种新的事务识别算法,该算法既借鉴了前人的经验,又弥补了以往研究的不足,使事务识别算法能够同时兼顾网页的语义信息和网页的导航作用;同时,本章还通过分析导航页识别算法的不足,借鉴社会网络理论的中心度等概念,给出了面向用户访问意图的导航页识别算法。
其他文献
随着我国教育改革的深入推广,各个学科的教育形式都在创新发展,同时高校体育教学的发展要求也在发生变化,从传统的体育教学模式开始整改.新的教育改革的背景下,学校更加注重
随着新课程的不断推进,体育课堂教学内容也在不断的丰富,踢毽子这项传统民间体育运动项目也正悄然回归体育课堂.经过实践,笔者总结了“五步走”的教学方略.使小小的花毽在体
我的爸爸是一名警察,大年初四那天,他接到了命令,要去抗击新冠肺炎疫情,不得不离开家,离开我和妈妈.rn爸爸走的时候,我生了一肚子气:“说好的新年礼物呢?说好去游乐场呢?全泡
期刊
在素质教育的课堂下,我们不仅重视知识的传授,更加重视学生“德智体美劳”全面发展.在体育学科教学中,教师要渗透体育学科核心素养,让学生在学习动作要领的同时提升体育学科
教育的最终目的是把学生培养成为出色的人才,让其具备足够强的社会适应能力.众所周知,随着社会的发展,在校生的体能素质越加令人担忧,所以体育的教学仍不可懈怠.高职院校的人
从前有座房子,主人担心老鼠太多,便养了一只猫;又担心家里进盗贼,又养了一只狗.rn当第一次看见老鼠时,那只从没抓过老鼠的宠物猫吓了一跳:“我的妈呀!”老鼠一看到巨大的猫,
期刊
网球运动的历史文化底蕴悠久,在国内外都受到了人们的欢迎,并且在高校当中开展网球运动对于教学工作也有一定的帮助,能够提高教学质量.对高校网球运动的现状加以分析研究,结
本文采用文献资料法、访谈调查法、逻辑分析法等研究方法,通过对体育游戏的特点及作用进行归纳、分析,进而提出体育游戏在高中体育教学中的具体运用,为广大体育教师在日常教
在新课改大环境中教师主导,学生主体的思路引领下,促使教师的教学行为紧密围绕以学生活动为主体对象,跟随学生的变化适时、适地、及时的发生变化.这些变化的产生来源于教师的
体育游戏在大中小学体育教学中的应用很普遍,也很有效.对于小学阶段的体育教学,针对小孩子身心发育特点,游戏在体育教学过程中起着至关重要的作用,孩子身体发育和心理健康教