基于挖掘日志分析用户兴趣技术

来源 :教育科学博览 | 被引量 : 0次 | 上传用户:slientlamb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1、 引言
  近年来,Internet尤其是WWW飞速发展,其信息量正以指数级速度迅猛增长和扩展。这使得广大用户更有可能享受丰富、方便的资源,然而传统服务模式的落后却使用户为信息所累,传统的Internet服务模式存在着一系列问题,比如:资源分散,检索集中,对所有用户是一副面孔,有求则应,无求不动;用户按格式请求,系统按字面匹配,查询方式局限、死板;没有统一的标准,门户林立,各自为政,不同信息源使用不同服务机制,不同服务使用不同身份认证机制等。解 决 这些 问题的关键在于将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现Internet系统对浏览者的主动信息服务。新一代的信息服务将是个性化主动信息服务,如何从海量的数据和信息中高效地获取有用知识,如何从迅速膨胀的信息中及时地获取最新信息,如何提高信息检索与推送的智能水平,以及如何满足各种用户不同的个性化需求等,都是新的信息服务系统面临的挑战性课题。个 性化 服 务是Internet信息增长的必然结果。传统的“人找信息”的服务模式己经越来越难以适应迅速增长的Internet信息资源,用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式。个性化主动信息服务是未来信息服务的主流模式,它实现的是“信息找人,按需服务”。个性化服务的形式是多种多样的,既可以是向用户推荐页面或新闻的个性化推荐服务,也可以是在用户检索信息的过程中提供个性化检索结果的个性化检索服务,还可以是减少用户浏览负担、调整网站显示的个性化网站等。但所有这些不同形式的个性化服务都首先需要建立对用户的描述,然后才能针对不同的用户提供不同的个性化服务。一个好第1章引言基于用户兴趣挖掘的个性化模型研究与设计的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。为用 户 建 立模型的目的就在于通过对用户信息需求、兴趣爱好和访问历史的收集、统计、分析,建立一个反映用户基本兴趣和信息需求的信息模型,并将模型用于帮助用户更好地获取新的信息。作 为个 性 化服务的基础和核心,用户模型的质量直接关系到个性化服务的质量。只有当用户的兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”的时候,才可能实现理想的个性化服务。利用用户信息构建用户模型,即用户建模,也就成为了个性化服务的核心和关键技术。只有在高质量的用户建模的基础上,才能实现个性化服务系统所追求的各种目标。所以,有必要将建模技术从具体的个性化服务形式中脱离出来作为一项基础技术研究,它能促进个性化服务的发展,提高个性化服务系统的易用性。
  2、用户兴趣挖掘技术
  回归分析是进行相关分析的一种重要方法,在研究某种对象之间存在着某种相互依存关系,可以借助回归分析法寻求其定量规律及其数学表达式
  回归分析的中心问题,是在分析研究对象变化的基础上建立函数模型,通过统计计算和检验,归纳分析结果,用于对多方面问题的求解。关键是找出反映用户规律的回归图像和回归方程并验证其可靠性。 回归分析用于用户分析的大致步骤如下:
  (1) 根据研究目标进行用户特征统计测量,获取一系列特征数据;
  (2) 对统计量进行分析,用户某一函数进行拟合;
  (3) 分析拟合函数,通过计算得出总体特征的回归方程;
  (4) 用户相关洗漱法检验关西的显著性,确定回归方程的可靠性;
  (5) 提交研究结果。
  在用户研究中,常常需要研究某些事件之间的相互关系,这就是所谓的相关分析。
  相关分析分为函数分析和统计分析,Web用户浏览网页时所表现出来的信息行为和用户对某个网页是否感兴趣密切相关。我们研究的相关因素之间存在某种函数关系,可以利用统计学中的回归分析方法解决[1]我们计算一个用户各种浏览行为的行为参数,就是要根据用户的多项浏览数据来得到的,因此,若能判断出所有提取出的浏览行为与网页兴趣度直接按呈线性关系,对于此问题,多元线性回归不失为一种好的方法。
  回归分析的中心问题,是在分析研究对象的变化趋势的基础上建立函数模型,通过统计计算和检验,归纳分析结果,因而在用户研究中用户对多方面的问题的求解。该方法的关键是找出反映用户规律的回归图像和回归方程,并检验其可靠性。
  3、用户兴趣来源
  从静态上分布上看可以分为突出兴趣和次要兴趣;从动态演化上看可以分为稳定兴趣和偶然兴趣。特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一
  特征选择有两大步骤:计算评价函数值和特征子集搜寻。
  评价函数功能就是评价出特征向量与数据类信息的匹配程度。
  一组具有相似稳定用户兴趣的人访问的文档有可能相关,由于人们的兴趣是稳定的,所以页面p被用户U访问这一动作的发生在相当大程度上是由用户u的的稳定兴趣所驱动的,而不是用户u的一次随机访问或者偶然兴趣所驱动的,也就说说这种访问时有规律的,我们利用用户访问频率矩阵进行了相关文档检索,用户访问频率矩阵我们成为用户兴趣矩阵。
  4、系统设计与实现
  4.1、设计方案
  搜索引擎日志挖掘研究可以看作Web挖掘中的一种使用记录挖掘( Web usage mining), 即从用户查询行为中抽取有意义的模式。具体地,研究用户如何使用Web搜索引擎?用户在Web上查找什么样的信息? 整体或单个用户的查询具有什么样的特征与规律?如何利用这些用户的访问信息改进搜索引擎系统的性能?系统设计总体图如下所示。
  因地域、文化背景、语言的不同,用户群的查询行为方式以及查询内容上可能有所不同。
  1、 数据分析基本工作原理。
  4.2、实验内容
  经过统计分析:   1)用户的突出兴趣类个数变化平缓,且趋于稳定。
  2)突出兴趣类的变化也不大,一般集中在某几个类别中,且趋于稳定。
  这说明随着时间的变化,单个用户的突出兴趣类变化较小,且当时间达到一定长度后,单个用户的突出兴趣类会稳定在几个类别中。
  NK描述用户的兴趣集中程度。
  用户的访问动机的确有稳定和偶然之分。
  用户突出兴趣和稳定兴趣分析得出结论:一定时间段的网络日志中蕴含了用户的稳定兴趣。另外有这样的假设:一组具有相似稳定兴趣的人访问的文档有可能相关。
  用户访问频率矩阵进行了相关文档检索,其中用户访问频率矩阵称为用户兴趣矩阵。
  模型的输入:文档a
  模型的输出:与文档a相关的文档集B,B中文档按照与a的相关度由高到低排列。
  简要流程:
  1、找出对文档a感兴趣的用户群V;
  2、对V做用户兴趣聚类,并在聚类结果中找出具有如下特征的用户类;
  2.1、具有相似兴趣背景;
  2.2、相对其他用户类而言,U中用户对a最感兴趣;
  3、找出U中每个用户感兴趣的文档集,求并集得到相关文档候选集P;
  4、对候选集P进行一定的过滤处理及相关判定,得到相关文档集B。
  所以得出结论:模型的检索性能主要依赖于日志中涉及的用户数和文档数,其中检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数。
  如果仅是对大规模搜索引擎用户查询行为的一般特征进行研究,那么选取一天的日志数据就够了,这是因为用户的查询过程具有自相似的特征;所谓自相似性,直观上说就是一组序列在很长的时间范围内表现出结构上的相似性;长期依赖性是它的一个主要特性也显示了整体用户对系统的访问具有极强的规律性。[2]
  1、用户访问的时间、用户的IP地址、输入的查询、用户所点击的URL、点击的时间以及点击URL的序号
  2、用户查询,重复查询的情况;用户提交查询的时间间隔等
  3、查询的长度,即用户输入的查询串中所包含的词项个数;查询的复杂性,即用户使用布尔操作(AND,OR,NOT)或短语查询的情况;查询串的共现情况,即两个语义相关的词项出现在同一个查询串中。
  4、对用户输入的查询请求,统计用户查看的结果页面个数(如翻页等),以及查看结果页面的时间间隔。
  5、考察在一次会话或一次查询中,用户所点击结果页面中URL的个数、序号以及相关性等。
  6、单个用户查询主题的迁移情况。
  我们对用户查看结果页面的数量进行统计表明:约有一半(54.24%)的用户只查看了第一个结果页面,21%查询了前两页结果,10%的用户查看了前三个结果页面,只有不到 0.42%的用户查看了10个以上的结果页面。用户查看的结果页面的个数越来越少,这表明用点击URL具有局部性,用户点击局部性启发我们搜索引擎系统尽可能将相关的结果放到结果的前几页显示给用户,保证排在前几页的查询结果都是高质量的查询结果,要求搜索引擎排序机制优化。
  查询分类及其查询主题的演化
  对某个搜索引擎而言,考察整体用户群所进行查询的类别(可以人工定义),以及这些查询主题随时间变化的特征。关键词和类别关系(统计如下)
  搜狗共计16大类:
  娱乐休闲、电脑网络、卫生健康、工商经济、教育培训、生活服务、公司企业、艺术
  社会文化、文学、新闻媒体、政法军事、体育健康、科学技术、社会科学、国际地区
  2007年3月
  4.3实验结论
  通过关键字查询的内容识别内容分类,从而确定关键字属于哪个分类,条件是这个关键字积累定向到某个分类次数必须达到某个数值;同样,用户用某个关键字找到的内容,根据关键字所在分类,确定内容的分类,条件是根据这个关键字找到这个内容的次数要达到某个数值。 通过查询发现,查询类别较高的前三类为:文学、娱乐休闲、电脑网络,可以推测用兴趣偏好为这三类别。反映了一种用户群特征,用户绝大部分喜好这类信息。
  参考文献
  【1】《王新成,《数理统计》,西北工业大学出版社,2002年8月》
  【2】大规模中午搜索引擎的用户日志分析 王继民 陈 彭波 北京大学信息科学技术学院 华南理工大学学报
其他文献
摘 要:本文以天然气为主要研究对象,分析了国内外相关燃气泄漏及扩散模型的适用条件和缺陷,并简单介绍了国内相关模型研究进展情况,并指出了今后的重点研究方向。  关键词:城镇燃气 泄漏 扩散 模型  随着“川气东输”工程的投运,城镇燃气(本文仅指天然气,不包含人工煤气和液化石油气,以下简称燃气,)作为一种新型气体燃料,越来越得到广大居民的认可。然而,随着安全事故灾害数量不断上升,燃气在给人们带来现代化
期刊
摘 要:民族传统体育是从民族共同体文化中剥离与突显出来的一种民族体育文化形式,是我国社会主义体育事业的重要组成部分。民族体育文化作为一种人类社会文化的补充与完善,除了具备一般文化的特征之外,还具有自己独特的内涵和民族文化特征。全面、系统、科学地认识民族传统体育,是振奋民族精神、加强民族团结、发扬爱国主义精神、促进社会进步与发展的重要保证。将民族传统体育的内容引入学校体育教育中,是民间原始体育形态
期刊
渤海钻井一公司始终坚持稳定时期抓稳定,针对新形势、新情况和新特点,加大信访工作力度,通过打造平台、完善机制、强化只能,多措并举抓好稳定工作,为公司的高端高质高效发展创造了较好的稳定环境。  一、立足为民服务,打造“三个平台”  一是打造执政为民的党性锤炼平台。我们牢固树立为民办事、为民解忧的宗旨,把解决问题、化解矛盾、维护职工群众利益作为工作的出发点和落脚点,落实公司领导、机关部门负责人和基层单位
期刊
摘 要:欧盟委员会对各成员国有明确规定,要求履行航空运输公共服务义务。因欧洲各国具体情况存在差异,各国对公共服务义务的理解、具体执行的管理办法、运行机制、补贴金额、承运人选择等也有不同。本文对欧洲各成员国对航空运输公共服务义务的履行情况进行了综述,并且分析了其政策效果及存在的问题,对我国建立基本航空服务计划可以提供经验借鉴。   关键词:公共服务义务、管理模式、资金保障、承运人选择    一
期刊
摘 要:笔者根据实际经验,总结了一些普通小功率电阻在汽车试验设备中的应用实例,并阐述了其重要性及选用方法。  关键词: 小功率电阻 汽车试验 作用 实例  1.前 言  随着国内汽车制造业飞速发展,汽车试验在汽车设计制造过程中的重要性日益突显,而先进的仪器设备及试验技术,为整车及其零部件提供了简捷高效的检测手段。现代汽车试验所使用的仪器设备通常是由传感器、放大器、信号调理装置、滤波器及数据处理和传
期刊
摘 要:根据孤岛油田中二北馆3-4注聚区聚合物驱矿场注入过程聚合物溶液粘度检测分析的结果,对聚合物驱注入过程中各流程段剪切降解情况进行影响因素研究,提出了降低聚合物溶液注入过程中粘度损失的措施和办法,对今后聚合物驱提高粘度保留率具有较好的指导意义。  关键词:聚合物 粘度损失 剪切率 粘度保留率  0 引言  聚合物驱油是目前三次采油技术中日趋完善的提高采收率技术。聚丙烯酰胺是聚合物驱中应用最为广
期刊
摘 要:笔者通过在防火监督工作实际,对农村火灾及农村消防工作作了调查了解,以及查阅大量资料,对农村消防工作有所思考。简要介绍了当前农村火灾的形势,分析了农村消防工作的现状及成因,结合宁夏石嘴山市农村面积广、消防基础设施落后、消防安全意识淡薄、火灾频发的实际和特点,积极探索新形势下农村消防工作的新方法、新途径、新举措,建立起与和谐富丽石嘴山相适应,符合农村实际的消防安全工作长效机制。  关键词: 农
期刊
摘 要:目前,胜利油田春风油区采用的是无游梁式抽油机,其中的智能滚筒抽油机可根据油井生产动态随时进行油井参数调整,比较适合稠油区块油井生产。针对现场使用的智能滚筒抽油机出现配重箱撞地或光杆防脱卡子撞井口现象,本人多次进行了相关的研究和实验,最终开发智能滚筒抽油机极限位置系统。  关键词:智能滚筒;抽油机  一、现状、原因、目的  1.1 现状及原因  1.1.1 目前现状  名词解释  智能滚筒抽
期刊
摘 要:提高学生在课堂教学中的数学交流能力,使学生真正成为课堂教学的主人,是新课程改革的一种趋势。数学交流要遵循平等交流原则、互动交流原则、反思性交流原则、评价式交流原则。“交流”就是人与人之间信息与情感的“传达”与“沟通”。在课堂教学活动中,创设情境,满足学生的多种需求。合作操作,考验学生的交流能力。联系实际,拓展学生的思维空间,小学数学交流能力才会得到提高,数学课堂教学才为“活”起来。  
期刊
目前很多老师在感慨如今的数学教学就是在不停地做题!老师忙、学生苦,到头来学生题目做了不少,但成绩却未得到明显提高,不会做的题目依然不会做,会做的题目也仅局限于做过的题目,甚至有的同学连做过的题目改个条件换个背景就束手无策了。究其原因,笔者认为学生和老师都是就题论题,没有停下来反思、总结,弄些变式搞些研究.解题教学是高中教学的重心,我们不能仅仅满足得到了结果,教学中应注意适时引导学生作深入研究,找到
期刊