基于Web日志挖掘的页面兴趣度方法的改进

来源 :计算机时代 | 被引量 : 0次 | 上传用户:YenLoveRicky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:根据Web日志中的浏览时间、服务器发送字节数信息和统计所得的页面浏览频度计算页面兴趣度,并结合模糊理论,生成模糊关联规则,提出了一个预测用户浏览兴趣的方法。实验表明,该方法是可行的并且具有较好的效果。
  关键词:Web日志挖掘;模糊集;关联规则;页面兴趣度
  
  0引言
  
  自20世纪90年代互联网开始迅速发展以来,Web已成为人们获取信息的一个重要途径,搜索引擎在人们的日常生活和学习中发挥了重要作用。随着Web挖掘技术的发展以及需求的推动,出现了个性化服务:通过收集和统计用户的历史数据,挖掘用户感兴趣的页面,获取用户兴趣模型,以便在用户以后的访问过程中根据挖掘出来的用户兴趣模型自动向用户推荐内容,提高搜索效率。
  Web挖掘可分为三类:Web内容挖掘,Web结构挖掘,Web使用挖掘。Web使用挖掘即Web日志挖掘。Web服务器的日志文件记录了用户访问网站时的大量有用信息,日志挖掘是将数据挖掘技术应用在日志文件上,发现用户感兴趣的浏览模式,分析网站的使用情况。
  目前许多Web个性化推荐系统都涉及到页面兴趣度的计算,根据计算得到的页面兴趣度应用数据挖掘技术获得用户的兴趣模型,但这些计算方法都存在不足。本文结合Web日志挖掘和模糊集理论,利用Web日志中记录的用户访问网站时的信息计算页面兴趣度,应用Apriori算法生成模糊关联规则,挖掘用户的兴趣模型。
  
  1基础知识
  
  1.1 Web日志挖掘
  Web服务器日志记录了用户访问网站时的请求信息,一般包含日期、时间、用户IP地址、用户名、方法、URI资源(URL)、Win32状态(简称状态)、发送字节数、接受字节数、所花时间、协议版本、用户代理、Cookie、参照等信息字段。
  由于Web记录和HTTP协议自身的原因,原始Web日志是杂乱的,还原的信息包含错误信息,为了把Web日志转化为适合进行数据挖掘的可靠的准确的数据,要对原始Web日志进行预处理。数据预处理主要包括数据清洗、用户识别、会话识别几个步骤。
  数据清洗 指删除Web日志文件中与挖掘算法无关的记录,处理错误记录。用户浏览网页时,与这个网页有关的图片、音频及视频等辅助信息会同网页一起自动下载,这些信息并不是用户请求的,与挖掘用户的兴趣模型无关,根据URL地址上的文件后缀判断文件类别,要将这类记录删除。具体到实际的系统应保留哪些信息或删除哪些信息要根据网站的类型决定。例如:主要包含音频的网站,日志文件中的音频文件可能就是用户的显示请求,此时就不能把音频信息删除。
  用户识别缓存、代理服务器和防火墙的使用,使得识别用户的方法变得很复杂。常用的用户识别方法是基于日志,站点的启发式方法:
  (1)当IP地址相同时,不同的浏览器或操作系统表示不同的用户。
  (2)当IP地址、用户使用的浏览器和操作系统均相同时,将访问日志和站点的拓扑结构结合,如果当前请求的页面同用户已浏览的页面之间没有超链接关系,就认为存在另外具有相同IP地址的用户。
  当然,应用这些规则并不能非常准确地识别出每一个用户。例如:校园网内的学生机房,相同的IP地址,相同的浏览器和操作系统,但用户不是固定的。
  会话识别 将一个用户在一段时间内所有请求的页面分解成会话。会话的意义是用户对服务器的一次有效访问。
  日志文件中不同用户访问的页面属于不同的会话。同一用户访问的页面,若页面请求的时间跨度比较大,认为可能该用户多次访问同一网站。用户访问的页面可以分为多个会话,常用的方法就是设置一个时间阈值,如果用户访问页面的时间差超过这个阈值,则认为用户开始了一个新的会话。这个阈值一般设置为30分钟。
  
  1.2模糊集理论
  对于一个集合,一个对象属于这个集合,或者不属于这个集合,两者必居其一,且仅居其一。集合论的这个概念大大限制了古典数学的应用范围,使其无法处理日常生活中大量的不明确的模糊现象与概念。Zadeh于1965年提出的模糊集的概念是对普通集合的一种推广,并奠定了模糊数学的理论基础。
  假设u是一个论域,u上的一个模糊集合A由u上的一个实值函数表示。对于称为u对于A的隶属度,而称为A的隶属函数。通常用A(u)表示。
  的值表示u属于A的程度。的值越接近1,u属于A的程度就越高;相反,(u)的值越接近O,u属于A的程度就越低。
  
  2已有的页面兴趣度计算方法
  
  页面兴趣度的计算不是—个新的课题。文献[5]选取用户浏览页面的次数和访问时间作为描述用户兴趣的属性。但是用户访问页面所用的时间是与页面自身的长度相关的,单纯考虑访问时间不能反映用户的浏览兴趣。文献[6]综合考虑了浏览频度、时间和页面长度作为描述用户兴趣的属性。但是页面长度信息在Web日志文件中没有相应的字段记录,页面长度信息无从获取。文献[7]将会话中两个连续访问页面之间的时间差定义为“持续时间”,作为描述用户兴趣的属性。其不足之处有二:一是持续时间与网络的传输速度有直接的关系,不能准确地表示用户的兴趣,产生的误差可能很大;二是会话中最后一个页面的持续时间无法得到。
  
  3改进的页面兴趣度计算方法
  
  


  日志文件中记录着丰富的用户信息,经过统计所得到的信息和日志文件本身记录的信息均为可利用信息。结合上述文献中用到的页面兴趣度的计算方法,本文选择两个在日志文件中记录的字段信息和统计得到的信息计算页面兴趣度。两个字段信息分别为所花时间和发送字节数,需要统计的信息是页面的浏览频度。所花时间表示完成浏览所花费的时间,发送字节数表示服务器发送的字节数。
  数据预处理完成后的数据形式为用户会话,由多个页面组成。会话中每个页面的兴趣度表示用户对这个页面的感兴趣程度。每个页面都用两个字段记录了所花时间和发送字节数。将页面被用户浏览的次数作为这个页面的浏览频度。设si为一会话,其中,cn表示第n个页面,tn是第n个页面所花时间信息,sbn是第n个页面的发送字节数信息,fn是第n个页面的浏览频度。页面j的兴趣度pj可按以下公式计算得到。式中:m表示会话数,n表示页面数。
  
  4实验设计及结果分析
  
  将本文计算页面兴趣度的方法与文献[7]中的方法进行比较。
  
  4.1实验设计
  原始资料来自河北大学网络中心提供的河北大学网站的日志文件,经过数据预处理、模糊化,计算模糊支持度、模糊置信度生成模糊关联规则,并在测试集上进行规则匹配。实验数据为2006年3月12日和13日两天的日志文件,取20903条日志记录作为训练集,30489条日志记录作为测试集。数据预处 理后每条记录包含的信息字段为日期、时间、方法、URI资源(URL)、用户IP地址、协议版本、用户代理、参照、状态、发送字节数、接收字节数、所花时间。利用记录中的发送字节数和所花时间信息和统计得到的页面浏览频度按照上述公式计算页面的兴趣度,根据图l所示的隶属函数将页面兴趣度模糊化为四种状态:不感兴趣(uI)、一般(GE)、感兴趣(IN)、非常感兴趣(vI)。根据模糊化后的结果,将uI值为l的页面删除(即兴趣度小于等于0.1的页面),此类页面为用户极不感兴趣的页面,对发现模糊关联规则没有意义。
  假设一用户会话,包含三个页面,模糊化后的结果如表1所示。
  


  根据文献[7]中用到的发现模糊关联规则的基本方法,计算模糊支持度和模糊置信度。发现关联规则首先要找到频繁项集(满足最小支持度阈值的项集为频繁项集),然后从频繁项集中生成强壮的关联规则,这些规则既要满足最小支持度阈值又要满足最小置信度阈值。关联规则为IF…THEN…形式。例如:规则为IF A is c THEN B is D,其中,A和B均为页面,c和D为集合{ut,GE,IN,VIl中的值。
  模糊支持度表示对项集的支持程度。计算方法是所有页面对应的隶属度之和除以页面出现的次数。例如,X=AUB,Y--CUD,x是页面的集合,Y是状态的集合。页面A、B分别为状态c、D的隶属度情况如表2所示。
  则模糊支持度为:
  模糊置信度用来估计生成的模糊关联规则的感兴趣程度。计算方法是利用公式,规则IF A is c THEN B is D的置信度为:
  根据计算所得的置信度,大于置信度阈值的为模糊关联规则。
  
  4.2结果分析
  对于每一条规则,模糊支持度阈值设为0.3,模糊置信度阈值设为0.4。得到的实验结果与文献[7]中实验的基本方法比较。文献[7]中的实验:将原始日志数据预处理后进行会话识别,选择会话中用户连续访问页面之间的时间差作为模糊化属性,模糊化后生成模糊关联规则。实验在同样的训练集和测试集上进行,结果如表3所示。
  实验1应用本文所提出的方法进行的实验,实验2应用文献[7]中所用方法进行的实验。表3中规则在测试集中匹配成功的次数一栏是指生成的每条规则在测试集上进行匹配,匹配成功的次数相加求和。从实验结果可以看出实验2生成的规则数是实验1的1.2倍。但是实验1生成的规则在测试集中匹配成功的次数是实验2的2.5倍。生成的规则少,在测试集中找到的个数多,表明实验l挖掘出来的规则是用户频繁访问的,能够代表用户的兴趣。
  
  5结束语
  
  随着互联网的发展,Web服务的个性化趋势已成必然。本文提出了一个得到用户浏览兴趣的方法,此方法利用日志记录中的两个字段信息和统计所得的浏览频度信息,计算得到用户的兴趣度。本方法采用实际日志数据。虽然日志数据能体现用户的真实信息,但所包含的信息有限。在以后的研究中应考虑利用用户的背景信息,这类信息必须是用户愿意提供而且不能被屏蔽的,这样挖掘出来的用户兴趣模型会更准确。
  (注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。)
其他文献
摘 要:利用万维网地理信息系统(WebGIS)技术,对校园进行科学、有效管理,可以充分利用学校的资源配置,提高工作效率。文章阐述了WebGIS的概念、特点和WebGIS的设计与开发;通过对WebGIS优点的分析,提出了在Web上开发数字校园的思路;并介绍了“兰州交通大学数字信息系统”。  关键词:数字校园;信息系统;WebGIS;MapXtreme
期刊
摘 要:介绍了J2EE体系架构,探讨了基于J2EE的企业信息平台架构机理,并重点分析讨论了信息平台中的消息中心和规则库的设计与实现。  关键词:J2EE;EJB;体系架构;企业信息平台
期刊
摘 要:探讨了XML文件采用XPath(XML Path Language)解析的两种技术。  关键词:XML;XPath;解析;Java;JDOM  0 引言  XML的实质是一种表示数据的方式,用XML描述数据的优势显而易见,它具有结构简单、便于人和机器阅读的优点,并弥补了关系型数据对客观世界中真实数据描述能力的不足。现今,XML除了运用在Web方面,另外最常见的运用就是作为应用程序的配置信
期刊
摘 要:介绍一种基于串口通信的焦化三车连锁控制系统。该方案采用VC++6.0编程实现串口通信,用于远程控制焦化三车:推焦车、拦焦车、熄焦车的相互通信、炉号对位和推焦动作联锁,实验证明,方案实际可行。  关键词: 串口通信;同步;异步;API函数
期刊
摘 要:LIDS是一种基于Linux内核的入侵检测系统。文章简单介绍了入侵检测系统,详细介绍了LIDS的概念、主要功能及其原理。  关键词:入侵;入侵检测系统;安全;LIDS
期刊
摘要:利用GPRS网络作为无线智能监控的信息传输平台是一种非常有效的方法,其原理简单,安全保密性高,不需要组建专用网络。GPRS网络覆盖面广,可实现全球无缝覆盖,与传统的监控系统相比有着独特的优势。文章给出了基于GPRS网络的机房智能监控系统的硬件结构组成和软件工作流程。整个系统主要由终端采集系统和GPRS模块构成。用于无人监守的通信机房远程监控。  关键词:通信机房智能监控;MC35;GPRS;
期刊
摘要:提升处理器时钟频率和二级缓存的大小是提升CPU效率的方法。文章在对AMD Athlon 64实际测试的基础上,概要地从理论上分别阐述了时钟频率和二级缓存对CPU效率影响的原理,侧重分析了在不同应用环境中二级缓存和时钟频率的大小对CPU效率产生不同影响的原因,并提出了二级缓存对CPU效率影响的最佳容量的概念,可使大家对CPU的效率有一个更清楚的认识。  关键词:时钟频率;二级缓存;CPU效能;
期刊
摘要:在编写Java程序时,数组是常用的一种数据类型,然而在实际使用时有许多不便之处。为此,文章讨论了代替Java传统数组的动态数组的设计及实现过程,并举例说明了动态数组类的使用方法。  关键词:Java;动态数组;类;方法    O引言    熟悉Java编程的人员都知道,在创建Java数组时,必须用表达式指定其大小(如:int a[]=new int[3])或通过初始化(如:int a[]={
期刊
摘要:在ERP采购管理系统中采用DM与DB/DW紧耦合方式设计了一个开放集成的数据挖掘系统DMSPM。使用基于约束的交互式数据挖掘技术,以提高挖掘效率和灵活性;将计算模型和工具分离,形成一个模型求解的工具箱,便于使用和维护;通过人机界面和知识推理接受用户决策需求并输出决策结果,提供良好的交互性,从而形成一个拥有强大决策功能的ERP采购系统。  关键词:数据挖掘;ERP;决策支持;采购管理    O
期刊
摘要:介绍了Java ME的Web服务规范,比较了该规范定义的可选包与kXML和kSOAP之间的不同,指出了JavaME的JAX-RPC与Java SE/EE平台上的JAX-RPC 1.1之间的差异,并给出了这些差异给Java ME程序设计者带来的影响,为开发者提供了一些有价值的参考。  关键词:Java ME;Web服务;JSR 172;JAX-RPC    O引言    在有线网络环境中,We
期刊