基于用户访问序列挖掘的站点路径优化分析

来源 :中外企业文化 | 被引量 : 0次 | 上传用户:wheatsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【文章摘要】
  本文利用Web挖掘的方法和技术对用户所访问的页面序列进行挖掘,构建路径优化的模型,实现对当前站点排序方式的优化,从而最大限度地优化用户访问体验,提高当前站点信息获取的整体效率。
  【关键词】
  路径优化;Web挖掘;访问序列
  传统的Web网站以系统自身为中心,为了容纳大量的信息,以图结构组织网站,页面之间存在着比较复杂的层次关系。这些预先设计好的浏览路径(网站的结构)严格按照设计者编辑好的层次返回页面,因此,为了获取特定的信息,从同一页面出发的所有用户都不得不重复地经过很多与自己毫无关系的、不希望看到的中间链接页面,使得用户为了获取少量的信息付出较大的代价。如果在确保网页内容的前提下,实现网站物理结构的调整和再组织,就可以避免混乱。站点路径优化实际上就是站点管理者优化其站点结构,它的出现就是为了提高用户的访问效率以及用户对站点的忠诚度。
  1 站点个性化与路径优化
  所谓站点个性化实质上就是为站点用户提供个性化的站点访问体验。对于一般站点而言,站点管理者进行路径优化的直接目的就是提高用户点击行为的效用度,最终目的是提高用户满意度与忠诚度。站点路径的优化实际上就是优化站点结构,消除站点实际安排与用户期望之间差异的过程,它为站点个性化提供了一种思路,即用户一系列的浏览行为所遍及的页面序列就是用户针对目标页面的寻找过程,此时站点设计可以考虑调整网站的结构、在频繁访问路径处添加指向目标页面的链接,或者是将常见浏览路径加入缓存。
  网站的频繁浏览路径体现了特定的用户在特定时期内的活动规律,是站点路径优化的依据。它包括两个方面的内容:首先是个体用户在其浏览历史区域中多次重复出现的浏览路径,另一方面即用户群体在一定时期中浏览历史区域内出现的浏览重复行为,即浏览模式。
  前者可以为用户提供“一对一”的具备自适应性的在线动态智能个性化服务,这种智能个性化服务可大大缩短用户在网络上的访问延迟,使得提供给用户的网络信息服务质量得到最大限度的提高。后者则通过离线修改实施改进,用以优化用户浏览体验,提高当前站点信息获取的整体效率,同时提高用户满意度和忠诚度。
  2 基于Web挖掘的路径优化模型
  Web挖掘从数据挖掘发展而来,但Web挖掘与传统的数据挖掘相比有许多独特之处。首先,Web挖掘的对象是大量、不同和分散型的Web文件;其次,Web文件本身是半结构化或无结构的,因此Web挖掘所得到的模式可能是关于内容的,也可能是关于结构的;最后,有些数据挖掘技术并不适用于Web挖掘,即使可以用也需要建立在对Web文件进行预先处理的基础之上。
  2.1 访问序列挖掘实现过程的理论分析
  Web挖掘技术以Web日志为数据源。因为每当用户在点击链接向站点发出页面浏览请求时,该用户的IP地址、浏览日期和时间、浏览页面URL及引用页面等信息会被记录在Web日志中,用户浏览点击页面就按照时间顺序以页面URL序列的形式隐藏在Web日志中。用户访问序列挖掘即通过对Web日志进行系统的分析和预处理,将用户以往的浏览序列从日志中提取及表示出来,并采用各种Web挖掘方法和算法从不同的角度获得各类用户可能的网页浏览顺序,探索总结出用户浏览网页的规则和模式。
  从服务器的角度分析,挖掘发现的是提供服务的网站的信息,挖掘结果可以帮助改善网站的设计。从用户的点击序列分析,可以发现一个(或者一组)用户的信息,可帮助实现网页的预存取和缓存。
  2.2 站点路径优化的模型构建
  以Web日志为数据源进行的站点路径优化的挖掘模型,采用了数据挖掘及Web日志挖掘的相关技术和算法获取用户浏览规则与模式,为网络结构优化、站点重构提供参考及个性化服务推荐设计提供了依据。据此站点路径优化的模型可分为数据预处理和站点路径优化实现两个部分,站点路径优化部分可从两个方面来考虑:一是通过对Web日志的挖掘,发现用户的期望位置。如果在期望位置的访问频率高于实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点的优化。二是通过对Web日志的挖掘,发现用户访问页面的相关性,从而对密切联系的页面之间增加链接,方便用户使用。
  3 站点路径优化的实现
  3.1 Web日志数据收集
  Web服务系统是一个多层次的逻辑结构,包括客户端、代理服务器端、Web服务器端。本文挖掘的是本站点用户的频繁访问路径、用户聚类等,因此适合采用Web服务器端的用户访问模式挖掘。Web服务器日志由三部分组成:访问日志、引用日志和代理日志,包括用户访问Web站点时,所访问的页面、时间、用户ID等信息。
  3.2 站点数据预处理
  Web站点及访问数据预处理部分主要包括站点结构数据预处理、内容数据预处理和Web日志数据预处理。其中,结构数据预处理的任务是描述站点的拓扑结构图、站点页面文件链接有向图,并明确站点各个页面文件链接的请求(Request)方法,如GET、POST、HEAD等。站点内容数据预处理包括将文本、图片、脚本和其他多媒体文件转变为用户对站点浏览模式记录信息的开发与利用有用的格式。
  3.3 基于Web日志挖掘的路径优化实现
  站点路径优化可以分为两类:用户群访问模式挖掘的路径优化和个性化挖掘的路径优化。一般访问模式挖掘的路径优化通过分析在特定时间点的特定用户群的访问记录来了解用户的浏览模式和倾向,以改进站点的组织结构;而个性化挖掘的路径优化则倾向于分析个别用户的偏好,根據用户的访问模式,为其提供定制服务。
  用户群访问模式的路径优化是对用户群访问模式的问题,采用挖掘频繁访问的最大序列的方法可以挖掘出更有普遍意义的模式,算法包括有Apriori算法,最大向前序列法,参考长度法和树形拓扑结构法等。它们先将日志中的用户浏览历史记录转换成一个浏览子序列集:最大向前序列法根据用户折返的特性形成若干浏览子序列;参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。
  4 结语
  站点路径优化可指导用户的浏览行为,提高浏览信息效率,将页面加入缓存提高访问速度,提高用户对站点访问的满意度。访问规律的获取对算法提出了较高的要求,可以借鉴现有模式发现算法实现浏览结构的优化。
  【参考文献】
  阮备军.Web使用挖掘若干关键问题研究[D].复旦大学,2004.
  【作者简介】
  闻名(1982—),男,辽宁省瓦房店人,同济大学软件学院硕士研究生。
其他文献
【文章摘要】  董事会是一个企业的核心,董事会的决策影响着企业的发展,同时也是一个企业的监督机构,对企业的发展有着至关重要的作用。一个高效的董事会治理结构会大大促进企业的绩效;同时一个低效的董事会会降低企业的绩效,同时导致企业资源的大量浪费。当前我国对企业绩效和董事会结构的研究还不够充分,本文主要结合我国上市公司的董事会结构和绩效来分析两者之间的关系。  【关键词】  董事会;董事会结构;企业绩效
期刊
【文章摘要】  增值税是我国现行税制中的第一大税,但人们对增值税会计的研究并没有引起重视,认为增值税会计只是财务会计的一小部分,没有将其看成一套完整的会计核算体系。尽管我国的增值税会计一直在完善,但其核算方法与会计核算的一般原则仍存在很多的不足,所以有必要对增值税会计的核算方法加以改进。  【关键词】  增值税;差异  1 我国增值税会计的研究现状  增值税是以增值额为课税对象,以销售额或营业额为
期刊
【文章摘要】  本文分析了高校计算机实验室的应用范围和目前日常管理中存在的不足,总结出了高校目前使用的计算机实验室管理系统的模式,以“理论与实践一体化”教学理念为基础设计和实现了计算机实验室综合信息管理系统,使计算机实验室能高效和可靠运行。  【关键词】  计算机;实验室;管理系统  0 引言  目前,改革实验教学内容、方法和手段,建立适合素质教育的实验教学与管理模块,是进行实验室建设、提高高校人
期刊
【文章摘要】  文章针对构建一个大学生就业求职网站的基本功能进行研究和设计,目的为大学毕业生和用人单位架起一座桥梁,提供给企业和学生一个交流的平台,功能实现包括毕业生注册个人基本信息和求职意向,对个人信息的维护,可以向指定的企业投简历。用人单位注册企业概况和招聘条件,对企业信息的维护,可以通过电子邮件与满意的求职者联系。网站管理者负责信息的审核,对不符合网站要求的用户与信息进行后台清理。  【关键
期刊
【文章摘要】  煤炭行业会计信息披露的内容和方式一直都是煤炭企业会计工作者研究的重点,本文首先对煤炭行业会计信息披露的存在的问题进行分析,并针对存在的问题提出一些解决的措施。  【关键词】  煤炭行业;会计信息披露;会计  煤炭行业与其他的行业不同,煤炭资源在我国是储量最大的不可再生资源,对国家的经济增加、维持国家正常运转的重要保障之一,一旦缺煤很多的行业就会瘫痪,由此可见煤炭行业直接影响到我国经
期刊
【文章摘要】  近些年来,小微企业在增加国民收入方面,起着重要的作用和意义,同时它可以推动企业创新改革,帮助提高就业率从而维护社会的稳定。本文基于小微企业在经济发展中的重要地位和当前的中原经济崛起的经济背景,通过对其融资现状和融资难的原因分析,采用文献法、统计分析法等进行研究,探讨如何缓解小微企业融资难问题的方法与途径,并提出政府应进一步加大政策扶持等等的一些合理化建议。  【关键词】  小微企业
期刊
【文章摘要】  随着社会水平和经济的不断发展,人们对保险的要求也越来越高。社会多元化的格局正在逐渐形成,这对于保险公司来说,既是一种机遇,也是一种挑战,这种多元化的社会格局也给财产保险带来了一定的问题。可以看到,现今的财产保险行业,大多数仍然使用传统的经营模式,经济理论、产品更新频率和细节方面的工作已经基本无法跟上社会发展的脚部和人们的需求。所以说,财产保险行业应该进行制度上的改革,各种收入和费用
期刊
【文章摘要】  伴随着高科技会计电算化及网络会计的普及,会计系统的内部控制越来越受到人们的关注,会计核算和会计管理的环境都发生了很大的变化,由于电算化会计系统的特殊性,使得建立一整套适合电算化会计系统的内部控制制度就显得尤为重要。  【关键词】  电算化;会计;控制  随着计算机和现代信息技术在会计中的广泛运用,会计工作经历了从手工会计到电算化会计的发展过程。会计数据处理的工具也从算盘等发展到计算
期刊
【文章摘要】  利用虚拟专用网络VPN技术,将计算机远程终端通过Internet接入公司企业网,从而实现远程网络用户对企业内部信息资源的安全访问。  【关键词】  虚拟专用网;VPN;网络安全  1 VPN技术简介  VPN(Virtual Private Network)即虚拟专用网络,指的是依靠ISP(Internet服务提供商)和其他NSP(网络服务提供商)在公用网络中建立专用的数据通信网络
期刊
【文章摘要】  在现代企业管理模式下,合规管理与业务管理、财务管理并称企业管理的三大支柱。合规是指企业的经营活动必须符合法律法规、商业道德、社会伦理。合规是企业履行社会责任的基础,也是控制风险、构建和谐社会的必然要求。同时也是税务事业持续健康(科学)发展、履行经济管理活动的特殊使命的法定义务。合规管理是从法律和商业道德的角度出发告诉企业“怎么做”,“如何前瞻”以及以“建立企业的长期目标”为基础,达
期刊