Web日志挖掘数据预处理算法研究、实现及应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:TSSSSSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的快速普及和迅猛发展,万维网(World Wide Web,WWW或者简称Web)成为世界上规模最大的公共数据源。Web站点、内容都以指数级别增长,用户如何在浩瀚的信息中选择感兴趣的内容变得十分困难。对于Web站点设计者,如何根据用户的浏览行为,改善站点结构设计,提供个性化服务,挖掘站点的商业价值,具有重要的意义。用户访问Web站点的记录,Web服务器、代理服务器都会以一定的格式记录下来。Web日志挖掘是Web数据挖掘的子领域,从Web服务器日志中提取感兴趣的知识模式。数据预处理过程则是Web日志挖掘过程中最基础,最繁杂,最重要的步骤。本文主要分析研究了Web日志挖掘数据预处理过程的相关算法和系统应用,主要工作有:1.本文系统地介绍了数据挖掘、Web数据挖掘的概念和分类,然后到Web日志挖掘的概念和过程,详细阐述了Web日志挖掘技术知识及其流程,重点研究了数据预处理过程的相关方法及系统应用。2.本文实现了Web日志挖掘预处理阶段的常用算法包括数据清洗、用户识别、会话识别、路径补充等,针对统计语言模型应用于会话识别的不足,采用ERR、SER和F-measure等作为评测方法,为参数选择和系统评价提供了依据,然后给出了会话识别方案,并进行了实验仿真,证明具有较高的应用价值。3.将预处理阶段的会话识别结果作为数据源,本文研究了基于N-gram的站点请求预测和缓存策略。针对Zhong Su等人提出的基于N-gram的请求预加载算法,提出了优化方法,根据当前的用户浏览路径将多个预测请求预先加载,提高请求预测的命中率,通过实验证明提出的优化方案比原方案具有更好的命中率。最后,结合现有缓存策略,提出了基于N-gram站点请求预测和缓存方案。该方案需要结合具体的应用环境进行线上调整参数。
其他文献
介绍了一种基于GPIB VXI接口和RS 232串行接口的实时监控系统,主要介绍了其硬件、软件体系结构和软件设计框架。实际应用表明,该监控系统具有测量精确,控制灵活,集成度和可靠性高的特点。
目的观察钬激光碎石取石术治疗老年泌尿结石的临床效果。方法选取2018年8月至2019年8月我院收治的70例老年泌尿结石患者,根据手术治疗方式不同分为对照组(n=36)和观察组(n=34
转化法是根据知识间内在的联系,转变题中条件的形式,使其本质属性保持不变的一种思维方法。在复杂的分数应用题中,单位'1'往往是不统一的,这就需要转化并统一单位&#3
目的探讨纤维支气管镜吸痰灌洗联合抗生素治疗重症肺部感染患者的疗效。方法选取我院2019年1月至2019年12月收治的重症肺部感染患者100例,按照治疗方法的不同分为两组各50例
本文论述了全面贯彻落实中央关于民族工作新部署的重要意义,介绍了2006年全省民族工作所取得的新成绩,就如何开拓全省民族工作新局面和树立民族工作部门新形象提出了对策和建
目的分析阴道镜活检联合宫颈环形电切术诊治宫颈上皮内瘤变的临床价值。方法选取2017年1月至2019年1月我院收治的80例宫颈上皮内瘤变患者,随机分为两组。实验组采用阴道镜活
深圳万讯自控股份有限公司与世界上规模最大的二甲醚生产企业久泰能源集团达成合作意向,即施福乐麦索尼克控制阀将应用于久泰能源集团1Mt/a甲醇0.1Mt/a二甲醚项目。这是施福乐麦
以实际组态工作为例,结合Delta Ⅴ系统控制软件的特点,介绍了在丁苯聚合装置中分程控制回路的组态及应用。
目的比较输尿管镜碎石术(URL)、硕通镜碎石术及微通道经皮肾镜碎石术(mPCNL)三种微创术式治疗复杂性输尿管上段结石的有效性及安全性。方法选择我院2017年7月至2019年6月收治
本文根据动态拥挤收费相关理论,借鉴国外拥堵收费实践经验,结合国内大城市交通拥堵发生的实际情况,提出路段拥堵适时收费概念和基于电子车牌技术和交通感应网技术的路段拥堵