基于Web服务器日志挖掘的数据预处理技术研究

被引量 : 11次 | 上传用户:wdxf365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的逐渐成熟以及浏览器的广泛使用,用户通过互联网所能获取的信息量呈现指数级的速度增长。Web的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效的获取有价值的知识带来了不小的挑战。如何通过Web文档的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来对用户提供个性化、智能化的信息服务已成为人们的迫切需求。Web日志挖掘正是在这种背景环境下产生的。文本主要对基于Web服务器日志挖掘的数据预处理相关技术进行研究。首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状。然后,本文对数据挖掘的基本过程、常用算法及研究意义进行了简要介绍,并对Web数据挖掘的难点和分类进行了总结,重点阐述了其中的Web日志挖掘,并对其中的数据预处理相关技术进行概括。接着,本文介绍了当前常用的一种基于Timeout页面时间阀值的会话识别方法,在此基础上提出一种基于页面的标准浏览时间、装载时间、以及页面的链接结构等影响因素得到用户对每个页面的浏览时间阀值的会话识别方法,并依据用户对页面的浏览兴趣进行会话清理,为后期的数据挖掘提供较为准确的会话数据。通过实验仿真说明改进会话识别方法的有效性。最后,在会话识别的基础上,对会话矩阵进行聚类分析。介绍了传统的基于k均值算法的聚类分析方法,本文在此方法的基础上,综合考虑初始重心之间的距离和初始重心所处区域的密度等因素。提出了一种基于改进k均值算法的会话聚类分析方法,通过实验仿真可知,改进k均值算法不仅能提高会话聚类的时间效率,而且还使会话聚类结果更加紧凑和独立,提高了整体聚类质量。本文在已有研究的基础上,主要做了以下几个方面的创新研究工作。首先探讨了Web服务器日志挖掘中的一个关键问题,即Web日志的数据预处理问题。针对当前常用的一种基于Timeout页面时间阀值的会话识别方法的不足,根据用户对页面的浏览兴趣提出了一种改进的会话识别方案。其次本文通过改进k均值算法进行会话聚类,有效的提高了整体聚类质量。
其他文献
随着电视节目数量的增多,对电视转播以及监管部门来说,如何对如此多的电视节目进行有效监控,从而确保播出质量成为了一个棘手的问题。伴随着数字信号处理学科的发展,视频技术
随着高校招生规模的不断扩大,学生信息管理的任务越来越重,因此,开发高校学生信息管理已经成为招生工作的必然需求。本系统开发的工作前期分析了全国高校招生管理系统和省级招生
目的:高血压为现今临床最常见的疾病之一,中医将其分为肝火亢盛证、痰湿壅盛证、阴虚阳亢证和阴阳两虚证四个证型。随着痰湿壅盛证比重的逐年增加,痰湿这一致病因素受到越来越多
习近平总书记在纪念马克思诞辰200周年大会中强调:“共产党人要把读马克思主义经典、悟马克思主义原理当作一种生活习惯、当作一种精神追求,用经典涵养正气、淬炼思想、升华境
报纸
<正>爱贝芙(Artecoll)是一种可注射的医学整形美容材料,2002年5月开始在我国使用,临床上主要用来清除皱纹,效果较明显。2008年1月以来,我们对36例应用爱贝芙修正鼻部缺陷的患
以不同α,ω-二羟基聚二甲基硅氧烷按不同质量比配合使用,与复配交联剂室温缩合反应,添加纳米活性轻钙,从而制备了高位移能力石材用硅酮密封胶。研究了基础胶各组分、复配交
幼儿时期阅读量的多少,决定着一个人今后素质的高低。而在幼儿时期阅读能力的高低,也是一个人在书面语言的学习方面所必须具备的基本学习能力准备。因此,对于幼儿早期阅读的
以有机畜产品和立法反对限制动物行动的后现代畜牧业在悄悄逼近的时候,建设现代畜牧业的任务依然是面临的重大课题。本文介绍了建设现代畜牧业的动力源,阐述了现代畜牧需要的科
<正>近年来,随着人民生活由温饱型向小康型的转变,资源环境、食品安全等问题已经成为制约畜牧业发展的瓶颈,畜禽养殖量很难取得进一步突破。而畜牧业历来都是宿迁市经济社会
目的检测分析恶性肿瘤患者的细胞免疫功能状况,并探讨其临床意义。方法流式细胞技术比较分析253例恶性肿瘤患者及28例健康正常人的外周血T淋巴细胞亚群。结果与正常人比较,恶性