基于粗糙集的Web日志挖掘研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:xiatiandegushi1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,使得World Wide Web已经深入到社会生活的方方面面。Web已经发展成为拥有数十亿页面,蕴涵着具有巨大潜在价值的分布式信息空间。人们迫切需要从这些海量的数据中查找出对自己有用的信息,对数据挖掘研究提出了新的挑战。Web数据挖掘是一种将传统数据挖掘与Web结合起来的技术,它将随着Internet的发展越来越受到各方面的关注。 本文工作主要包括以下几个方面: 首先,Web日志挖掘数据预处理。Web数据复杂多样,首先需要确定研究对象,Web日志挖掘的对象不是网络上的原始数据而是从用户和网络交互过程中抽取出来的第二手数据,它包括所请求的URL、发出请求的IP地址和时间戳等,这些数据提供了有关用户访问的丰富信息。本文在这部分的研究重点是如何提取有关用户访问的特征(如用户的访问行为、频度、内容等),以及建立基于用户访问行为的数据模型。 其次,基于粗糙集理论的Web日志挖掘。以前的方法对Web同志数据库中潜在信息的挖掘采用先将数据组织成传统的数掘挖掘方法能够处理的数据模型,然后用数据挖掘算法(如关联规则算法等)进行处理。这种方法虽然暂时解决了Web挖掘的需求但是对于Web数据库来说不能满足其动态增长的需要。在粗糙集理论中,知识被看成是一种分类能力,即在域上构造分区的能力。本文在基于粗糙集理论的思想上对预处理后的数据进行离散化,并建立了一种新的数据模型,最后改进约简算法并约简提取出稳定的分类规则。同时考虑到不一致规则的存在,还研究了缺省情况下如何获得决策规则。 最后,对本论文的内容进行了总结,并对下一步日志挖掘研究进行了展望。
其他文献
计算机网络的迅速发展,使Internet上汇集了成千上万的计算资源、数据资源,人们希望利用对等计算技术把物理互连的网络设备的计算能力、存储能力以及网络带宽等聚集起来,以实
在数据库系统和计算机视觉两大研究领域的推动下,基于内容的图像检索技术已经成为当前的一个研究热点。本文针对这一课题,分别在基于颜色、纹理和形状的检索技术方面进行深入研
在过去的三十年里,软件工程技术得到了快速的发展和运用,这毫无疑问的造就了软件产品的重大改进。然而,面对现在环境和需求的快速持续变化,多数的软件系统仍保持着内在的易碎性和
彩铃业务是“个性化多彩回铃音业务”(Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该项业务由
入侵检测技术是保护网络系统的重要手段之一,基于主机的入侵检测系统主要用于对重点主机实施防护,具有检测效率高和检测准确性高等优点。系统调用是外界进入系统的必经之路,是攻
随着网络宽带化的发展,流媒体作为新兴的媒体形式应用日益广阔,但是其版权问题也日趋突出。流媒体的数字版权管理在这种情况下越来越受到人们的重视,越来越多的公司、组织投入其
民用航空运输在交通运输行业的比重不断增长,使得民用航空的安全水平也越来越受到关注。我们需要采取积极主动的安全检测监控措施,提高现有民用航空领域的安全性。飞行品质监
数十年来,数据挖掘一直是一个热门话题。作为数据挖掘的一个主要技术领域,聚类分析产生了很多算法,并且演化成一个庞大家族。现有的聚类算法可以分为5类:分割算法,分层算法,基于密
随着当代企业内部结构逐渐分散,网络应用服务模式面临新的问题,即在不影响最终用户使用的前提下,实现在任何地方灵活地访问应用服务。虚拟专用网在此基础上逐渐发展起来,其中
随着网络技术和通信技术的不断发展,用户对网络的需求日益多样化,基于IP 交换网络的多点视频会议系统的实现由于其成本的低廉,交互性强大,多点共同参与的特点和优点取代了传