WEB日志过滤技术的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sweetpingping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和不断普及,Web日志资源越来越多,而如何利用这些海量数据来更好的为用户服务成为当今的研究热题。Web日志挖掘把传统的数据挖掘技术应用到Web日志中,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中本文提到的Web日志过滤技术属于数据预处理的一种。Web日志过滤技术是指对用户浏览网站所留下的访问记录,即Web日志进行过滤,其目的是要过滤掉那些不能体现用户兴趣的日志记录,如图片信息、网站主页导航页等,而留下那些可以体现用户兴趣的记录。为了实现Web日志过滤技术本文中提出了两种方法,一种是基于链接规则的日志过滤技术,另一种是基于网页内容的日志过滤技术。基于链接规则的过滤技术是在对日志记录进行详细分类基础上,人工校对每种链接是否包含用户兴趣,然后对那些包含用户兴趣的链接,根据链接特点生成过滤规则进行过滤。其特点是准确,速度快,但是缺点是统计日志记录以及人工校对效率低,且生成的规则随着网站结构变化易失效。基于网页内容的过滤技术是指对日志记录中URL对应的网页进行文本分类,来判断其是否包含用户兴趣,予以过滤,这是本文的主要内容。其主要包括网页结构信息的KNN分类和网页正文信息的SVM分类两个部分,最后根据两个分类器的结果进行判断。基于网页内容的日志过滤虽然在过滤阶段效率上不如基于链接规则的日志过滤,但是它可以解决基于规则过滤的人工校对效率低和易失效的缺点,并且拥有较高的准确率。
其他文献
3G采用了开放式分层网络架构,其业务运营环境与2G/2.5G存在着很大的不同。2G/2.5G采用多点分散计费,各业务系统均提供计费功能,导致计费功能重复并且系统建设和维护的成本增
计算型云平台是一种以资源整合为主,利用虚拟化核心技术,通过一系列的云计算资源管理方案为用户提供各种需求的服务性平台。计算型云平台具有覆盖范围广、使用效率高以及依据用
随着Internet上信息量的大量增加,人们对信息的需求也越来越专业化,个性化服务技术的出现,可以在一定程度上解决Internet中信息多样化与用户需求专一化之间的予盾,将个性化服务技
学位
随着科学技术的发展以及计算机网络技术的普及,分布式数据库系统逐渐取代了集中式数据库系统,走进我们的生活中。然而伴随着分布式数据库系统的广泛应用,其所涉及的查询效率
在计算机图形学中,水波模拟是一个有意义并且具有挑战性的课题。要得到逼真的水波动画,关键的工作在于模拟水波的运动形态。本文的主要工作有:首先介绍了水波模拟的研究背景与意
学位
双结构新型网络以传统TCP/IP网络为主结构,添加以异步广播通信为基础的“播存环境”作为次结构,来缓解当前互联网面对的流量高度冗余、内容难以监管等问题。播存环境通过“统
无线传感器网络是由部署在监测区域内的大量节点通过自组织和协调而形成的多跳网络系统,节点间通过相互协作来完成网络监控任务。在无线传感器网络中,介质访问控制协议(Mediu
层次细节(LOD,Level of Detail)技术的研究是随着三维可视化技术的不断发展而开始的。Clark最早提出了层次模型的概念,层次模型的自动建立过程被称为模型简化。此后出现了大
学位
网格是网络发展的必然产物,同时也是网络分布式并行计算的重要支撑平台。伴随着网格技术的进步和发展,网格用户对网格系统的服务质量(QoS)提出了更高的要求。由于网格中的资
学位
随着汽车电子嵌入式技术的迅速发展和广泛应用,汽车电子对嵌入式操作系统的需求也越来越紧迫。在我国,汽车电子嵌入式操作系统开发起步较晚,且技术难度较大,已经成为制约我国汽车
学位