文本挖掘在Web日志数据预处理中的应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:leng159461
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和普及,网络已成为人们进行信息交流和信息处理的有效平台。人们对网络服务的期望值在不断提高,希望得到更全面、更丰富、更适合自己的Web服务。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从WWW上获取有用信息。因此,如何快速准确地获取所需信息、如何获得信息之间潜在的知识以及如何提供个性化服务,己经成为急需解决的问题,也是Web挖掘领域的研究热点。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘是目前最广泛的研究领域。而在Web使用挖掘过程中,数据预处理起着关键的作用。本文着重研究Web使用挖掘中的数据预处理技术,对数据预处理过程中涉及到的关键问题和技术进行详细的分析和研究。本论文主要做了以下几方面的工作:1.综述了Web使用挖掘的基本框架、流程及挖掘技术,对Web日志预处理的过程、关键技术和方法进行了深入的研究;2.系统讨论了Web文本挖掘的相关理论及文本挖掘分析技术,给出了Web文本挖掘的处理流程;3.在分析传统事务识别方法不足的基础上,结合网页内容对事务识别方法进行适当的改进,将文本聚类算法引入到事务识别的过程中。根据改进后事务识别方法的需要,对文本聚类算法作相应的修改;4.提出了一个Web日志数据预处理模型,并通过实验验证了改进算发法的合理性。
其他文献
学位
微机电系统、片上系统和无线通信技术的进步孕育了无线传感器网络.网络中的节点具有体积小,价格低并且具有传感和计算能力等特点,由于这些特性,它们可应用于各种不同的区域,
内容管理系统作为一种专门的非结构化信息管理技术,伴随着非结构化和半结构化信息规模和应用需求的急剧增长,正逐渐成为信息管理技术发展的一个重要方向。本论文以成都理工大学
随着技术和需求的发展,计算方式在不断地变化,从60年代开始的集中式计算,今天广泛采用的分布式计算,到90年代中期新兴的移动式计算。新的计算方式与固定的网络相比,无线通信具有带
MVC是一种良好的设计模式,它将应用程序分成三个核心部件:模型、视图、控制器,每个部件处理各自的任务:模型表示数据对象,视图负责数据显示,控制器接受来自视图的用户输入,并根据用
远程监控系统借助Internet实现监视与控制任务,将监控范围扩展到更广的空间,进一步推动了控制技术向网络化、分散化和开放化的方向发展。随着基于Internet的远程监控系统的逐步
嵌入式数据库系统是近些年才兴起的一项新的数据库系统。它以目前成熟的数据库技术为基础,针对嵌入式设备的具体特点,实现对移动设备和嵌入式设备上数据的存储、组织和管理。本
随着计算机技术的发展,对外围设备的接口技术也提出了更高的要求。由于USB接口的许多显著优点,使得它在计算机外围接口中占据了越来越明显的优势。为了使得USB接口的相关设计变
随着网络技术的迅速发展,传统的基于关键词匹配的信息检索技术已不能满足用户准确、全面定位信息的要求。因此,许多研究者开始关注基于语义的信息检索,将语义上相同、相近、相包
随着网络的普及和网络应用的扩大,现有的联网方式己经不能适应人们对于网络产生的爆炸式的需求,理所当然的需要有一种快捷、健壮的联网方式出现。像电话网一样,人们不需要在终端