Web日志挖掘相关技术的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:fulinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自己所需信息,成了困扰网络用户的一大难题。为了解决上述问题,Web挖掘技术应运而生。其中,Web日志挖掘是Web数据挖掘研究领域中一个重要的方面。 本文主要就是对web日志挖掘过程中的数据预处理算法以及聚类算法进行研究,主要工作如下: (1)提出了双阈值用户事务算法。该算法有效解决了传统数据预处理算法对孤立点敏感以及挖掘出的用户模式兴趣度偏低的问题。该算法通过阈值设定来过滤掉偶然用户引起的访问记录以及用户不感兴趣的页面,得到一种有效的访问页面序列,即双阈值用户事务。实例结果证明了该算法的有效性。 (2)提出了改进的FCM算法。文中首先对FCM聚类算法进行了深入的分析,针对FCM算法存在初始值难于确定以及对孤立点比较敏感的问题,本文提出了改进的FCM算法,用于实现用户和页面的聚类。改进的FCM算法通过原子聚类算法帮助确定初始值以及消除掉大部分的孤立点数据,并通过对隶属度加权来进一步减小未被除去的孤立点数据的影响。本文将该算法的理论结果与实验结果进行了比较,比较结果说明了改进后的FCM算法的合理性及优越性。
其他文献
如今在目标检测和图像识别领域,以颜色为特征的识别技术应用广泛。但是在实时跟踪识别系统中,光照分布的不均匀和不稳定所导致的色彩漂移现象,会对系统的识别率和定位精度产生干
我国企业信息化工作取得长足发展的同时,也出现了一些有待于解决的问题:企业内部各个应用系统由于历史遗留、开发系统相异等原因而无法无碍地相互集成,造成了信息交流不及时
信息融合是数据加工、信息处理的升华,其基本思想是综合利用系统各个方面的数据信息,最大限度地抽取有关对象或环境的有效信息,以达到更准确、更全面地认识观测对象或环境的目的
学位
由于计算机网络规模的不断扩大,结构的日益复杂以及功能的愈来愈强,对计算机网络的管理就显得越来越重要了,而一个完善的网络管理系统也就成为了计算机网络能够可靠而稳定运
Internet技术已经渗透到社会的各个领域,为了防范恶意的网络攻击行为,越来越多的联网主机采用个人防火墙,这使得VoIP、P2P和网络视频会议等通信受到一些限制,迫切需要一种特殊的
本文设计的多路H.264视频编解码器就是为了能够实现一种视频图像质量好和传输可靠性高的多路视频通信。本文主要工作如下: 一,深入学习和研究H.264标准的编解码体系架构和视
伴随着互联网的高速发展,对等计算(简称P2P)迅速成为当前互联网最热门的应用技术之一。P2P网络是一种分布式网络,网络中的参与者既是资源提供者,又是资源获取者。P2P网络不但方
SIP(Session Initiation Protocol会话初始化协议)是用来生成、修改、终结一个或多个参与者之间的会话的应用层协议。SIP可应用于IP电话、IMP(Instant message&Presence即时
嵌入式移动GIS开发运行平台结合了移动GIS系统和企业信息系统二者的优势,可以支持基于移动设备的精确定位,基础地理数据的实时检索、查询和发布,基于位置信息的企业信息服务,从而
学位