Web日志挖掘数据预处理算法研究与实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:chxong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,尤其是Web的全球普及,大大丰富了Web上信息量。通过对Web的挖掘,可以从Web页面中提取所需的知识;对总的用户访问行为、频度、内容进行分析,可以得到关于群体用户访问行为和方式的普遍知识,用来作为改进Web服务设计的依据。而且更重用的是,通过对这些用户特征的理解和分析,有助于开展有针对性的电子商务活动。Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,将其应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中用户识别和会话识别是主要环节,也是整个过程的基础和关键步骤。本文将对提高用户识别和会话识别算法进行研究。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,重点研究了Web日志挖掘技术及其步骤,研究了数据预处理的过程和方法,包括用户识别技术和会话识别技术等。本文的主要工作是,实现了预处理各阶段的常用算法,在此基础上,首先提出了一种基于启发规则的用户识别算法,它使用IP地址和用户访问时间等信息去识别日志中的不同用户,实验结果表明,该算法比基本用户识别算法有着更好的性能,甚至对于小型日志文件系统也适用。其次,给出了会话识别的定义,并对传统的预先设定时间阈值的方法进行了优化,给出一种动态时间阈值调整策略,在此基础上具体描述了算法,实验证明会话质量得到了提高。
其他文献
随着互联网、移动互联网的快速发展,互联网从开始的内容的传递者到内容的第一生产地,从社会精英的通信、信息管理和计算工具到社会大众的身边事分享、娱乐及日常购物工具,互联网
随着人类对能源消耗的增长,能源稀缺和环境污染问题越来越严重。研究显示,近五年来信息与通信技术(ICT)行业消耗的能量在全球所占的比例由2%增长到10%,并且有快速增长的趋势。同时
近年来,网络技术正得到飞速发展,与之同时得到快速发展的是网络试验床技术。由斯坦福大学提出的Openflow技术便是其中之一。Openflow是一种控制与转发相分离的网络结构,科研人员
在互联网快速发展的今天,网络已经成为人们各抒己见,品头论足的重要媒介之一。在这些互联网网站中,BBS提供了一个人与人交互意见、想法的平台,对网络舆情的传播和导向起着非常重
计算机的发明无论是对社会的发展还是对个人的日常生活都带来了巨大的变革,互联网的诞生标志着信息时代的来临,“信息爆炸”是这个时代典型的特征之一。政府、机构、公司等利用
电信网络体系架构在不断演进和发展的同时,用户对业务多样化的需求增长迅速,传统电话网络向下一代网络的演变已成为当今网络发展的大趋势。下一代网络必将朝着融合与开放的方向
随着信息化程度的提高,信息系统中数据量呈现出爆炸性的增长趋势。为此,如何高效率管理海量数据是当前急需解决的热点问题。   基于云存储环境中存储设备的同构、异构特性,面
IP地址空间耗尽直接导致了下一代Internet协议-IPv6的发展。随着Internet的发展,IPv6将取代IPv4,这一点已经在业界达成共识。   本篇论文的研究工作集中在IPv6现网过渡方案,
目前,计算机病毒的产生和广泛传播,对计算机和互联网的安全构成了严重的威胁,互联网已经成为计算机病毒传播的主要途径。借助于互联网信息传递的便利性,计算机病毒的传播呈现出日
随着信息科学的发展以及信息化应用的普及,各行各业产生了很多的数据,再随着时间的积累,这些数据变得海量。在这些海量的数据中,必然会存在一些有用的、帮助决策的知识,这就需要我