基于概念格的Web日志挖掘的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:baliver110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web资源的不断丰富和增加,Web站点结构变得越来越复杂,传统的Web站点缺乏智能性和主动性,因此,面对复杂而庞大的万维网,人们不容易找到自己感兴趣的信息,同时Web站点和Web服务器的设计难度也相应提高,这就需要对Web站点进行优化以提供智能的Web服务,如个性化服务、自适应站点等。而优化站点的一个重要依据就是用户的访问行为,由于Web日志详细地记录了用户的访问信息,具有丰富的内涵。因此,Web日志挖掘能够有效地发现用户的访问模式,为站点改进提供依据,从而解决以上问题。本文讨论了Web日志挖掘的过程为数据预处理、模式发现和模式分析;详细地分析了Web日志挖掘数据预处理阶段的各项任务以及Web日志挖掘中的各种模式发现方法和技术;分析了采用Godin算法在构造概念格时需要遍历原始概念格中的所有节点才能确定新概念的产生子,提出了使用树结构的搜索方法来缩小新概念的产生子及其父节点的搜索范围以完成概念格的更新,提高和改善了概念格的构造效率。本文将概念格理论应用于Web日志挖掘的模式发现,解决了Web日志的增量挖掘问题;研究了基于概念格的关联规则的挖掘,提出了一种从最大频繁项集产生所有强关联规则的优化方法,减少了模式发现中频繁项集的发现时间和不必要的规则的产生,从而提高了模式发现的效率。概念格的渐进式构造算法的优点在于可以实现概念格的维护和更新,从而使得Web日志挖掘模式发现方法能够有效地实现智能Web服务所需要的模式库的更新。
其他文献
随着互联网的广泛应用,互联网上出现了大量的垃圾信息以及各种网络攻击。要想营造一个健康和安全的网络环境,一个重要的手段就是对互联网信息进行分析过滤。过滤垃圾信息和入侵
Linux具有功能强大、开放源码、支持多种硬件平台、模块化设计等优点,在嵌入式领域得到了广泛的应用。但同时Linux是一个分时操作系统,其不可抢占的内核、粗糙的时钟粒度、频繁
可分级视频编码(SVC)作为H.264/AVC的可分级扩展,是正在制订中的视频编码标准。它通过时域层、空域层和质量(SNR)层的混合可分级的机制,在比特流级上实现可分级性,同时具有很
网格使人们可以无缝的集成广域资源来合作解决问题。在网格环境里如何有效的管理资源和调度计算就成为影响网格计算是否成功的最重要因素之一。而资源发现和资源选择又是网格
Linux系统是一款优秀的开放源码的操作系统,正是因为其开放性和可移植性使它在当前的嵌入式产品开发中有着非常重要地位。通用串行总线(USB)作为一种新型总线,日益广泛地应用
Web服务(Web Services)已经成为分布式网络计算的发展趋势。然而现有的Web服务技术只关注对服务输入输出数据类型以及访问细节的说明。由于缺乏语义描述,无法支持服务的自动
工厂各车间选址、医院布局、电脑键盘分布设计、任务分配调度等都可归结为二次分配问题。在理论上,二次分配问题属于组合优化问题,存在“组合爆炸”现象。归因于NP-hard属性,很
手语识别研究的目的是增进聋人与听力健康人之间无障碍的交流,提高计算机对人体语言的理解能力。非特定人手语识别是推动手语识别系统实用化所必须解决的问题。目前,非特定人
语音识别是计算机技术的一个重要发展方向,是指机器通过学习来实现从语音信号到文字符号的理解过程,也就是让计算机听懂人的话,并做出正确的反应。语音识别作为一门交叉学科,与声
传统的基于内容的图像检索系统返回给用户的是按照与查询图像相似性大小排序的目标图像序列,而目标图像之间的相似性在系统中被忽略掉,基于聚类的图像检索系统返回给用户的是