基于Web日志的数据挖掘的研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:vicky1924
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本篇论文主要从以下四个方面对Web日志挖掘进行了系统的分析和研究。第一是对数据挖掘、Web数据挖掘和Web日志挖掘进行了概述,阐述了本篇论文的研究背景及Web日志挖掘研究现状; 第二是研究了Web日志挖掘中的关键步骤——数据准备,详细地分析了预处理阶段的各项任务; 第三是认真研究分析了模式发现阶段的基于聚类的数据挖掘的基本原理和一般方法,并介绍了模糊聚类理论。第四是提出了一个以用户离散化浏览时间为度量、以图论法取得模糊相似矩阵的传递闭包的Web用户浏览模式模糊聚类算法。针对传统的聚类方法属于硬划分的方法,即把每个待辨识的对象严格地划归到某个类中,具有非此即彼的性质,本文提出了用模糊聚类算法对Web事务进行聚类。在聚类的相似性度量上,不再单纯地以访问次数或浏览时间来度量,而是采用用户浏览离散化时间为度量。并将模糊相似度和图论相结合提出了以图论法取得模糊相似矩阵传递闭包的方法。经实验证明,该算法比传统算法准确性高,运行时间少,扩展性好。
其他文献
中药新药试验平台是基于国家“863”项目开发的,本文以该平台的CRF表数据处理为背景,通过分析当前信息系统中数据表单所面临的问题和挑战,提出了信息系统的“表单定制”需求
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指
运行在复杂、多变的上下文环境中的软件系统经常需要根据需求和环境的变化动态调整自身的结构和行为,即需要具有运行时自适应的能力。针对传统的软件系统形态(如信息系统)的
网络电视,是一种集网络、多媒体、通讯等多种技术于一体,向用户提供包括数字电视在内的多种交互式服务的崭新技术。它通过互联网络将网络电视节目信息传播给指定的用户,用户在接
在计算机视觉以及计算机图形学研究领域,对自然场景中的事物进行精确的分类识别一直是该领域的研究热点。当前基于单分类器的图像分类结果具有不稳定性且不能平衡局部样本特
随着互联网的飞速发展,电子邮件已经成为人们生活中不可或缺的一项便捷服务。但是伴随着高效便捷的服务发展,却呈现出许多的安全问题,如近来发生的“棱镜门事件”。这些安全
随着互联网的飞速发展和网络应用的普及,计算机网络已经成为了人们生活中必不可少的部分。人们在享受信息化带来的众多好处的同时,也面临着日益突出的信息安全问题。防火墙是
飞机地面作业调度问题是当今民航业面临的一个热点问题,飞机数量的增加导致了大型枢纽机场飞机地面作业量的急剧增加,只有高效快速地完成飞机地面作业,才能确保飞机准时准点起飞
该文研究了基于Web日志挖掘技术的智能Web站点,对其中智能Web站点的体系结构、Web日志预处理、Web日志挖掘算法等进行了深入的研究,并部分实现了一个智能站点的原型系统——A
TSP问题(traveling salesman problem)是一个组合优化方面的问题,已经成为并将继续成为测试组合优化新算法的标准问题。从理论上讲,使用穷举法不但可以求解TSP问题,而且还可以求