【摘 要】
:
随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。Web网站无论是在访问量、规模上还是在网站设计
论文部分内容阅读
随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。Web网站无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。本文在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对我校网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是:首先对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点,包括数据清理、会话识别、用户识别和片断识别,并尝试将其用到我校网站的挖掘之中;其次对基于FP-tree的关联规则挖掘算法进行了研究,然后将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议;最后对路径遍历模式挖掘进行了研究,将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议。
其他文献
嵌入式软件的特殊性使得其开发过程比传统的通用计算机软件要复杂得多,而调试作为嵌入式系统开发中的关键环节,扮演着十分重要的角色。目前,国内在嵌入式调试技术方面所做的
数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究中很有应用价值的一个新方向
2012年12月13日,我国的月球探测器嫦娥二号在距地球约700万公里的深空,以10.73km/s的速度770m的最近距离成功飞掠4179小行星Toutatis,获得了最高分辨率优于3m的系列可见光图
碎片复原技术是计算机视觉、图像分析和模式识别等领域中的重要研究课题,它开辟了模式识别新的应用领域,具有广泛的实用价值,一直为国内外学者所关注。本文在研究传统角点提
字符串相似性搜索在众多的领域具有广泛的应用,例如:数据清洗、数据集成、拼写检查、抄袭检测、生物序列分析等。到目前为止,有很多度量标准用来衡量字符串之间的相似程度,然
中间件是一种独立的系统软件或服务程序,能够屏蔽网络硬件平台的差异性和操作系统与网络协议的异构性,使得分布式应用软件得以在不同的技术之间共享资源。当前,面向对象分布
随着用户越来越倾向于输入自然语言作为查询,问句理解成为了问答系统等领域中的研究重点之一。然而现有问答系统技术对复合事实型问句的处理效果并不完美,不能很好地理解用户
随着信息时代的发展,单一形式的媒体传播不再满足受众的需求,跨媒体信息传播这种新兴的传播形式随之应运而生,那么,跨媒体热点信息如何获取,该类信息在传播过程中存在哪些特
随着信息技术的发展,作为传统实验教学的一种有效补充,虚拟实验教学已成为加强实践教学、提高教学质量的重要手段。在计算机学科硬件课程的虚拟实验系统中,随着实验规模的扩
在临床诊断治疗中,往往要求对病人的病变部位进行多次成像,以获取互补、有效、全面的信息,提高医生的诊断治疗效果,这就需要进行医学图像的信息融合,把多幅图像的信息融合在