论文部分内容阅读
随着互联网及信息技术的飞速发展,互联网信息资源急速膨胀,人们不能有效选择和消化纷繁复杂的信息,淹没在信息的海洋中,这种现象称为信息过载。目前,人们主要使用搜索引擎来检索Web上的信息资源,但搜索出来的结果不够智能友好,没有考虑用户的兴趣爱好,出现了“数据丰富,知识匮乏”的现象。Web挖掘是数据挖掘在Web上的应用,它从互联网上的信息资源获取知识,已成为当前计算机科学技术的一个研究热点。Web日志挖掘也叫Web使用挖掘,是Web挖掘的一个重要分支,通过使用Web日志序列模式挖掘技术,可从网站服务器的日志文件中挖掘出用户的访问模式,有利于改善Web的结构设计,为站点管理提供决策支持,为用户提供更好的访问体验。本文系统地阐述了数据挖掘、Web数据挖掘、序列模式挖掘、Web日志挖掘的各个过程。因为原始的Web日志包含了大量的噪声数据,若不作处理将影响数据挖掘结果的质量,所以本文首先对日志进行预处理,结合Apache Log Viewer、Microsoft VisualStudio2005等工具以及预处理方法函数对日志进行数据清理和会话识别,为建立数据挖掘模型提供了数据源。然后,采用微软的商业智能挖掘工具SQL服务器分析服务SSAS为实验工具,Microsoft顺序分析和聚类分析算法为数据挖掘算法,对预处理后的数据进行挖掘,并把挖掘出来的结果进行前端展示,得出用户频繁访问的页面栏目及基于序列模式的用户访问路径。接着,本文对挖掘结果进行分析,提出了完善网站的四点建议,并把其应用到医院网站建设中。实践表明,网站的平均流量及页面浏览量得到提高,用户体验提高较为明显。