论文部分内容阅读
WWW技术蓬勃发展,由于Web站点的规模和复杂度的增加,网站的一些主要工作,如Web站点设计、Web服务设计、电子商务等工作变得越加复杂和繁重。Web数据挖掘可以帮助分析人员从用户与网站的会话过程产生的大量多种多样的信息中挖掘出对企业和网站设计人员有用的知识。将传统的数据挖掘技术应用于商务站点数据处理工作,并提供一种高效的Web挖掘解决方案,是当今国际数据挖掘领域关注的热门课题。当今得到广泛应用的是传统的Web访问挖掘技术,如基于Web访问日志的挖掘技术。Web访问日志主要记录了用户登录网站期间的浏览路径,作为挖掘用户访问模式的数据源,数据信息量不够,且准确度不高。因此,为了将数据挖掘技术更好地服务于以电子商务为代表的Web应用领域,在研究基于Web日志的挖掘技术的基础上,一种基于XML的Web访问模式发现模型被提出,试图为提高Web挖掘效率和质量提供一种新思路。新的模式发现处理模型结合了XML技术的可扩展性和层次性,以及Web站点信息的构成特性,以此达到高效、主动、智能地采集各方面数据,使来自客户端、服务器端日志以及数据库的三方数据达到动态融合,并为挖掘工作提供丰富而又真实可信的数据源;在下一步的挖掘工作中,模型采用XML相关技术:采用定义了会话格式的XML文档记录数据,会话和用户识别工作简单而又准确;异构数据采用XML格式存储,易于在不同数据库之间传输;在应用程序中既可以生成单维,也可以生成多维数据集;模式挖掘环节中对传统的模式挖掘算法,例如FP-tree算法进行优化,整个Web挖掘的准确度和效率都将得到提高。基于XML的Web访问模式发现需要实现数据采集、数据预处理和模式挖掘等功能。数据采集模块在.NET平台下设计实现,生成的XML文档利用XML相关技术进行数据抽取,模式挖掘利用单维数据集,采用改进后的FP算法实现。