论文部分内容阅读
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,试图从数据中提取出先前未知、有效和有用的知识。 随着Internet的迅速发展和普及,电子商务的发展越来越多地引起研究者们的关注,期望能够在这种新型的商务模式下,充分利用它的优点,获得更多的经济效益。Web已经成为企业开展电子商务的基础。数据挖掘的思想和方法应用到电子商务中,帮助电子商务的经营者从海量的信息中得到真正有价值的知识,以指导他们的决策。Web数据挖掘就是在这样的背景下与电子商务结合在一起的。 Web挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志、页面内容、页面之间的结构等)中发现用户的浏览模式或寻找相关的Web页面等。Web挖掘分为Web内容挖掘、Web结构挖掘和Web访问信息挖掘。其中,与电子商务最为紧密的是Web访问信息挖掘。 本论文针对Web访问信息挖掘进行了较深入的研究。通过对用户访问信息进行有效的数据挖掘,可以从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。本论文的主要工作表现在以下几个方面: 1.综述了数据挖掘的主要方法、常用技术以及挖掘过程;讨论了Web挖掘的定义、分类、流程、应用领域、研究方向以及当前面临的问题。 2.探讨了电子商务、电子商务推荐系统与个性化服务、电子商务中进行Web挖掘的数据源、获取的知识模式以及Web访问信息挖掘在电子商务活动中的应用。 3.探讨了对Web访问日志进行预处理的方法。通过预处理Web访问日志,删除对于Web挖掘没有价值的数据,识别出用户会话,形成用户会话的数据库:运用最大向前引用方法对用户会话进行分割,得到用户的事务数据库。 4.将关联规则挖掘技术运用到电子商务中用户访问模式的发现。传统的关联规则挖掘算法并不适合Web中的用户访问模式的挖掘,所以必须改进关联规则挖掘算法。本文针对Web访问信息挖掘的特点,通过改进Apriori算法,得到一种频繁路径挖掘算法。为了提高挖掘算法的有效性,提出了一种不需要生成候选集的快速频繁路径挖掘算法。频