论文部分内容阅读
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
随着商业竞争的日益激烈,各个企业都纷纷建立了自己的竞争情报系统,以提高自身的竞争力。互联网为竞争情报工作提供了丰富的信息资源,Web挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中,可以发挥重要作用。
一、Web挖掘的分类
1.Web内容挖掘:Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。它又可分为Web文本挖掘和Web多媒体挖掘,针对的对象分别是Web文本信息和Web多媒体信息。Web内容挖掘的重点是页面分类和聚类。
2.Web结构挖掘:Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。结构挖掘又可分为超链接挖掘、页面内部结构挖掘和URL挖掘。
3.Web使用记录挖掘:Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。
二、Web挖掘实现技术
Web挖掘发展自数据挖掘,数据挖掘方法通常可以分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。
1.Web内容挖掘实现技术
Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。Web文档多为HTML、XML等自然语言,因此可以利用Web文档中的标记,如Title、Heading等额外信息,利用这些信息来提高Web文本挖掘的性能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。
文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用。例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。
文本分类。分类概念时在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
关联规则。发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下三个步骤:(1)连接数据,做数据准备;(2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;(3)可视化显示、理解、评估关联规则。
2.用户使用记录挖掘实现技术
在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
从研究目标的角度看,已有的基于Web服务器日志数据的研究大致可以分为3类:(1)以分析系统性能为目标;(2)以改进系统设计为目标;(3)以理解用户意图为目标。由于各目标针对的功能不同,采取的主要技术也不同。
用户使用记录的挖掘通常要经过三个阶段:数据预处理阶段,模式识别阶段,模式分析阶段。
对挖掘用户使用{己录的研究早期多采用统计的方法,当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问模式进行多种简单的统计,如频繁访问页、单位事件访问数、访问数据量随时间分布图等。
三、在竞争情报工作中的应用
1.在竞争情报搜集和处理分析子系统中的应用
(1)充分获取、开发和利用竞争对手和客户的信息。Web不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。一个Web页面的作者建立指向另一个页面的指针,就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权威页面的发现。通过浏览权威网站企业可以了解本行业的最新动态信息,了解一些著名的大型企业的发展动态。但是由于很少有Web页面会指向其竞争领域的权威页面。例如,可口可乐不会链接到其竞争对手百氏可乐的页面。基于这个问题人们又提出了另外一种重要的Web页面,称为hub。hub是指一个或多个Web页面,它提供了指向权威页面的链接集合。hub页面本身可能并不突出,或者说可能没有几个链接指向它们。但是hub页面却提供了指向就某个公共话题而言最为突出的站点链接。此类页面主要是主页上的推荐链接列表,例如商业站点上的专业装配站点。通过分析这类站点信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。利用hub查找权威网页的算法是HITS(Hyperlink—Induced Topic Search)。
(2)挖掘Web日志纪录,来发现用户访问Web页面的模式。通过分析和探究Web日志纪录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。热点的Web站点每天可以记录下数以百兆字节的Web日志纪录。Web日志纪录数据库提供了有关Web动态的丰富信息。基于URL、时间、1P地址和Web页面内容信息,可以在网络日志数据库上构造多维试图,进行多维OLAP分析,用于找出头N个用户、头N个被访问页面、最频繁访问时间期等等,这有助于发现潜在客户、用户和市场等。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务。
2.在反竞争情报子系统中的应用
在反竞争情报子系统中,反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。Web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源,因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端所属域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。▲
参考文献
1.万方,尹为民,吴迪.网络数据挖掘及其新技术探讨.信息 技术,2002(1)
2.韩客松,王永成.文本挖掘、数据挖掘和知识管理——21世 纪的智能信息处理.情报学报,2001(1)
3.谢丹夏.Web上的数据挖掘技术和工具设计.计算机工程 与应用,2001(6)
4.韩家炜,孟小峰,王静,李盛恩.web挖掘研究.计算机研究 与发展,2001(4)
5.王颖楠,滕飞,谢莉,孙俏.web挖掘技术.吉林工学院学 报,2002(3)
6.显春,谢中,周彦晖.电子商务与Web数据挖掘;计算机应 用,2001(5)
7.徐振航,刘莉芹。基于XML的WEB数据挖掘技术.计算机 系统应用,2001(1)
8.李磊,乔智勇.挖掘web数据.电子科技,2001(10)
9.左开中,汪伟.XML语言在Web数据挖掘中的应用.微机 发展,2002(3)
(作者单位:南开大学国际商学院图书馆学系 天津300071)
随着商业竞争的日益激烈,各个企业都纷纷建立了自己的竞争情报系统,以提高自身的竞争力。互联网为竞争情报工作提供了丰富的信息资源,Web挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中,可以发挥重要作用。
一、Web挖掘的分类
1.Web内容挖掘:Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。它又可分为Web文本挖掘和Web多媒体挖掘,针对的对象分别是Web文本信息和Web多媒体信息。Web内容挖掘的重点是页面分类和聚类。
2.Web结构挖掘:Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。结构挖掘又可分为超链接挖掘、页面内部结构挖掘和URL挖掘。
3.Web使用记录挖掘:Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。
二、Web挖掘实现技术
Web挖掘发展自数据挖掘,数据挖掘方法通常可以分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。
1.Web内容挖掘实现技术
Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。Web文档多为HTML、XML等自然语言,因此可以利用Web文档中的标记,如Title、Heading等额外信息,利用这些信息来提高Web文本挖掘的性能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。
文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用。例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。
文本分类。分类概念时在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
关联规则。发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下三个步骤:(1)连接数据,做数据准备;(2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;(3)可视化显示、理解、评估关联规则。
2.用户使用记录挖掘实现技术
在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
从研究目标的角度看,已有的基于Web服务器日志数据的研究大致可以分为3类:(1)以分析系统性能为目标;(2)以改进系统设计为目标;(3)以理解用户意图为目标。由于各目标针对的功能不同,采取的主要技术也不同。
用户使用记录的挖掘通常要经过三个阶段:数据预处理阶段,模式识别阶段,模式分析阶段。
对挖掘用户使用{己录的研究早期多采用统计的方法,当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问模式进行多种简单的统计,如频繁访问页、单位事件访问数、访问数据量随时间分布图等。
三、在竞争情报工作中的应用
1.在竞争情报搜集和处理分析子系统中的应用
(1)充分获取、开发和利用竞争对手和客户的信息。Web不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。一个Web页面的作者建立指向另一个页面的指针,就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权威页面的发现。通过浏览权威网站企业可以了解本行业的最新动态信息,了解一些著名的大型企业的发展动态。但是由于很少有Web页面会指向其竞争领域的权威页面。例如,可口可乐不会链接到其竞争对手百氏可乐的页面。基于这个问题人们又提出了另外一种重要的Web页面,称为hub。hub是指一个或多个Web页面,它提供了指向权威页面的链接集合。hub页面本身可能并不突出,或者说可能没有几个链接指向它们。但是hub页面却提供了指向就某个公共话题而言最为突出的站点链接。此类页面主要是主页上的推荐链接列表,例如商业站点上的专业装配站点。通过分析这类站点信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。利用hub查找权威网页的算法是HITS(Hyperlink—Induced Topic Search)。
(2)挖掘Web日志纪录,来发现用户访问Web页面的模式。通过分析和探究Web日志纪录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。热点的Web站点每天可以记录下数以百兆字节的Web日志纪录。Web日志纪录数据库提供了有关Web动态的丰富信息。基于URL、时间、1P地址和Web页面内容信息,可以在网络日志数据库上构造多维试图,进行多维OLAP分析,用于找出头N个用户、头N个被访问页面、最频繁访问时间期等等,这有助于发现潜在客户、用户和市场等。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务。
2.在反竞争情报子系统中的应用
在反竞争情报子系统中,反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。Web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源,因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端所属域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。▲
参考文献
1.万方,尹为民,吴迪.网络数据挖掘及其新技术探讨.信息 技术,2002(1)
2.韩客松,王永成.文本挖掘、数据挖掘和知识管理——21世 纪的智能信息处理.情报学报,2001(1)
3.谢丹夏.Web上的数据挖掘技术和工具设计.计算机工程 与应用,2001(6)
4.韩家炜,孟小峰,王静,李盛恩.web挖掘研究.计算机研究 与发展,2001(4)
5.王颖楠,滕飞,谢莉,孙俏.web挖掘技术.吉林工学院学 报,2002(3)
6.显春,谢中,周彦晖.电子商务与Web数据挖掘;计算机应 用,2001(5)
7.徐振航,刘莉芹。基于XML的WEB数据挖掘技术.计算机 系统应用,2001(1)
8.李磊,乔智勇.挖掘web数据.电子科技,2001(10)
9.左开中,汪伟.XML语言在Web数据挖掘中的应用.微机 发展,2002(3)
(作者单位:南开大学国际商学院图书馆学系 天津300071)