论文部分内容阅读
[摘要]网络环境下竞争情报的获取已经成为企业提高自身竞争力的一个重要的途径与来源。Web挖掘作为一种有效的技术工具,也开始在竞争情报活动中逐渐得以推广与应用。本文主要就对web挖掘及其在竞争情报活动中的实现进行了简单介绍。
[关键词]web挖掘 竞争情报
中图分类号:TP3文献标识码:A文章编号:1671-7597 (2008) 0110046-01
一、竞争情报活动中web挖掘的必要性
随着经济全球化和全球信息化的逐渐深入,我国企业发展也面临巨大的挑战。在激烈的市场竞争中,企业只有明确自己所处的国内和国际环境,掌握竞争对手信息,制定准确的竞争战略,才能使企业立于不败之地。互联网的出现,为企业开展竞争情报工作提供了巨大的信息源。要想提升企业竞争力,企业竞争情报的搜集范围,相应的就应该扩展到Internet上来。
Internet上竞争情报源由于其数量巨大且获取成本相对较低,目前它已经成为企业获取竞争情报的一个重要途径。但是,我们同时也要意识到,不同于一般的竞争情报源, Internet竞争情报源的内容更为复杂,此外,它还具有开放性、异构性、动态性、半结构化、非结构化的特点。因此,这就需要我们寻求一种新的情报处理和分析工具,协助企业对大量散布在互联网上的数据进行深层分析,就像从矿石中淘金一样,获得有利于商业运作、提高竞争力的信息,这就是web挖掘。
二、Web挖掘的分类
web挖掘是一门综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。依据挖掘对象的不同,web挖掘又可以分为以下三个方面:
(一)web内容挖掘。Web内容挖掘是一种基于网页内容的web挖掘。是从大量的web数据中发现信息、抽取知识的过程。这些数据既有文本数据,也有图像、声频、音频等多媒体数据,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据和无结构的自由文本。
(二)web结构挖掘。Web结构挖掘是从www的组织结构和连接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接数量以及对象,建立web自身的连接结构模式。这种模式可以用于网页归类,并且可以由此获得不同网页间相似度和关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。
(三)web使用挖掘。除了web内容和web链接结构以外,web挖掘的另一个重要任务是对web使用记录进行挖掘。Web内容挖掘和web结构挖掘的对象是网上的原始数据,而web使用记录的挖掘则与此不同,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。它通过挖掘web日志记录和相关数据,从而发现用户访问web页面的模式。
三、Web挖掘技术研究
(一)Web内容挖掘实现技术。Web内容挖掘主要体现为对web文本的挖掘,包括对文本内容的总结、分类、聚类机关联分析等。1.文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。2.文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。3.文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。4.关联规则。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:连接数据,做数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
(二)用户使用记录挖掘实现技术。在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
四、Web挖掘在竞争情报系统中的应用
(一)利用Web挖掘获取、开发和利用竞争对手和客户的信息。从Web挖掘技术的实现流程来看,Web挖掘不仅仅是像网络信息检索那样只是把符合查询要求的记录返回给用户,这样得到的结果集不仅数量庞大,而且包括很多不相关信息。正如前面所提到的,Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它还能发现权威站点、有重要价值的“隐藏”信息,并且能够监视和预测用户的访问习惯、购买行为,并能够发现顾客购买模式趋势。
(二)挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探究web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务.
(三)Web挖掘在反竞争情报活动中的应用。反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端历届域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。
总之,作为一种新型的信息处理与分析技术,web挖掘的确在竞争情报活动中具有巨大的应用潜力。充分运用web挖掘来发掘蕴藏在互联网上的竞争情报资源,将会为企业竞争力的提升提供强大的支持与动力。
参考文献:
[1]秦铁辉等,企业竞争中 Internet上信息的获取和利用.情报学报,2002年06期。
[2]苗杰,倪波,面向集成竞争情报系统的数据挖掘应用研究.情报学报,2001年04期。
[3]霍艳蓉,孙成权,网络信息挖掘及其在竞争情报工作中的应用.情报杂志,2003年02期。
[4]陈萍丽,Web挖掘及其在竞争情报系统的应用.情报科学,2003年09期
[5]李广建等编著,网络竞争情报源.华夏出版社.2001年。
[关键词]web挖掘 竞争情报
中图分类号:TP3文献标识码:A文章编号:1671-7597 (2008) 0110046-01
一、竞争情报活动中web挖掘的必要性
随着经济全球化和全球信息化的逐渐深入,我国企业发展也面临巨大的挑战。在激烈的市场竞争中,企业只有明确自己所处的国内和国际环境,掌握竞争对手信息,制定准确的竞争战略,才能使企业立于不败之地。互联网的出现,为企业开展竞争情报工作提供了巨大的信息源。要想提升企业竞争力,企业竞争情报的搜集范围,相应的就应该扩展到Internet上来。
Internet上竞争情报源由于其数量巨大且获取成本相对较低,目前它已经成为企业获取竞争情报的一个重要途径。但是,我们同时也要意识到,不同于一般的竞争情报源, Internet竞争情报源的内容更为复杂,此外,它还具有开放性、异构性、动态性、半结构化、非结构化的特点。因此,这就需要我们寻求一种新的情报处理和分析工具,协助企业对大量散布在互联网上的数据进行深层分析,就像从矿石中淘金一样,获得有利于商业运作、提高竞争力的信息,这就是web挖掘。
二、Web挖掘的分类
web挖掘是一门综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。依据挖掘对象的不同,web挖掘又可以分为以下三个方面:
(一)web内容挖掘。Web内容挖掘是一种基于网页内容的web挖掘。是从大量的web数据中发现信息、抽取知识的过程。这些数据既有文本数据,也有图像、声频、音频等多媒体数据,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据和无结构的自由文本。
(二)web结构挖掘。Web结构挖掘是从www的组织结构和连接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接数量以及对象,建立web自身的连接结构模式。这种模式可以用于网页归类,并且可以由此获得不同网页间相似度和关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。
(三)web使用挖掘。除了web内容和web链接结构以外,web挖掘的另一个重要任务是对web使用记录进行挖掘。Web内容挖掘和web结构挖掘的对象是网上的原始数据,而web使用记录的挖掘则与此不同,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。它通过挖掘web日志记录和相关数据,从而发现用户访问web页面的模式。
三、Web挖掘技术研究
(一)Web内容挖掘实现技术。Web内容挖掘主要体现为对web文本的挖掘,包括对文本内容的总结、分类、聚类机关联分析等。1.文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。2.文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。3.文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。4.关联规则。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:连接数据,做数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
(二)用户使用记录挖掘实现技术。在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
四、Web挖掘在竞争情报系统中的应用
(一)利用Web挖掘获取、开发和利用竞争对手和客户的信息。从Web挖掘技术的实现流程来看,Web挖掘不仅仅是像网络信息检索那样只是把符合查询要求的记录返回给用户,这样得到的结果集不仅数量庞大,而且包括很多不相关信息。正如前面所提到的,Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它还能发现权威站点、有重要价值的“隐藏”信息,并且能够监视和预测用户的访问习惯、购买行为,并能够发现顾客购买模式趋势。
(二)挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探究web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务.
(三)Web挖掘在反竞争情报活动中的应用。反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端历届域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。
总之,作为一种新型的信息处理与分析技术,web挖掘的确在竞争情报活动中具有巨大的应用潜力。充分运用web挖掘来发掘蕴藏在互联网上的竞争情报资源,将会为企业竞争力的提升提供强大的支持与动力。
参考文献:
[1]秦铁辉等,企业竞争中 Internet上信息的获取和利用.情报学报,2002年06期。
[2]苗杰,倪波,面向集成竞争情报系统的数据挖掘应用研究.情报学报,2001年04期。
[3]霍艳蓉,孙成权,网络信息挖掘及其在竞争情报工作中的应用.情报杂志,2003年02期。
[4]陈萍丽,Web挖掘及其在竞争情报系统的应用.情报科学,2003年09期
[5]李广建等编著,网络竞争情报源.华夏出版社.2001年。