Web挖掘在竞争情报系统中的应用

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:bcrav4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
  随着商业竞争的日益激烈,各个企业都纷纷建立了自己的竞争情报系统,以提高自身的竞争力。互联网为竞争情报工作提供了丰富的信息资源,Web挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中,可以发挥重要作用。
  
  一、Web挖掘的分类
  
  1.Web内容挖掘:Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。它又可分为Web文本挖掘和Web多媒体挖掘,针对的对象分别是Web文本信息和Web多媒体信息。Web内容挖掘的重点是页面分类和聚类。
  2.Web结构挖掘:Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。结构挖掘又可分为超链接挖掘、页面内部结构挖掘和URL挖掘。
  3.Web使用记录挖掘:Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。
  
  二、Web挖掘实现技术
  
  Web挖掘发展自数据挖掘,数据挖掘方法通常可以分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。
  
  1.Web内容挖掘实现技术
  Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。Web文档多为HTML、XML等自然语言,因此可以利用Web文档中的标记,如Title、Heading等额外信息,利用这些信息来提高Web文本挖掘的性能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。
  文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用。例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。
  文本分类。分类概念时在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
  文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
  关联规则。发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下三个步骤:(1)连接数据,做数据准备;(2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;(3)可视化显示、理解、评估关联规则。
  
  2.用户使用记录挖掘实现技术
  在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
  发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
  从研究目标的角度看,已有的基于Web服务器日志数据的研究大致可以分为3类:(1)以分析系统性能为目标;(2)以改进系统设计为目标;(3)以理解用户意图为目标。由于各目标针对的功能不同,采取的主要技术也不同。
  用户使用记录的挖掘通常要经过三个阶段:数据预处理阶段,模式识别阶段,模式分析阶段。
  对挖掘用户使用{己录的研究早期多采用统计的方法,当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问模式进行多种简单的统计,如频繁访问页、单位事件访问数、访问数据量随时间分布图等。
  
  三、在竞争情报工作中的应用
  
  1.在竞争情报搜集和处理分析子系统中的应用
  (1)充分获取、开发和利用竞争对手和客户的信息。Web不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。一个Web页面的作者建立指向另一个页面的指针,就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权威页面的发现。通过浏览权威网站企业可以了解本行业的最新动态信息,了解一些著名的大型企业的发展动态。但是由于很少有Web页面会指向其竞争领域的权威页面。例如,可口可乐不会链接到其竞争对手百氏可乐的页面。基于这个问题人们又提出了另外一种重要的Web页面,称为hub。hub是指一个或多个Web页面,它提供了指向权威页面的链接集合。hub页面本身可能并不突出,或者说可能没有几个链接指向它们。但是hub页面却提供了指向就某个公共话题而言最为突出的站点链接。此类页面主要是主页上的推荐链接列表,例如商业站点上的专业装配站点。通过分析这类站点信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。利用hub查找权威网页的算法是HITS(Hyperlink—Induced Topic Search)。
  (2)挖掘Web日志纪录,来发现用户访问Web页面的模式。通过分析和探究Web日志纪录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。热点的Web站点每天可以记录下数以百兆字节的Web日志纪录。Web日志纪录数据库提供了有关Web动态的丰富信息。基于URL、时间、1P地址和Web页面内容信息,可以在网络日志数据库上构造多维试图,进行多维OLAP分析,用于找出头N个用户、头N个被访问页面、最频繁访问时间期等等,这有助于发现潜在客户、用户和市场等。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务。
  
  2.在反竞争情报子系统中的应用
  在反竞争情报子系统中,反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。Web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源,因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端所属域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。▲
  
  参考文献
  1.万方,尹为民,吴迪.网络数据挖掘及其新技术探讨.信息 技术,2002(1)
  2.韩客松,王永成.文本挖掘、数据挖掘和知识管理——21世 纪的智能信息处理.情报学报,2001(1)
  3.谢丹夏.Web上的数据挖掘技术和工具设计.计算机工程 与应用,2001(6)
  4.韩家炜,孟小峰,王静,李盛恩.web挖掘研究.计算机研究 与发展,2001(4)
  5.王颖楠,滕飞,谢莉,孙俏.web挖掘技术.吉林工学院学 报,2002(3)
  6.显春,谢中,周彦晖.电子商务与Web数据挖掘;计算机应 用,2001(5)
  7.徐振航,刘莉芹。基于XML的WEB数据挖掘技术.计算机 系统应用,2001(1)
  
  8.李磊,乔智勇.挖掘web数据.电子科技,2001(10)
  9.左开中,汪伟.XML语言在Web数据挖掘中的应用.微机 发展,2002(3)
  (作者单位:南开大学国际商学院图书馆学系 天津300071)
其他文献
面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的 Web应用,而且可以实现Web中的信息共享与交换。 XML是“可扩展标记语言”的缩写。XML规格是由全球信息网标准制
期刊
近年来,浙江省科技信息研究院遵循“建设科技信息资源,做强科技信息服务,发展科技信息事业”的宗旨,在科技信息服务体系创新方面进行了有益的探索。    一、以改革促创新,以创新促发展,建立科技创新保障体系。    科技信息服务的创新,首先依赖于制度的创新、机制的创新,只有改变在计划经济时代的财务、用人和分配机制,建立起适应市场机制的运作机制,信息机构才能有自己的利益目标,才能有追求利益的动机,才能有关
期刊
一、基于构件/构架的软件开发方法    上世纪60年代开始就出现了“软件危机”,当时一个大型复杂软件,要花上千人几年的工作量才能实现,而开发质量极差,常常可能包含成千上万个错误。为了解决这个问题,荷兰的一位物理学家E.W.Dijkstra采用数学的解题方法,提出了一种称为结构程序设计的方法,应用于开发大型软件系统时称为“结构化分析和结构化设计”。这种方法延用了十多年的历史,形成了软件工程这门学科。
期刊
本刊讯2月28日,中共中央、国务院在北京人民大会堂隆重举行国家科学技术奖励大会。党和国家领导人江泽民、胡锦涛、朱基、李岚清、吴邦国、温家宝、曾庆红、李长春出席大会并为获奖代表颁奖,充分体现了党和国家对科技事业的高度重视和对广大科技工作者的亲切关怀。胡锦涛主持大会,朱基代表党中央和国务院在大会上讲话。  这次经科学技术部审核、国务院批准获得2002年度国家科学技术奖励共269项(人)。其中:国家
期刊
Wiki(维基)一词源于夏威夷语“wee kee wee kee”,本意是“快点快点”。Wiki指一种超文本系统。这种超文本系统支持面向社群的协作式写作,同时也包括—组支持这种写作的辅助工具。我们可以在Web的基础上对Wiki文本进行浏览、创建、更改,而且创建、更改、发布的代价远比HTML文本要小。Wiki系统支持面向社群的协作式写作,为协作式写作提供必要帮助。Wiki的作者自然构成了一个社群,W
期刊
金怡濂,男,汉族,1929年9月出生于天津市,中共党员。1951年毕业于清华大学电机系;1956年至1958年在苏联科学院精密机械与计算技术研究所进修电子计算机技术;1994年当选为中国工程院首批院士;1994年至2000年为中国工程院主席团成员和中国工程院信息与电子工程学部主任。现任国家并行计算机工程技术研究中心主任、研究员,中国计算机学会名誉理事。  在2002年度国家科学技术奖励大会上,当我
期刊
日前,本刊记者在一次信息化大会上拜见了中国工程院院士、中科院计算所研究员倪先南,并借此机会请他就我国2004年软件产业的发展和软件应用情况发表一些意见和看法。下面就是倪光南院士接受采访时的谈话纪要。    记者:您对我国软件产业的总体发展作何评价?    倪光南:2004年我国软件产业有了很快的增长。从发展趋势来看,按47号文件规划目标,我国到 2005年软件市场销售额达到2500亿元是能够实现的
期刊
本刊讯第七届世界计算机博览会暨第二十四届中国计算机产品北京展览交易会COMDEX/China 2003于2003年4月1日至4日在北京展览馆举行。  COMDEX/China 2003是中华人民共和国信息产业部、科学技术部和中国国际贸易促进委员会主办的国内最大的计算机产品展览交易会,可为中国IT产业供需双方提供最有价值的交流与业务合作平台。会上,全国各地的各类企业、科研院所和各级政府机关的信息化建
期刊
Windows XP的安全措施    微软在Windows XP的安全性方面做了许多工作,增加了许多新的安全功能。微软Windows XP采取的安全措施有:    1.完善的用户管理功能  Windows XP采用Windows 2000/NT的内核,在用户管理上非常安全。凡是增加的用户都可以在登录的时候看到,不像Windows 2000那样,被黑客增加了一个管理员组的用户都发现不了。使用NTFS
期刊
1998年9月斯坦福大学两位博士生Larry Page与Sergey Brin设计了Google(www.google.com)搜索引擎,1999年Google Inc.创立。迄今,Google已经获得30多项业界大奖。Google的成功得益于其强大的功能和独到的特点,目前,各大引擎竞相模仿Google的功能和特色,如网页快照,偏好设置等。Google成为众多搜索引擎的领头羊。Google非中国本
期刊