论文部分内容阅读
摘要:Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果。Blog作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,吸引着越来越多的网络用户。首先介绍了 web 数据挖掘的概念,讨论了 web 数据挖掘的种类,随后对Blog, RSS的特征进行了阐述, 最后重点论述了RSS空间里的的数据挖掘。
关键词:Web挖掘;Blog;RSS;XML
中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)17-31245-02
The Application of Web Mining in Blogspace
CUI Lin1,2
(1.School of Computer&Information,Hefei University of Technology,Hefei 230009,China;2.Department of Computer Science and Technology,Suzhou College,Suzhou 234000,China)
Abstract:Web mining is a hot topic in the fields of computer technology now,it is the inevitable result of interaction of all kinds of modern science technology. Blog makes web information more open and useful to a great extent and attracts more and more web users as a novel Internet publication model. This paper firstly introduces the concept of Web mining,discusses the classification of Web mining and narrates the features of Blog and RSS.At last,this paper elaborates web mining in RSS space.
Key words:Web Mining; Blog; RSS; XML
1 引言
随着Interent(因特网)和Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一,Blog除具有一般Web page和Web site所具有的大部分特征外,还具有本身所独有的特征。因此我们应针对Blog自身的特征,来进行数据挖掘,这样才能更好的从Blog系统中提取出真正有价值的知识。
2 Web挖掘
2.1Web挖掘的定义
Web挖掘是一项综合技术,设计Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是指使用数据挖掘技术从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它是数据挖掘技术与Web技术的结合。从更为一般的角度出发,对Web挖掘可以作如下定义:
Web挖掘就是从大量Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:ξ:C→P [1]。
2.2 Web挖掘的分类
Web上信息的多样性决定了Web挖掘任务的多样性,依据挖掘对象的不同大致可分为三个方面的挖掘研究:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。如图1所示。
图1
2.2.1 Web内容挖掘
Web内容挖掘是指从Web文档内容或其描述中发现和抽取有用知识的过程。Web内容包含了多种多样的信息,这些信息由各种类型的服务和数据源组成,包括WWW、FTP、Telnethe和其他各种通过Web可以访问的应用数据库等。Web内容挖掘的对象包括文本、图像、音频、视频、元数据和其他各种类型的数据等。
2.2.2 Web结构挖掘
Web结构挖掘即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘最著名的算法是HITS算法和PageRank算法。
2.2.3 Web使用记录挖掘
内容挖掘、结构挖掘的对象是Web上的原始数据, 而Web使用记录挖掘则不同于前两者, 它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 包括服务器的日志记录、代理服务器日志、浏览器日志、用户会话信息、用户查询记录、用户注册信息、交易信息、Cookie中的信息、鼠标点击等一切用户与站点之间的交互记录。它通过挖掘这些数据来发现用户访问的模式,以找出用户的喜好、满意度,帮助站点管理者做出决策,增强站点的服务竞争力。
3 Blog(博客)技术介绍
3.1 Blog的基本概念
Blog,是Weblog的简称。Weblog,是Web和log的合成词。Web,指WorldWideWeb;Log,原义是“航海日志”,后指任何类型的流水记录。Weblog是在网络上的一种流水记录形式,所以也称为“网络日志”, 在大陆音译常为“博客” [2]。Blogger或Weblogger,是指习惯于日常记录并使用Weblog工具的人。Blog最早产生于Pyra实验室,用于项目小组成员间的沟通交流,后来发展为互联网上流行的个人知识管理工具和知识社区的平台工具,它以其独特的网络沟通方式在众多领域得到迅猛发展
Blog不是一个高深的新技术,而是网络技术更好地服务于人的一个应用层面的创新,它以“零编辑、零技术、零成本、零形式” 的特点迅速得到推广。用Blog时不受技术、形式和理念的约束,会打字,就会Blog,就像使用电子邮件那样简单。页面形态很像个人Web网站,可以免费申请,它通常是由简短且经常更新的帖子所构成,这些张贴的文章叫作posts,都按照年份和日期的倒序排列,不需要专门网站维护,点击提交就能发布刷新内容,只要专注于网站内容的建设即可。它通过网络留言、引用跟踪(Trackback)等机制将用户聚集成一个个虚拟的网络群体,并通过RSS技术,让感兴趣的Blog或新闻网站的更新内容自动汇集到用户桌面。被认为是继E-mail、BBS、ICQ 之后出现的第四种网络交流式。
3.2 Blog的相关技术
Blog由于具有以上特征,吸引了越来越多的人士加入其阵营,但从这种新的网络文化的演变过程中可以看到,是Blog技术的出现使得每个人可以低成本、少维护地创建自己的博客网站。但目前,广大的用户对Blog所提供的技术不了解,甚至闻所未闻,更谈不上使用。可以说没有Blog技术,就没有呈现在大家面前的简单易用的Blog。以下将着重介绍Blog的核心技术RSS和RSS空间里的数据挖掘。
3.2.1 RSS简介和使用现状
RSS是一种用于Web站点之间内容共享的数据交换规范,也叫聚合内容,起源于网景的推技术,是一种基于XML标准的Syndication 技术和在互联网上被广泛采用的内容包装和投递协议,可以是Really Simple Syndication(真正简单的整合)、RDF Site Summary(RDF 站点摘要)、Rich Site Summary(丰富站点摘要)3 个解释的其中一个。是Internet上聚合内容和元数据的一种格式。
Blog的核心思想是实现知识的共享,要充分发挥Blog的作用,就离不开RSS。RSS 的机制可使Blog上作者所写的文章自动更新到读者的计算机中,使阅读日志变得非常容易。支持RSS的Blog软件会在后台产生XML语言代码,该代码通常称为RSS Feed(即反馈),这样读者就不必进入该Blog站点,只需将对方日志的RSS Feed地址加入到RSS阅读器中,订阅某个Blog,从RSS阅读器浏览该日志的内容标题和摘要及更新信息等,然后有选择地从浏览器窗口打开这些日志。
RSS Feed用不同的标签(Tag)来标注。通常由4个主要元素构成:、、- 和
。其中,元素是必需的,- 元素至少要出现一次。< textinput>和< image>元素是可选的,是否使用要视具体情况而定。
元素主要包含以下子元素: < title>、、、< image>、、- 。一个RSS feed的基本语法如下:
< rss version = "2 .0" >
< description >
关键词:Web挖掘;Blog;RSS;XML
中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)17-31245-02
The Application of Web Mining in Blogspace
CUI Lin1,2
(1.School of Computer&Information,Hefei University of Technology,Hefei 230009,China;2.Department of Computer Science and Technology,Suzhou College,Suzhou 234000,China)
Abstract:Web mining is a hot topic in the fields of computer technology now,it is the inevitable result of interaction of all kinds of modern science technology. Blog makes web information more open and useful to a great extent and attracts more and more web users as a novel Internet publication model. This paper firstly introduces the concept of Web mining,discusses the classification of Web mining and narrates the features of Blog and RSS.At last,this paper elaborates web mining in RSS space.
Key words:Web Mining; Blog; RSS; XML
1 引言
随着Interent(因特网)和Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一,Blog除具有一般Web page和Web site所具有的大部分特征外,还具有本身所独有的特征。因此我们应针对Blog自身的特征,来进行数据挖掘,这样才能更好的从Blog系统中提取出真正有价值的知识。
2 Web挖掘
2.1Web挖掘的定义
Web挖掘是一项综合技术,设计Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是指使用数据挖掘技术从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它是数据挖掘技术与Web技术的结合。从更为一般的角度出发,对Web挖掘可以作如下定义:
Web挖掘就是从大量Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:ξ:C→P [1]。
2.2 Web挖掘的分类
Web上信息的多样性决定了Web挖掘任务的多样性,依据挖掘对象的不同大致可分为三个方面的挖掘研究:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。如图1所示。
图1
2.2.1 Web内容挖掘
Web内容挖掘是指从Web文档内容或其描述中发现和抽取有用知识的过程。Web内容包含了多种多样的信息,这些信息由各种类型的服务和数据源组成,包括WWW、FTP、Telnethe和其他各种通过Web可以访问的应用数据库等。Web内容挖掘的对象包括文本、图像、音频、视频、元数据和其他各种类型的数据等。
2.2.2 Web结构挖掘
Web结构挖掘即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘最著名的算法是HITS算法和PageRank算法。
2.2.3 Web使用记录挖掘
内容挖掘、结构挖掘的对象是Web上的原始数据, 而Web使用记录挖掘则不同于前两者, 它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 包括服务器的日志记录、代理服务器日志、浏览器日志、用户会话信息、用户查询记录、用户注册信息、交易信息、Cookie中的信息、鼠标点击等一切用户与站点之间的交互记录。它通过挖掘这些数据来发现用户访问的模式,以找出用户的喜好、满意度,帮助站点管理者做出决策,增强站点的服务竞争力。
3 Blog(博客)技术介绍
3.1 Blog的基本概念
Blog,是Weblog的简称。Weblog,是Web和log的合成词。Web,指WorldWideWeb;Log,原义是“航海日志”,后指任何类型的流水记录。Weblog是在网络上的一种流水记录形式,所以也称为“网络日志”, 在大陆音译常为“博客” [2]。Blogger或Weblogger,是指习惯于日常记录并使用Weblog工具的人。Blog最早产生于Pyra实验室,用于项目小组成员间的沟通交流,后来发展为互联网上流行的个人知识管理工具和知识社区的平台工具,它以其独特的网络沟通方式在众多领域得到迅猛发展
Blog不是一个高深的新技术,而是网络技术更好地服务于人的一个应用层面的创新,它以“零编辑、零技术、零成本、零形式” 的特点迅速得到推广。用Blog时不受技术、形式和理念的约束,会打字,就会Blog,就像使用电子邮件那样简单。页面形态很像个人Web网站,可以免费申请,它通常是由简短且经常更新的帖子所构成,这些张贴的文章叫作posts,都按照年份和日期的倒序排列,不需要专门网站维护,点击提交就能发布刷新内容,只要专注于网站内容的建设即可。它通过网络留言、引用跟踪(Trackback)等机制将用户聚集成一个个虚拟的网络群体,并通过RSS技术,让感兴趣的Blog或新闻网站的更新内容自动汇集到用户桌面。被认为是继E-mail、BBS、ICQ 之后出现的第四种网络交流式。
3.2 Blog的相关技术
Blog由于具有以上特征,吸引了越来越多的人士加入其阵营,但从这种新的网络文化的演变过程中可以看到,是Blog技术的出现使得每个人可以低成本、少维护地创建自己的博客网站。但目前,广大的用户对Blog所提供的技术不了解,甚至闻所未闻,更谈不上使用。可以说没有Blog技术,就没有呈现在大家面前的简单易用的Blog。以下将着重介绍Blog的核心技术RSS和RSS空间里的数据挖掘。
3.2.1 RSS简介和使用现状
RSS是一种用于Web站点之间内容共享的数据交换规范,也叫聚合内容,起源于网景的推技术,是一种基于XML标准的Syndication 技术和在互联网上被广泛采用的内容包装和投递协议,可以是Really Simple Syndication(真正简单的整合)、RDF Site Summary(RDF 站点摘要)、Rich Site Summary(丰富站点摘要)3 个解释的其中一个。是Internet上聚合内容和元数据的一种格式。
Blog的核心思想是实现知识的共享,要充分发挥Blog的作用,就离不开RSS。RSS 的机制可使Blog上作者所写的文章自动更新到读者的计算机中,使阅读日志变得非常容易。支持RSS的Blog软件会在后台产生XML语言代码,该代码通常称为RSS Feed(即反馈),这样读者就不必进入该Blog站点,只需将对方日志的RSS Feed地址加入到RSS阅读器中,订阅某个Blog,从RSS阅读器浏览该日志的内容标题和摘要及更新信息等,然后有选择地从浏览器窗口打开这些日志。
RSS Feed用不同的标签(Tag)来标注。通常由4个主要元素构成:
< rss version = "2 .0" >
< description >