Web挖掘在blog空间里的运用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wowo925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果。Blog作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,吸引着越来越多的网络用户。首先介绍了 web 数据挖掘的概念,讨论了 web 数据挖掘的种类,随后对Blog, RSS的特征进行了阐述, 最后重点论述了RSS空间里的的数据挖掘。
  关键词:Web挖掘;Blog;RSS;XML
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)17-31245-02
  The Application of Web Mining in Blogspace
  CUI Lin1,2
  (1.School of Computer&Information,Hefei University of Technology,Hefei 230009,China;2.Department of Computer Science and Technology,Suzhou College,Suzhou 234000,China)
  Abstract:Web mining is a hot topic in the fields of computer technology now,it is the inevitable result of interaction of all kinds of modern science technology. Blog makes web information more open and useful to a great extent and attracts more and more web users as a novel Internet publication model. This paper firstly introduces the concept of Web mining,discusses the classification of Web mining and narrates the features of Blog and RSS.At last,this paper elaborates web mining in RSS space.
  Key words:Web Mining; Blog; RSS; XML
  
  1 引言
  
  随着Interent(因特网)和Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一,Blog除具有一般Web page和Web site所具有的大部分特征外,还具有本身所独有的特征。因此我们应针对Blog自身的特征,来进行数据挖掘,这样才能更好的从Blog系统中提取出真正有价值的知识。
  
  2 Web挖掘
  
  2.1Web挖掘的定义
  Web挖掘是一项综合技术,设计Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是指使用数据挖掘技术从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它是数据挖掘技术与Web技术的结合。从更为一般的角度出发,对Web挖掘可以作如下定义:
  Web挖掘就是从大量Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:ξ:C→P [1]。
  2.2 Web挖掘的分类
  Web上信息的多样性决定了Web挖掘任务的多样性,依据挖掘对象的不同大致可分为三个方面的挖掘研究:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。如图1所示。
  图1
  2.2.1 Web内容挖掘
  Web内容挖掘是指从Web文档内容或其描述中发现和抽取有用知识的过程。Web内容包含了多种多样的信息,这些信息由各种类型的服务和数据源组成,包括WWW、FTP、Telnethe和其他各种通过Web可以访问的应用数据库等。Web内容挖掘的对象包括文本、图像、音频、视频、元数据和其他各种类型的数据等。
  2.2.2 Web结构挖掘
  Web结构挖掘即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘最著名的算法是HITS算法和PageRank算法。
  2.2.3 Web使用记录挖掘
  内容挖掘、结构挖掘的对象是Web上的原始数据, 而Web使用记录挖掘则不同于前两者, 它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 包括服务器的日志记录、代理服务器日志、浏览器日志、用户会话信息、用户查询记录、用户注册信息、交易信息、Cookie中的信息、鼠标点击等一切用户与站点之间的交互记录。它通过挖掘这些数据来发现用户访问的模式,以找出用户的喜好、满意度,帮助站点管理者做出决策,增强站点的服务竞争力。
  
  3 Blog(博客)技术介绍
  
  3.1 Blog的基本概念
  Blog,是Weblog的简称。Weblog,是Web和log的合成词。Web,指WorldWideWeb;Log,原义是“航海日志”,后指任何类型的流水记录。Weblog是在网络上的一种流水记录形式,所以也称为“网络日志”, 在大陆音译常为“博客” [2]。Blogger或Weblogger,是指习惯于日常记录并使用Weblog工具的人。Blog最早产生于Pyra实验室,用于项目小组成员间的沟通交流,后来发展为互联网上流行的个人知识管理工具和知识社区的平台工具,它以其独特的网络沟通方式在众多领域得到迅猛发展
  Blog不是一个高深的新技术,而是网络技术更好地服务于人的一个应用层面的创新,它以“零编辑、零技术、零成本、零形式” 的特点迅速得到推广。用Blog时不受技术、形式和理念的约束,会打字,就会Blog,就像使用电子邮件那样简单。页面形态很像个人Web网站,可以免费申请,它通常是由简短且经常更新的帖子所构成,这些张贴的文章叫作posts,都按照年份和日期的倒序排列,不需要专门网站维护,点击提交就能发布刷新内容,只要专注于网站内容的建设即可。它通过网络留言、引用跟踪(Trackback)等机制将用户聚集成一个个虚拟的网络群体,并通过RSS技术,让感兴趣的Blog或新闻网站的更新内容自动汇集到用户桌面。被认为是继E-mail、BBS、ICQ 之后出现的第四种网络交流式。
  3.2 Blog的相关技术
  Blog由于具有以上特征,吸引了越来越多的人士加入其阵营,但从这种新的网络文化的演变过程中可以看到,是Blog技术的出现使得每个人可以低成本、少维护地创建自己的博客网站。但目前,广大的用户对Blog所提供的技术不了解,甚至闻所未闻,更谈不上使用。可以说没有Blog技术,就没有呈现在大家面前的简单易用的Blog。以下将着重介绍Blog的核心技术RSS和RSS空间里的数据挖掘。
  3.2.1 RSS简介和使用现状
  RSS是一种用于Web站点之间内容共享的数据交换规范,也叫聚合内容,起源于网景的推技术,是一种基于XML标准的Syndication 技术和在互联网上被广泛采用的内容包装和投递协议,可以是Really Simple Syndication(真正简单的整合)、RDF Site Summary(RDF 站点摘要)、Rich Site Summary(丰富站点摘要)3 个解释的其中一个。是Internet上聚合内容和元数据的一种格式。
  Blog的核心思想是实现知识的共享,要充分发挥Blog的作用,就离不开RSS。RSS 的机制可使Blog上作者所写的文章自动更新到读者的计算机中,使阅读日志变得非常容易。支持RSS的Blog软件会在后台产生XML语言代码,该代码通常称为RSS Feed(即反馈),这样读者就不必进入该Blog站点,只需将对方日志的RSS Feed地址加入到RSS阅读器中,订阅某个Blog,从RSS阅读器浏览该日志的内容标题和摘要及更新信息等,然后有选择地从浏览器窗口打开这些日志。
  RSS Feed用不同的标签(Tag)来标注。通常由4个主要元素构成:。其中,元素是必需的,元素至少要出现一次。< textinput>和< image>元素是可选的,是否使用要视具体情况而定。元素主要包含以下子元素: < title>、、< image>、。一个RSS feed的基本语法如下:
  < rss version = "2 .0" >
  
  <!一channel的标题一>
  < description >

  
  
其他文献
摘要:Visual Basic程序设计语言(简称VB)是计算机相关专业学生的必修课。本文在总结实践教学经验的基础上,就如何给毕业班这个特殊群体上好VB课程,总结了几种有效的教学方法,尝试以创新精神和实践能力为重点的素质教育,为毕业班的VB教学提供了参考。  关键词:VB;毕业班;教学  中图分类号:G642文献标识码:A文章编号:1009-3044(2007)18-31765-01  Analys
期刊
摘要:本文对C/S、B/S两种软件体系结构进行了分析比较,论述了其在软件开发中的优势和劣势,认为C/S、B/S混合体系结构更适用于大型复杂系统的开发。最后,通过对其在数字化教学系统中的应用,进一步剖析了C/S、B/S混合体系结构的特点,及其在特定领域中的开发模式。  关键词:软件体系结构;CS与BS混合结构;数字化教学系统  中图分类号:TP311文献标识码:A文章编号:1009-3044(200
期刊
摘要:农产品质量安全备受人们关注,随着信息技术的不断成熟,如何利用信息技术提高农产品质量安全成为学术界研究热点。文章从知识管理角度,研究农产品安全知识转移模型,并使用Agent技术构建该模型,尝试为提高农产品质量安全提供一条途径。  关键词:农产品安全知识;知识转移;Agent  中国分类号:TP311文献标识码:A 文章编号:1009-3044(2007)17-31191-02  Researc
期刊
摘要:SAML 是一项基于XML的交换安全性信息的框架,实现Web单点登录和保证Web服务安全性是SAML最重要的用途。本文讨论了SAML实现这两个用途的方法。  关键词:安全断言标记语言;单点登录;Web服务安全  中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)17-31247-02  The Research Of Application Of SAML  HU
期刊
摘要:数据库核心字符集决定了数据在数据库中的存储格式。本文讨论了Oracle数据库核心字符集的设置方法及相关参数,并提出了核心字符集的修改方法。  关键词:Oracle;字符集   中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)17-31198-02  Discussion on Oracle National Language Support  TENG Yong-
期刊
摘要:电子病历是医院信息化发展的趋势,针对目前电子病历的不足之处,设计将其与PACS、RIS进行集成。用户在B/S模式的平台上,能够快速准确地查阅病人的医学影像,进而诊断、记录病情。该系统可以有效提高医生的工作效率。  关键词:电子病历;PACS;RIS;XML;B/S  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2007)17-31202-01  The Integra
期刊
摘要:安全电子交易SET是一个用于保护Internet上信用卡交易的加密与安全规约,它定义了多种事务类型,其中最重要的三种事务分别为购买请求事务、支付授权事务和支付获取事务,要求在理解SET协议关键事务的基础上,为了实现数据的互操作要求,采用XML作为消息的载体,设计与SET协议关键事务相关的XML Schema定义,要求能够完整准确地表达消息的各种要素。  关键词:SET;事务;XML Sche
期刊
摘要:本文重点介绍了NCRE上机考试网络环境中服务器的设置经验——使用windows 2000的命令编写的批处理文件设置服务器,同时,也简单介绍了手工设置和服务器设置程序设置,最后,对这些设置方法进行了比较分析。  关键词:NCRE上机考试;服务器设置;批处理命令文件  中图分类号:TP393 文献标识码:A文章编号:1009-3044(2007)18-31774-03  NCRE Install
期刊
摘要:在介绍MapObjects及其常用的坐标系对象基础上,针对全球矿产资源信息系统多投影坐标系并存的特点,采用其他GIS软件辅助完成坐标系的转换,同时利用MapObjects已有的坐标系对象,实现了该软件的图层转换、查询检索等功能。  关键词:MapObjects;全球矿产资源信息系统;投影坐标转换  中图分类号:TP391文献标识码:A文章编号:1009-3044(2007)17-31197-
期刊
摘要:在数据库管理系统中,图像数据技术一直致力于解决海量数字图像的有效存储和管理问题,这是一项非常复杂的技术,具有重要的实用价值和经济价值。笔者在DELPHI 开发环境中,针对SQL Server数据库关系表中BLOB图像数据的存取问题进行了初步探讨,提出了一套基本解决方案,供读者参考。  关键词:BLOB;图像数据;图像存取  中图分类号:TP311文献标识码:A 文章编号:1009-3044(
期刊