Web数据挖掘中XML技术应用研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:po54321s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]Internet 的出现使计算机拥有海量的信息资源,而其中蕴含的知识却未能得到充分的利用,为此,Web 挖掘技术成为当前高科技领域研究的热点。随着计算机和网络技术的发展,基于数据库表的数据挖掘已经不能满足需要;面对基于Internet 上的“信息海洋”,我们需要提取有用的、可以指导决策的知识。XML技术能够使不同来源的结构化数据很容易地结合在一起,从而使得搜索多样化、不兼容的数据库成为可能,为Web 数据挖掘带来了新的契机。
  [关键词]Web数据挖掘;HTML;XML
  中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2014)47-0257-01
  1、Web数据挖掘
  Web数据挖掘是对Web信息进行分析整理、提取有效信息的过程。一般,数据挖掘又称为数据库知识发现(Knowledge Discovery in Database, KDD)。对网络信息进行挖掘的关键在于网络信息的提取;与传统数据挖掘相比,Web数据挖掘具有以下特点:一、Web数据挖掘的对象是丰富的、异构的、分布的;二、Web数据挖掘在逻辑上是由一个文档节点和超链接构成的图;三、Web文档的半结构化或结构化决定了传统数据挖掘技术需要对Web数据进行预处理才能够应用。
  根据Web数据挖掘处理对象的不同,Web数据挖掘可分为Web内容挖掘、Web结构挖掘、Web使用记录挖掘,Web用户性质挖掘四类[1]。
  2 XML技术
  XML技术[2]是基于HTML技术的一种规范简化的技术,是一种结构化的解析语言。相比较HTML用来显示数据,XML用来传输和存储数据。在XML技术中,可以将内容和显示样式分离,对相同的内容以不同的样式显示,这就增强了XML技术的兼容性。XML技术在数据挖掘中的作用不仅仅在于信息内容的显示,而且关键在于网络信息的提取,这是利用XML技术进行数据挖掘的关键。XML技术将内容与显示分离。在XML中,标记的显示方案是在XML文档中附带的、用户编写的样式单中定义的。即标记的显示方案既不是由XML文档本身、也不是由浏览器确定的。XML中的标记只描述文档的内容,不描述显示方案。这也是XML与HTML的最大一个区别。内容与样式的分离使XML可以跨平台共享,也提高了文档输出的灵活性。这也对Web数据挖掘提供了一种便利,一种更高效的方法。
  3 HTML与XML的转换
  已有的数据大部分都是以HTML格式进行约束显示的,对此,我们需要先对HTML格式的数据进行转换[3],转换为XML方式的数据,因为XML数据有很好的结构性,对进行下一步的挖掘提供了便利。目前,已经有很多对HTML代码进行转换为XML数据格式的工具,主要有Tidy工具等。同时,工具的好坏也影响着进行下一步的数据挖掘。
  4 基于XML数据挖掘
  传统的数据挖掘是对关键字和词条进行搜索。根据文本的关键字或者文中出现的词条进行比对,从而确定挖掘的内容符合度。对词条进行出现次数统计,可以得出相似度。相似度越高,产生的结果就越准确。对于当前的Web信息,大部分是html语言编写的,结构上不是特别清晰,故而无法准确对信息进行分类查询。但是,如果针对的是XML语言规范约束的网页,具有很强的结构性,可以根据规范的标记来确定所要查询的内容所在点,降低了查询范围,提高了查询的速度,同时也提高了查询的准确度。
  5 基于XML数据挖掘模型
  5.1 基于XML数据挖掘模型的原理
  本模型中,思想是把现有的、已经查询到的Web页面转换成XML格式,利用相关的方法对XML结构的数据进行抽取,改正HTML中出现的常见错误,生成格式规范、有效性高的等价文档。在这个过程中,可以利用相关语言编写构造一个类来完成Web数据从HTML格式到XML格式的转换,以及与XML相关的任务。数据抽取的过程[4]如图1所示。
  (1)数据库是组成Web信息所有各种异构数据信息。
  (2)对万维网上的信息进行查询,会得到一个没有经过进一步处理的XHTML文档集。
  (3)对于一般的HTML文档,找到一个确定的标记,例如,就确定了内容的主体位置。利用tidy工具,对XHTML文档中的Table标记的内容进行抽取。得到一个新的XHTML文档。
  (4)对上面步骤得到的新XHTML文档进行下一步的标记转换,这是关键的一步。在进行这一步之前,我们要先创建实际抽取数据的代码。这个代码将以XSL文件的形式出现。
  5.2 系统模型
  5.2.1逻辑架构
  在Web Web挖掘模型的结构有三个逻辑层次[5],分别为:数据挖掘层、数据存储层、数据获取层。
  (1)数据获取层是对数据源进行采集。采集的对象主要有HTML文档、XML文檔,甚至包含网站的日志数据。
  (2)数据存储层主要应用于数据的存储。在对挖掘来的元素进行XML转化后,需要将转化的文档进行存储,并进行合并,由XML统一管理这些文档。
  (3)数据挖掘层是本模型的最终目的。在这一层,系统将应用大量的挖掘算法挖掘有用的信息,完成挖掘任务。
  5.2.2 基于XML的Web页面数据挖掘子系统[6]
  Web页面信息都包含了结构信息和文本信息两部分。对于得到的页面需要从两个方面进行挖掘。一方面是文本内容上,另一个是从Web页面链接上。在基于XML的Web页面数据挖掘子系统中,需要注意以下几点。
  (1)数据筛选。在初级搜索得到的数据中,需要摒弃无用的HTML文档,再将剩下的有用文档进行XML格式转换。
  (2)文本分类。在筛选之前,可以根据用户挖掘主题将数据进行一个分类,利于用户的挖掘。这个技术叫文本分类技术,目前主要有BAYES、LLSF、SVM、KNN等方法。
  (3)文本聚类。文本聚类与文本分类正好相反。文本聚类是将内容相似的文本进行聚合,组成簇集。不同的簇集要求尽可能的降低相似度。
  5.2.3 基于XML的Web访问日志数据挖掘子系统
  Web访问日志是拥护访问Web页面产生的一系列记录。通过对Web访问日志的挖掘,可以有效的缩短数据挖掘的速度。在基于XML的Web访问日志数据挖掘子系统中,需要注意已下几个方面。
  (1)数据精简。Web日志中记录的数据是非常繁杂的,不仅仅包括用户访问的内容,还包括访问的路径,地址IP等。在挖掘中,路径地址,图片等是不需要的。因此,需要对这一部分信息进行剔除。
  (2)会话识别。这一功能是用来识别用户是否对同一页面进行了多次访问。
  (3)路径挖掘。当用户访问的链接与网站设计的链接一致时,这个结果正好是用户需要的。因此,可以对用户浏览的路径进行挖掘。
  (4)建立一种自适应的网站。自适应网站是一种特殊的网站,网站可以根据不同的用户呈现不同的网页。这种网站需要相关的聚类算法的支持。
  5.3 结论
  基于XML的Web数据挖掘技术不仅可以解决当前的信息危机,而且可以对未来信息增长提供一个发展的平台。但是,对Web数据的挖掘重点在于非结构化或者半结构化的数据的挖掘,这一点需要强有力的相关算法的支持,这将是该技术需要不断完善发展的重点。随着数据挖掘技术的不断完善,应用领域的不断扩展,XML技术将渗透到各个领域中去。
  参考文献
  [1] 苏燕,梁武.基于Web数据挖掘的研究与应用[J].软件导刊,2014(1):131-132.
  [2] 张建飞.XML使用培训教程[M].北京:科学出版社.2003:4-12.
  [3] 钱程,阳小兰.HTML到XML转换研究[J].计算机与现代化,2011(8):39-41.
其他文献
[摘 要]电力用户用电信息采集系统(以下简称采集系统)是智能电网建设的重要组成部分,是构建智能电网的必然要求,采集系统为国家电网公司实现电力营销现代化提供重要的数据支撑,是电网公司建设坚强智能电网的重要内容。文章对影响其信息采集成功率进行简要的分析,并结合个人实际工作经验提出一些提高用户用电信息采集系统采集成功率的方法,仅供参考和借鉴。  [关键词]电力用户用电信息采集系统;成功率;措施  中图分
期刊
[摘 要]本文结合《自动扶梯和自动人行道的制造安装安全规范》谈及了防逆转保护装置在自动扶梯中的应用,并对现有使用中的自动扶梯的防逆转保護装置所存在的缺陷提出个人的意见。  [关键词]防逆转;安全装置;工作原理  中图分类号:TU857 文献标识码:A 文章编号:1009-914X(2014)47-0251-01  1 引言  随着时代的不断发展,科技的不断进步,电梯已经成为人们生活中必不可少的“交
期刊
[摘 要]本文结合LG MASTERK系列可编程控制器及XGT系列文本显示器的特点,通过详细具体的湿喷机控制程序,系统的阐述了湿喷机如何在PLC控制下自动运行以及数据的在线检测。  [关键词]可编程控制器 文本显示器 湿喷机  中图分类号:TP273;TU69 文献标识码:A 文章编号:1009-914X(2014)47-0241-02  0 引言  针对PLC可编程逻辑控制器体积小、性能稳定、组
期刊
[摘 要]图书馆是教师和学生汲取营养、补充能量的加油站。随着经济的快速发展和科学的不断进步,人们对于知识的需求量也越来越高,图书成为了人们日常消遣、工作所需的必备品。随着图书种类的不断增加,传统的图书管理办法已经不能高效率的完成图书的借阅、查询、登记等需求。所以对于图书的管理,广泛应用计算机技术不仅能节省人力、物力,还大大提高工作效率和服务质量,为师生营造一个好的文化氛围。  [关键词]图书管理系
期刊
[摘 要]本文介绍了116-1500伸缩管的结构,保养流程以及其在套管井中的应用。作为井下作業管柱的关键配套工具,主要用于管柱中调节由于温度或压力变化而引起的油管长度的变化,从而避免管柱因轴向载荷变化过大而出现的危险,便于在斜井等特殊井中进行开关井操作,应用前景较为广泛。  [关键词]伸缩管;结构;保养  中图分类号:TG333 文献标识码:A 文章编号:1009-914X(2014)47-025
期刊
[摘 要]电能质量不断进入人们的生活,生产。为了确保电力发展更加趋于完善,必须采取必要的措施,对电压偏差、频率偏差、谐波偏差、电压波动和闪变、三相电压不平衡等问题进行处理,使其趋于理想化,才能满足不同的需求。  [关键词]电能质量;分析;技术研究;实践;支持向量机  中图分类号:TM711 文献标识码:A 文章编号:1009-914X(2014)47-0254-01  在电力系统发展的早期,地理负
期刊
[摘 要]随着科学技术的不断进步,人们对于生活质量和品质的要求越来越高。在这样的形式背景下,智能家居应运而生。当下,用于人们生活节奏的不断加快,人们对于实现智能家居远程控制有着迫切的需求,无线技术正好填补了智能家居远程控制这部分的空白,因此,通过开发一款手机app来实现智能家居的远程控制成为了时代发展的趋势。基于无线技术的智能家居远程控制为更多人所了解。关于其研究也有着越发重要的价值和意义。本文基
期刊
[摘 要]状态估计的核心部分是状态估计算法,随着电力系统规模的不断扩大,电力工业管理体制向市场化迈进,对状态估计有了新要求,各种新技术和新理论不断涌现,为解决状态估计的某些问题提供了可能。本文就电力系统状态估计算法的研究现状和进一步的研究方向进行了综合探讨。  [关键词]电力系统;状态估计;算法;趋势  中图分类号:TP315 文献标识码:A 文章编号:1009-914X(2014)47-0248
期刊
[摘 要]能见度自动观测是自动化观测的一部分,取代人工观测已是大发展、大趋势,自动化能见度观测仪具有连续性、稳定性等特点,减少了人力劳动。本文主要对观测数据的同步性、一致性、误差等方面进行了对比分析,对向前散射能见度仪在不同的能见度状况下表现出不同的特性及产生误差的原因进行对比。  [关键词]能见度 人工 观测 对比  中图分类号:P412.17 文献标识码:A 文章编号:1009-914X(20
期刊
[摘 要]雷电是国际电工委员会(IEC)定义的“信息时代的一大灾害”。随着社会经济的快速发展和科技进步,雷电的危害和影响也日趋严重。安装接闪杆是电气系统和电子信息系统中使用广泛、性价比最高的一种重要的防雷技术,是保护电气和电子信息设备免遭雷击损毁的重要手段。本文采用防护直击雷的接闪杆作为研究对象,在其接闪瞬间对其进行电场数值分析,为更好防护雷电伤害,减少雷电灾害,保证人民人身及生产生活安全,服务社
期刊
期刊论文Web数据挖掘中XML技术应用研究发表于2014年47期中国科技博览作者牛彦成,本篇论文的所有权归原作者牛彦成所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。