一种基于硬件的XML解析方法的设计与实现

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:zhushaoxiang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(Extensible Markup Language,可扩展标记语言)是一种使用标记标记内容以传输信息的简单方法,由于它的可扩展性和跨平台特征,在web服务器和数据库系统中得到了广泛的应用,已经成为了数据描述和交换的标准。然而,相对于现在企业级服务器GB级的数据吞吐量,基于软件的XML解析无法达到所要求的吞吐量,对网络性能来说,这已成为一个严重的瓶颈。如今,开发一种能够替代软件解析XML的方法已成为必须。本文通过对XML解析的理论分析以及四种解析模型的对比,最后提出了一种基于DOM解析模型的硬件解析XML的方法。它主要包括四个重要的模块:词法分析模块、格式良好检查模块、DOM树构建模块和Schema验证模块。词法分析主要是对输入的XML字符做出相应的标记,从而识别出元素名、属性名以及文本内容,通过使用一个FSM实现。格式良好检查主要是对XML文档进行语法检查,包括元素名检查和属性名检查,在元素名检查中,主要使用栈结构对元素名字符进行匹配,而属性名检查主要是检查同一元素的属性名唯一性,本文使用一种名为布隆过滤器的高效随机存储结构,可以快速的判断当前的元素是否已经出现过。DOM树构建模块独立于格式良好检查模块和Schema验证模块,它是对整个XML文档的信息建立一棵树形结构,主要包括元素名节点、属性名节点、元素内容节点和属性内容节点四种节点类型。Schema验证是对XML文档中的元素和属性与Schema文档中所定义的规则进行匹配来验证XML文档的合法性,由于Schema文档定义的规则比较固定,在解析之前,首先对Schema文档进行预处理,将它定义的规则制作成一个静态表存储在本地内存中,这样在进行解析的过程中可以直接通过查询表寻找相应的规则。最后通过大量的实验,验证了本文的硬件解析方法较软件解析方法拥有很高的加速比,此系统的吞吐量可以达到1.2Gbps。所有的实现都是在FPGA硬件环境下测试与仿真的。
其他文献
本文基于TSAPI通信协议,根据典型呼叫中心的特点和需要,设计并实现了基于TSAPI的呼叫中心话路监控及报表模块,有效支撑了整个呼叫中心平台的顺利运行。本文根据典型呼叫中心的架
智能规划是人工智能的一个重要领域,不确定规划是智能规划的一个重要分支,它比经典规划更具有现实性。近年来,很多研究人员对基于模型检测的不确定规划进行了大量而深入的研究并
三维心脏体数据可视化利用计算机强大的运算处理能力和图形表达能力,将心脏数据以人类能够通过视觉来感知的方式表现出来,绘制出表面特征清晰、层次分明的组织器官,同时能够
项目反应理论(IRT)在潜在特质理论的基础上发展起来的,与传统的经典测量理论(CTT)相比,有能力估计独立于样本、项目参数估计更为准确等优势。计算机化自适应测验(CAT)则是IRT在人工智
网络节点具有移动特性的无线传感网络是未来传感网络的发展方向,大量传感器节点分层部署在待监测环境中,各层节点根据其功能大小担任着不同的网络任务。其中,普通感知节点与具有
图像融合是将同一场景的多幅图像进行综合以得到关于该场景更加准确描述的信息处理过程,而基于小波分析的多源图像融合是该领域的研究热点之一。本文研究了基于小波变换的像素
数据流模型在许多应用中广泛出现,其特征是数据速度快、规模大、实时性强且数据单遍访问。同时由于设备精度、传输丢失、周围环境干扰、设备故障、隐私保护和不同系统之间的集
在计算机网络和信息安全迅速发展的今天,P2P网络技术得到了广泛应用。由于P2P体系结构的开放性,使网络中各个节点间的信息传递和文件共享面临较大的安全威胁。因此,保证P2P网络
从上世纪末至今,对等计算(P2P)及其应用发展迅速。现有的P2P网络模型主要有集中式P2P、全分布式非结构化P2P、全分布式结构化P2P和半分布式P2P等。本文主要对混合层次化P2P(HP
在市场经济条件下,银行要走向成功,就必须建立一套完善的培训、考核、人员管理方面的激励机制、分配机制和用工机制。虽然总分行制定了各类考核办法,但是由于没有一个科学的