DOM解析器OnceDOMParser的设计与实现

来源 :中国科学院软件研究所 | 被引量 : 8次 | 上传用户:xuyixinsiboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)是一种广泛使用的标记语言,用来定义各种XML文档,应用于Web数据传输、数据集成、文档存储等场合。DOM(Document Object Model)是W3C组织定义的一种XML文档处理模型,其比较简单,有统一的规范,不依赖于特定的XML解析器,同时在工业界拥有若干功能完善的实现者,因而得以普遍应用。JDK(Java Development Kit)1.4在JAXP(Java API for XML Processing)中也定义了专门的接口来支持DOM。 本文充分考虑了DOM模型的特点,设计和实现了一个高性能的DOM解析器:OnceDOMParser。在设计OnceDOMParser的时候,主要从两个方面着手来提高性能:减少JVM(Java Virtual Machine)中小对象的数量和数据的延迟装载。我们设计和实现了“用户堆”来存放程序中用到的数据,从而减少JVM中对象的数量,降低其管理大量对象带来的额外开销;同时针对DOM模型中大量的集合对象,我们采取了“紧凑存储”的方式,将多个集合对象存放在一个数组中,可以减少JVM中数组的数量和空间的浪费。另外,对于DOM模型中经常使用的查询结果,我们采用延迟加载的方式,在用户真正访问结果中某项数据的时候再去DOM模型中执行查找。 为了测试OnceDOMParser的功能,本文实现了XML兼容性测试程序,该程序扩展了JUnit自动化测试框架,可以针对两千多个XML文档自动地测试OnceDOMParser与XML规范的符合程度。同时,本文也实现了DOM兼容性测试程序,用来测试OnceDOMParser与DOM规范的符合程度。 本文最后使用Sun公司的XML性能测试工具XML Test测试了OnceDOMParser和目前广泛使用的Xerces解析器,比较二者的性能,最终发现前者的性能比后者高出10%左右,因而说明了OnceDOMParser的设计和实现对于性能的提高是切实有效的。
其他文献
随着计算机技术的高速发展,企业的应用系统和以往相比,有了很大的进步。企业级的应用不再局限于以往的单机系统或简单的客户端/服务器系统,而是逐渐向着三层、多层体系结构的分
Web数据库技术是Internet技术和数据库技术共同的发展方向,也是Internet应用研究的关键。WWW是Internet上最主要的信息服务方式,WWW系统和数据库是网络化信息服务的基础,数据库
分布式对象技术的出现弥补了传统分布计算技术的固有缺陷。经过几年的发展,分布式对象技术逐渐走向成熟。Sun公司提出的EJB模型作为最新的分布式对象计算模式,为开发服务器端的
聚类是知识工程和模式识别中一个重要的研究领域,在对大量数据进行分析和处理时有其独特的地位。聚类领域方面的研究经过上世纪80到90年代的突飞猛进的发展之后,产生了种类和用
本论文是基于HLAC4ISR军用通信网仿真预研课题的一部分,C4ISR是指挥、控制、通信、计算机、情报、监视、侦察。C4ISR是一个复杂的系统,其中包括军用通信网系统。本论文是这个复
用户界面向着更加自然、个性化、智能化的方向发展,其发展趋势很大程度上取决于用户的现实需求和计算机技术的进步这两个推动力。人机交互研究者比以往更加关注认知科学,希望建
随着软件技术的发展,传统的面向功能开发方法己渐渐不适应越来越复杂多变的需求。目前,面向对象的开发方法己经成为软件开发的主流技术。统一建模语言(UML)是一种对面向对象系
数据挖掘作为一种融合了人工智能、数据库和数理统计等学科特点的新兴技术,与机器学习和统计学习密切相关。它是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。分类规
电子商务必须建立在信息的获取和发布都能够及时、准确、全面的基础上。然而,电子商务中的信息纷繁复杂,交易过程的反复,严重地浪费了网络的带宽,传统的基于客户机/服务器技术的
论文首先介绍了应用软件的结构从传统的两层C/S结构到以B/S为代表的三层甚至多层结构的发展过程。论述了两层C/S结构的在多用户、多数据库情况下的局限性。研究和分析了B/S三