多核平台下并行XML解析性能优化研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:ndhlps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web和企业信息化等领域,XML已经被接受为一种标准的信息交换格式。XML的自描述,与平台无关的特性使得它被用作不同系统间通信的数据格式,如用于Web Services中SOAP消息的载体。但是,XML消息的冗余,结构过于灵活等特点也给软件开发人员带来性能方面的很大挑战。   XML解析器读取文件使得其中的数据能够被上层应用和编程语言进行操作和处理,XML解析是对XML处理的主要性能瓶颈之一。多核平台下基于数据并行的并行XML解析已经被提出。但是,由于XML的非规则特性和多核平台上解析程序低效的内存访问,并行XML解析的整体性能和扩展性不高。   XML解析并行化性能提高的主要障碍之一是数据依赖造成的高同步开销。本文在系统分析的基础上,定义了XML解析正确性的两个依赖关系:命名空间依赖和位置关系依赖。通过对标准规范的和具体的实例分析说明了这两个依赖关系是正确解析的充分条件。   为了具体研究XML解析过程的访存模式及其存在的问题,我们分析了目前广泛使用的libxml2解析器的内存管理机制,发现在多核平台上内存复用率低,管理开销大以及处理器核间访问频繁等两大特点。本文提出了基于线程环境可感知的内存复用管理机制解决了上述问题,提高性能最高可达26.4%。为了对比研究的需要,实现了基于现有并行XML解析模型PXP的方法:基于阶段的并行XML解析方法(Stage based Parallel Parsing,SBPP)。   为了更进一步提高多核平台CPU利用率和内存访问效率,本文提出了阶段重叠的并行XML解析方法(Stage Overlapped Parallel Parsing,SOPP)。该方法通过预解析和解析阶段的线程间时间重叠,线程内空间重叠,提高了CPU利用率,减小了低效的内存访问。通过与SBPP的性能比较,SOPP的加速比在Dell1900(2*Intel Xeon5310)和Sun Fire1000(1*Sun Ultra-Spare T1)上分别提高了50%和33%。本文同时对(1)输入数据集大小;(2)上下文切换机制,动态内存管理机制;(3)硬件平台cache结构,硬件线程的支持等三个方面对SOPP性能,扩展性方面的影响进行了分析和评价。结果表明SOPP从这几个方面验证了设计目标,从而表现出良好的性能和扩展性。
其他文献
电子邮件(Electronic Mail,E-Mail)是目前使用最广泛的互联网应用。随着互联网络以惊人的速度增长,电子邮件成为发布恶意信息的一个重要途径,垃圾邮件已经成为危害互联网络的最
多年的企业信息化建设,企业内部已经建立许多分散孤立的应用系统,随着业务规模不断扩大,集成已经成为当今企业的迫切需求。但是企业应用一般都由运行在不同操作系统,多个层面
本文的研究工作是围绕综合型语言知识库建设展开的,包括两部分:综合型语言知识库系统原型的开发与中文缩略语知识库建设。 北京大学计算语言学研究所(ICL/PKU)十多年来积累
随着互联网上相同或相类似功能的Web服务数量的日益增多,用户对Web服务服务质量QoS的要求也不断提高。在实际应用中,服务提供方、服务使用者、服务质量等诸多因素的不确定性
随着高性能计算技术的迅猛发展,机群系统在航空航天、石油勘探、气象预测等领域的应用越来越广泛。在2007年11月全球高性能计算机Top500排名中,机群系统结构占总数的81.20%,并且
随着定位技术的不断提升和定位设备的大量普及,获取人与物体的位置信息变得愈加便捷。与此同时,随着物联网(Internet of things)技术的不断成熟,通过海量的传感器定时发送相关数
近年来,随着计算机网络与通信技术的快速发展,P2P网络模式以其可扩展性、高度容错性等突出优点变得越来越流行。在仅有的几年时间里,P2P应用已发展成为了占用Internet流量的
计算机的使用越来越普及,但信息安全缺陷所引发的问题却越来越显著。因此,在生产生活中对信息安全产品、科研、教育和培训的需求越来越旺盛。随着信息安全相关的产品开发、研究
无线传感器网络的应用前景十分广阔,能够广泛应用于军事、环境监测、医疗健康、交通管理以及商业应用等领域。虽然传感器节点有着各种各样不同的应用,但这些应用对传感器节点有
机群I/O设备共享是机群管理的一个重要部分。目前占市场主流的基于纯软件系统实现机群I/O设备共享的方式在系统的跨平台特性,可扩展性,对服务器资源的占用等方面存在不足。随着