教育资源网格的分布式Top-k全文检索算法

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户:hgs061268109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  为了满足教育资源网格用户的资源检索需求,考虑教育资源网格的节点组织模式和资源分布特点,提出了一种基于单维语义向量组的分布式Top-k全文检索算法。该算法通过改进经典的VSM模型,利用教育资源网格中管理节点构建单维语义向量组,资源节点直接计算文档资源和检索向量的全局语义相关度,结合文档本身质量进行Top-k评分,实现了在分布式环境下的全文信息检索;提出一种结合检索向量语义相关度和节点属性的Top-k阈值策略,在保证检索结果有效性的前提下,提高了分布式Top-k检索的效率。实验表明,该算法具有较高的查全率、查准率、正确率以及较高的检索效率。
其他文献
在科学计算和数据分析中,存在着许多重要的迭代式应用,这类应用的输入数据和中间数据常存在一定的数据偏移现象,在类MapReduce系统上运行时,往往会因负载不均衡而产生Straggler,即执行时间显著地长于其它同类节点的节点(Map节点或Reduce节点)。例如,在PageRank[6]应用中,是以Web站点名作为Key的,如果某个站点的超链接数远远大于其它站点,那么对这个站点进行计算的节点的计算
目前随着多核处理器蓬勃发展,软件尤其是编译器面临着巨大的挑战和机遇,链接后优化器作为一种优化辅助工具,可以在编译链接后对整个程序进行再优化,它克服了传统编译优化的局限,并且充分利用了链接后确定信息,本文参考Arizona大学为Alpha处理器设计的链接后优化器ALTO,提出了面向多核的链接后优化器整体设计框架,并重点分析了相关的几种链接后优化技术。
HPL是Linpack Benchmark 的并行版本, 是高性能并行计算机系统性能评测的标准测试程序。将HPL原有算法进行改进,使HPL分解部分的离散访存量部分转化为连续访存量,在超级计算机领域越来越高的计算访存比趋势下,具有十分重要的意义:使得HPL能更好地反映任何机器的浮点性能。
归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax函数为例对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU和N
线弹性理论广泛应用于结构分析与工程设计,与之对应的线弹性问题亦为工程与科学计算研究的重要对象。本论文首先提出线弹性问题模型。然后,详细介绍一种适用于求解线弹性问题的可扩展并行一水平和两水平区域分解算法。最后,给出一些相关数值实验结果,其验证了方法的可行性与适用性。
多核处理系统已成为当前业界的主导,然而,多核处理器软件编程环境和编译器的开发却相对滞后。本文提出了一个编译框架,该框架将数据并行程序直接映射到异构多核系统上。基于分布式存储模型,编译器执行数据对齐、数据分布、计算分布,并为应用生成SPMD并行代码。与其它工作不同,本文的框架通过管理程序的数据布局来提高数据局部性。实验结果表明本文的编译框架能够高效地将应用映射到异构多核处理器上。
随着虚拟化技术的广泛使用,虚拟机中域间通信问题日趋重要。传统的域间网络通信通过完整的网络协议栈发送数据,并设有针对通信双方处于同一台物理机器上不需要经过物理网络的特点进行优化。这导致域间网络通信速率非常低下,使得域间通信速度成为一些通信密集型应用的的瓶颈。本文在Xen平台上实现了一种基于共享内存的域间通信方法,该方法简化了域间通信的过程能大大提高通信速度。实验证明该方法能够将Xen的域间通信速率提
随着高性能计算机系统规模的扩大,功耗已成为阻碍高性能计算机系统发展的主要瓶颈之一。调度系统作为系统软件的组成部分,在系统级功耗优化方面发挥着重要作用。目前,对节能调度的研究逐渐增多。本文首先对高性能领域中的不同节能调度策略进行了分类阐述,然后介绍了能效的主要评价指标。最后,总结并展望了该领域未来的研究发展方向。
基于网络的分布式设备远程故障诊断专家系统是发展的趋势,本文在介绍云计算的概念和基本原理的基础上,提出了一种基于云计算的设备故障诊断专家系统方案,并详细介绍了方案的设计思路。本方案的设计提高了设备状态监测、故障诊断的效率,降低了状态监测中的资源浪费。
本文介绍了一个并行可扩展程序,它使用间断有限元方法数值模拟三维多相流问题。程序中采用的算法是利用多相流方程的特点,在一个时间步里将求解压力和求解饱和度分开,首先联立方程组消去饱和度来单独求解压力;在压力已知的情况下,再来显式求解饱和度;然后使用迭代的方法最终确定这个时间步里的压力和饱和度。我们的程序是基丁二维并行自适应有限元平台 PHG实现的,采用非结构四面体网格对计算区域进行划分,实现了LDG(