感动Hadoop平台的教育资源垂直搜索系统的设计与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户:qy19871120wr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。   本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要工作包括:   (1)通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。   (2)基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。   (3)研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。   (4)以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。
其他文献
随着科学技术的发展以及现代社会工业自动化程度越来越高,视频监控技术的应用范围已经从最初的工农业生产,交通运输,安防等行业扩大到一些对视频监控有特殊要求的场合,而且对
随着人类基因组计划的成功实施和现代分子生物学的蓬勃开展,给人们留下了海量的生物学数据,并把人们带入了后基因组时代。由于后基因组时代生物学数据的大规模性,及数据之间
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。在众多钓鱼防范技术中,利用URL
本体作为表达知识的共享概念模型,被广泛应用在诸多领域。即使在同一领域内,领域本体间也不可避免地出现相同概念有着不同的定义、概念重叠等问题,造成本体异构,给领域本体间的交
随着空间信息技术、大气物理学等学科的迅速发展,人类对宇宙的探索不断深入,宇宙中的各种潜在的对人类危害也逐渐显露。太阳风就是其中一种人类了解甚少而危害巨大的宇宙现象
随着人体运动数据采集技术的进步,用数据表示的人体运动的研究越来越受到人们的关注。人体运动的研究在医疗康复、模拟场景、以及影视等领域有着很大的应用空间。本文的研究
以Internet为代表的计算机通信网络正在成为全球信息系统越来越重要的基础设施。安全电子邮件、电子政务、电子商务以及电子银行的广泛应用和发展对互联网提出了更高的安全性
遗传算法最初是由美国的Holland提出的,后经Goldberg总结得出其基本框架结构。它可以解决现实生活中的许多问题,如生产调度问题、组合优化、函数优化、图像处理、机器人学、
安全群组通信是一个十分热门的研究领域,其中组播密钥管理机制的研究是最重要也最具有挑战性的工作。本文重点研究面向安全群组通信的组播密钥管理方案,在充分研究各类组播密
矿业生产中压风机是不可缺少的设备,现场压风机房环境恶劣为压风机司机工作带来困难。本文主要研究了压风机的监控保护和压风机组的调度,通过计算机房远程集中监控,对于压风机运