基于可扩展分布式架构的高校搜索引擎研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:java777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高校信息系统的信息量随着互联网技术的迅速发展,呈爆炸趋势增长,它的资源日趋丰富,应用范围也在不断扩大。经爬虫检测,从东华大学网站首页进入可到达的Web网页即超过10万篇,而广大师生对信息的需求还不仅如此,校外的精品课程信息、入学招生信息都可以纳入师生的需求范围。这就增强了高校师生对搜索技术的依赖性,搜索引擎成为了师生获取知识信息的工具,也成为高校网站中使用率最高的工具之一。本文结合东华大学对于信息检索的需求,并考虑到今后快速不断增加的信息量与访问量,研究了搜索引擎基本原理与分布式系统基本原理,并基于Linux系统,结合开源软件提出了一个分布式架构,这个架构具有很好的可扩展性,可随着用户数量和网页数量的不断增加而轻易的扩展其系统性能,无需中断服务。作为一个理论与实践相结合的研究课题,本文的主要工作和研究成果包括:1.搜索引擎基本理论和算法的研究,包括爬虫的算法和架构、中文分词算法、倒排索引的结构和建立方法、搜索结果排序算法等。2.分布式系统理论研究,包括负载平衡算法、分布式缓存、MapReduCe计算模型等。3.提出具有爬虫子系统、预处理子系统、查询子系统的东华大学搜索引擎架构的设计方案,其中使用Lucene作为倒排索引的建立和检索框架,使用中科院ICTLAS组件作为中文分词工具。着重解决了爬虫子系统中URL解析和扩展队列问题、Lucene中文分词扩展问题和搜索结果的排序评分算法。4.提出分布式架构的设计,包括使用LVS构建负载均衡集群、使用Memcache构建分布式缓存系统以及使用Map/Reduce分布式计算模型将Lucene改造为分布式索引存储。整个分布式架构具有很好的可扩展性,可随着系统的内容和用户数量的增加,扩展其计算能力而不必中断服务。5.按照上述架构设计开发实现东华大学搜索引擎,并对分布式搜索的性能和准确度进行实验评价。
其他文献
目的 建立常见真菌的随机引物扩增多态DNA(RAPD)指纹图谱。方法 以标准株真菌的基因组DNA为模板,采用(AC)10,(GTG)5,AP3和M13等4种RAPD引物扩增产物条带组合,建立特征性指纹图谱,并
油田生产企业压力容器由于在用时间长,工作环境恶劣,操作人员等因素,使得压力容器操作过程存在一定的风险。对采油岗位进行分类,按岗位特点有针对性的进行培训,从岗位操作内
糖尿病肢体动脉闭塞症是一种常见疾病,主要病理变化是肢体动脉内膜出现粥样斑块、中膜变性或钙化、腔内继发血栓形成,最终使管腔狭窄,甚至完全闭塞。由于缺乏有效的治疗措施,
本研究结合国内外相关文献报道,综述了PFCs在我国及其他国家和地区的水体、沉积物中的浓度分布情况,报道了不同地区或采用不同研究方法得出的PFCs的相间分配系数,并对影响相
目的探讨小建中汤合膈下逐瘀汤对慢性萎缩性胃炎的治疗效果,以供临床参考。方法选择2010年10月至2013年3月我院慢性萎缩性胃炎患者150例作为研究对象,均接受小建中汤合膈下逐
基于灰色理论和马尔科夫理论,建立传统的灰色预测模型和灰色马尔科夫预测模型,对西安地铁客流量的数据进行分析预测;然后对原始数据序列滑动平均处理,再用无偏GM(1,1)模型拟
目的探讨早期糖尿病肾病患者血糖、肾小球率过滤(GFR)、NAG酶与尿泛素核糖体结合蛋白52(UBA52)的关系。方法选择新疆医科大学第五附属医院住院患者101例,分为正常对照组(n=22
云南护国起义爆发以后,袁世凯根据其三路出兵“征滇”的罪恶阴谋,唆使龙济光、龙觐光广东粤兵进犯滇东南境,二龙又策划了滇南叛乱,企图破坏护国起义的根据地云南。对此,云南
目的:研究颞下颌关节盘前移位对生长期兔髁突软骨印度豪猪蛋白(Ihh)和甲状旁腺相关蛋白(PTHrP)表达的影响,探讨关节盘前移位与下颌骨髁突生长发育之间的关系。方法:取3个月龄