论文部分内容阅读
近年来,高校信息系统的信息量随着互联网技术的迅速发展,呈爆炸趋势增长,它的资源日趋丰富,应用范围也在不断扩大。经爬虫检测,从东华大学网站首页进入可到达的Web网页即超过10万篇,而广大师生对信息的需求还不仅如此,校外的精品课程信息、入学招生信息都可以纳入师生的需求范围。这就增强了高校师生对搜索技术的依赖性,搜索引擎成为了师生获取知识信息的工具,也成为高校网站中使用率最高的工具之一。本文结合东华大学对于信息检索的需求,并考虑到今后快速不断增加的信息量与访问量,研究了搜索引擎基本原理与分布式系统基本原理,并基于Linux系统,结合开源软件提出了一个分布式架构,这个架构具有很好的可扩展性,可随着用户数量和网页数量的不断增加而轻易的扩展其系统性能,无需中断服务。作为一个理论与实践相结合的研究课题,本文的主要工作和研究成果包括:1.搜索引擎基本理论和算法的研究,包括爬虫的算法和架构、中文分词算法、倒排索引的结构和建立方法、搜索结果排序算法等。2.分布式系统理论研究,包括负载平衡算法、分布式缓存、MapReduCe计算模型等。3.提出具有爬虫子系统、预处理子系统、查询子系统的东华大学搜索引擎架构的设计方案,其中使用Lucene作为倒排索引的建立和检索框架,使用中科院ICTLAS组件作为中文分词工具。着重解决了爬虫子系统中URL解析和扩展队列问题、Lucene中文分词扩展问题和搜索结果的排序评分算法。4.提出分布式架构的设计,包括使用LVS构建负载均衡集群、使用Memcache构建分布式缓存系统以及使用Map/Reduce分布式计算模型将Lucene改造为分布式索引存储。整个分布式架构具有很好的可扩展性,可随着系统的内容和用户数量的增加,扩展其计算能力而不必中断服务。5.按照上述架构设计开发实现东华大学搜索引擎,并对分布式搜索的性能和准确度进行实验评价。