基于Nutch的中文搜索引擎研究与实践

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:ericwu8756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,互联网上的信息正在以指数级的速度增长。人们在享受互联网发展带来的各种方便的同时,也出现了如何在如此海量的内容中准确、快速的定位到自己所需要、有价值的信息的问题。搜索引擎技术应运而生,它为人们快速检索信息提供了极大的便利。   本文首先对搜索引擎的历史、分类、发展现状及其趋势做了概要介绍;然后以搜索引擎的体系结构、工作原理开始我们的研究工作,此外还对分词技术、倒排索引、检索模型等进行了简单的介绍。在此基础上本文结合开源的搜索引擎系统Nutch和开发工具包Lucene设计了一个中文的搜索引擎系统。   该搜索引擎主要在中文分词和排序算法上作了改进。中文分词方面结合了隐马尔可夫模型和Viterbi算法,分词过程中结合基于统计和基于规则的方法,采用了多遍词性标注的方式来提高分词的准确性,并取得了不错的效果。排序算法的改进不再单以TF-IDF算法为主,而是考虑到网页中标签对内容的影响、网页之间的链接结构和用户使用的反馈信息通过综合来对结果排序作评分的。
其他文献
移动机器人越来越多地应用到各个行业中,移动机器人具有高度自规划、自组织和自适应能力,适合于工作于复杂的非结构化环境中,路径规划是机器人技术研究领域中的核心问题,它的
学位
生物信息学是一门以计算机技术为核心工具对生物信息进行存储、解析以及统计分析的科学。计算机技术的快速发展,尤其是大数据技术、机器学习以及数据挖掘技术的兴起,给传统的生
随着P2P系统逐渐变成大规模的应用,并且占据着互联网上越来越大比例的流量,关于这些P2P应用程序的实际研究也开始增加起来。P2P系统发展至今,已经出现了各种不同的体系结构,而DHT
学位
视频监控是计算机视觉、模式识别以及人工智能等领域的一个重要的研究内容,在安全监控、智能交通、军事导航等方面有着广泛的应用前景。运动目标检测技术是视频监控系统中一
学位
万兆广域网环境的不断普及与新一代高能物理计算、存储需求的不断增长给网格存储服务带来了新的挑战。特别是在目前已经广泛运行的大规模的、满负荷的高能物理生产系统上,网
变化性是软件的基本属性之一。特别是当前大量的软件运行于因特网这样一个开放的、动态的和多变的环境之中,面对的是硬件资源和客户需求的频繁变化,从而导致软件的变化性和复杂
随着互联网应用的快速发展,网络的结构日益复杂,网络已经渗透到社会生活的各个方面。正是在这种背景下,IP语音技术伴随着互联网商业化革命以及网络融合技术发展起来。VoIP技术最
汽车牌照自动识别技术应用于智能交通系统中,是我国交通事业的必然发展趋势,对我国经济的快速发展起着十分重要的作用。车牌自动识别系统主要分为图像预处理、车牌定位、字符
随着各种智能卡的技术不断发展、成熟,应用领域不断增加,人们随身携带的智能卡越来越多,如果将多个应用能集中到一张卡上,即“多应用智能卡”,将给人们提供更多的便利,有着广阔的发
机器学习是研究计算机系统如何根据以往经验来改善自身性能的学科,是目前计算机科学中最活跃的学科分支之一。很多机器学习方法的性能都与距离度量密切相关,因此近年来距离度量