基于Lucene搜索引擎的研究与应用

来源 :太原理工大学 | 被引量 : 5次 | 上传用户:konashu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是信息检索必备的工具,也是一门非常适用的技术,虽然各大搜索引擎在不断地完善和发展自己的技术,但是仍然满足不了用户的需求,随着用户的数量和互联网的信息量不断增加,对搜索引擎提出了更高的要求,如何从海量信息中快速地、准确地获取有价值的信息,成为各大搜索引擎研究的主题。本文应用Lucene检索工具包实现了搜索引擎的索引、检索过程,并与PageRank算法相结合,改善了页面排序算法;针对Nutch系统中WebCrawler的不足,在网路蜘蛛的爬取策略、去重技术和更新技术方面做了改进;分词算法采用基于最大匹配算法和概率相结合的分词算法;利用K-means的聚类算法实现了web文本聚类,提高了检索结果的相关性;综合利用各种技术,实现一个完整的搜索引擎系统。本文所做工作如下:第一、实现了基于Lucene全文索引和检索的过程,并设计了最大匹配算法和概率相结合的分词算法。第二、利用Nutch系统中的Web Crawler的基本模型,选取了PageRank算法作为网络蜘蛛的爬取策略,使用基于URL和内容的去重算法去除重复页面,用Quartz作业调度系统实现了定时调用网络爬虫,完成了对本地页面批量更新,进一步提高了信息的实时性。第三、针对PageRank和Lucene排序算法的不足,改进了PageRank算法和Lucene自身排序算法,综合利用两种算法实现页面排序,使排序结果更加合理;实现了web文本聚类,采用K-means聚类算法对检索结果聚类,提高检索结果的相关性。
其他文献
随着计算机图形学的研究越来越深入,虚拟现实技术也越来越成熟。相继出现的数字地球、数字城市等名词,普及了人们对图形学的认知,同时对虚拟现实的研究提出更高的要求。虚拟
科学技术的飞速发展、社会文明的进步使得信息处理以及交流对人们的日常生活越来越重要,人们对图像处理的要求不断的提高。图像分割是图像处理中最为关键的技术之一,它是图像
Internet已经日益成为应用程序开发的默认平台。随着开发人员对应用程序复杂性要求的日渐增加,可是Web应用程序对完成复杂应用方面却始终跟不上步伐。为了提高用户体验,出现
人脸识别技术在社会中的应用场景日益增多,人脸刷卡、人脸支付甚至是寻找失踪多年的儿童这种跨年龄段的识别技术都已经有所应用。目前,人脸识别技术已经是模式识别和计算机视
分类是数据挖掘和机器学习等领域中一个非常重要的研究课题,在众多领域中都得到了广泛的应用。当前已经提出的分类方法主要有贝叶斯分类、决策树、神经网络、支持向量机等,其
数据挖掘是在海量数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法,其在功能上的健壮性和应用领域的广泛性已被研究者一致认同.而取样是最通用有效的近似
NFC(Near Field Communication)是近年来在射频识别和无线通信技术的基础上发展起来的一种近距离无线通信技术。近距离通信技术与现有的非接触技术完全兼容,并发展了其特有的
学位
蛋白质是生命活动的物质基础,生命活动中各种生理功能的完成大多是通过蛋白质来实现的。蛋白质多种多样的功能与其特定的空间构象密切相关,蛋白质分子的空间构象是其功能活性的
随着Internet的快速发展,基于Web的软件也在各行各业中广泛应用。在高校也是如此,师资、教务、学生等多种管理系统被开发和应用,其中传统化的纸质考试逐渐被网上在线考试系统
随着计算机技术的发展,人机交互领域的研究越来越受到人们的重视。脑机接口是一种新型的人机交互系统,它在人体与计算机之间建立连接,利用从人体采集到的脑电信号控制计算机