基于个性化服务的汽车信息搜索引擎的研究

来源 :武汉理工大学 | 被引量 : 5次 | 上传用户:chianbean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0的迅速普及带给人们丰富信息的同时,也使人们对信息的把握能力大大下降,庞大的信息量已经超出了人们预期的设想。传统的信息检索系统已经不能满足用户需求,通用搜索引擎的出现满足了一般用户的基本需求,但它在特定领域的主题搜索和用户个性化搜索服务方面仍有不足。本文提出的基于个性化服务的汽车主题搜索引擎系统正是为了弥补这些方面的不足。本文首先介绍了搜索引擎的研究背景和工作原理,接着深入分析Heritrix网络爬虫的体系架构,扩展Heritrix的相关组件以定制汽车主题网络爬虫,并引入URL散列算法ELFHash算法改变Heritrix网络爬虫原有的Key分配策略,使得爬虫可以多线程抓取同一域名下的网页,实现了汽车主题爬虫的多线程,高效抓取网页的目的。本文采用Lucene全文检索框架作为系统的搜索框架,介绍了全文检索的基本原理和Lucene的相关技术:索引技术、排序技术等,并在此基础上指出Lucene原有结果排序方法的不足,它仅仅是以网页内容的相关度作为网页排序的依据,不能客观的反映网页的重要性,为此在Lucene原有的排序算法的基础上引入谷歌的PageRank算法,将二者结合起来,改进了原有排序算法。在上述理论研究工作的基础上,本文设计并实现了一个基于个性化服务的汽车主题搜索引擎系统,从用户的购车需求入手,将系统分为汽车主题爬虫模块、汽车网页信息抽取模块、索引模块和用户查询模块四个模块,并详细的介绍四个模块的技术原理和实现方法。最后,本文对系统整体和相关的理论研究工作分别进行了测试实验。通过比较分析对同一查询词的查询结果,得出了相比于一般通用搜索引擎和主题搜索引擎,本系统具有个性化搜索服务、搜索结果更准确的结论。接着测试比较了改进前后的主题爬虫的抓取效率,验证了改进后的主题爬虫抓取效率有了比较明显的提高。最后测试了Heritrix设定的最大线程数和爬虫抓取效率的关系。
其他文献
现实社会中存在着各种具有特定功能的系统,例如电子商务系统、科学著作系统、在线社交系统等,这些系统可被抽象为具有复杂内部结构的网络,称为复杂网络。很多研究表明,复杂网
在我国,化肥的施用存在利用率低、环境污染严重等问题。为了解决这些问题,必须进行精准变量施肥。国内外在变量施肥控制系统的研究方面有很多成果和进展。国外的成型系统尽管
学位
事件是指在某个特定的时间和环境下发生的,由若干角色参与,表现出若干动作特征的客观事实。事件抽取任务要求从含有事件信息的非结构化自由文本中,自动识别和抽取出包含有事
云计算(Cloud Computing)是一种服务按需交付的新兴模式,它将大量计算、存储、网络等资源池化,使各种应用系统能够根据需求获取各种资源和服务。而网络视频作为一种技术成熟、
随着无线传感器网络的不断发展,其应用范围涵盖军事安全、工业监控、环境监测与保护、医疗监护、智能家居、交通控制、精细农业等诸多领域。例如在基于无线传感网的高压输电
数字图像抠图技术是指把指定的前景从已有的自然图像中分离出来的一种技术。它最早被运用于影视业的特效制作中,为影视业赢得了巨大的商业价值。如今,抠图技术已经随着科技的
随着虚拟现实与计算机技术的不断发展,虚拟手术在医疗卫生领域发挥的作用越来越大,不仅可用于手术技能培训,还可用于手术规划、手术预演、手术导航等。在虚拟手术中,软组织形
随着计算机网络的普及,企业信息化程度不断提高,人们对信息化服务的要求越来越高。在这个信息膨胀的时代,各种电子文本数据急剧增加,占据了网络资源的大部分空间,对于这些文本数据
随着信息科技的快速发展,很多应用领域产生了大量的现实数据。如网络安全、股票分析、电子商务、气象监控等领域。在这些数据中可能隐含着丰富的、有价值的、亟待挖掘的信息,