生活服务类垂直搜索引擎的构建

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:jxwdi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今互联网已经成为了信息的海洋,每天有上亿张新页面发布到互联网中,虽然其中大型的门户网站汇集了大量的信息,但是国内数以万计的中小型网站的信息量总和确实远远高于门户网站的。搜索引擎将这些信息通过采集、智能分析、排序等手段可以快速的根据用户提交的关键字从数据库中提取出来呈现到浏览器中。但是面对互联网呈指数级别增长的信息来说,通用搜索引擎提供的检索结果在准确性和专业性上已经远远不能满足用户的需要,特别是利用传统通用搜索引擎来进行某一特定领域的深度专业搜索时,用户需要的是这个领域专业且全面的信息回馈。由此看来,利用特定领域垂直搜索引擎进行专业精准搜索越来越成为搜索引擎领域的研究热点和发展趋势。  生活服务领域是指与我们日常生活息息相关的一些服务类的信息,它包含了饮食、娱乐、出行等。在每个城市、每个地区都有成千上万的商家在互联网中发布信息,但是如何才能让用户准确的找到自己身边有什么样的服务和商品呢?在本文系统中通过对生活服务类市场需求背景进行研究分析,利用垂直搜索引擎技术,对互联网上各个城市网站中的信息内容进行采集,利用开源搜索引擎Lucene框架和Heritrix蜘蛛,实现了各城市生活服务搜索引擎的研究与设计,主要研究工作如下:  (1)针对生活服务的特点,确定了本搜索引擎系统的基本功能需求和设计方案,完成了系统的各项功能模块的设计、采集页面数据存储、索引的建立以及中文分词系统的设计。  (2)对Heritrix蜘蛛框架加以改进,实现对特定城市的生活服务信息的抓取与订制。  (3)在系统采集模块中加入了主题关键字预测算法,建立了专业的生活服务词库,利用词库仅选择相关性高的页面进行采集,提高了入库主题网页的相关度。  (4)利用PageRank算法的设计思想改进原有的Lucene排序算法,利用权重来提高搜索引擎的查询准确率并对搜索结果进行相关度排序。  通过对系统各项功能模块的测试,本系统设计和实现的生活服务类垂直搜索引擎的方案是可行的,能够满足此类用户的检索需求。与通用搜索引擎相比,搜索效率有了进一步提高,对于生活服务相关信息的搜索结果的准确率有了明显提高,并通过图文并茂的方式反馈给用户,更加直观,系统基本达到了预期的设计目标,满足了此类用户的个性化检索需求。
其他文献
Web2.0时代,由于用户参与程度的提高,网络信息量增长迅速,使网络成为一个由用户和信息构成的复杂生态。这个复杂生态像黑洞一般,有着巨大的吸引力,将人们吸附在一起,编织在一起,已成
可信性是软件的重要属性之一,软件可信的研究是可信计算在软件方向上的一个分支。随着人们对软件产品的依赖程度不断加大,对软件必然会提出比传统的质量和标准更高的要求,也
和磁盘相比,闪存作为一种新型的存储设备,具有读写速度快、抗震、省电、体积小等优点,已经在大量的电子设备中被广泛的应用,比如在最新的手机,数字照相机,DV,MP3,MP4,PSP,PDA,笔记本电脑
随着Internet的不断发展,Internet为用户提供越来越多的信息和服务。在目前的网络和电子商务环境下,推荐系统得到了广泛的应用,相似度计算作为推荐系统中重要并且基础的技术,在协
网络中每天都有故障发生。网络拓扑的频繁变化会导致路由重计算被频繁执行,使得路由表中的一些条目被不断的删除、加入、删除、加入…,这种现象被定义为路由振荡。由于各种实
最小加权顶点覆盖(MWVC)问题是图论中一个著名的组合优化问题,它有着广泛的实际应用,例如网络流、电路设计、运输和电信等。MWVC问题中的每一个顶点都有一个正权值,它的目标是在
XML文档具有两个显著的特点,其一:自描述性,存在大量的语义标签描述标签内的文本。这使得XML被广泛的用作描述服务或者数据对象、作为数据交换格式、标注非结构化文档(web页面,纯
随着互联网的发展,网络上出现了越来越多的主观性文本,这些文本包含的观点不仅对潜在用户的行为产生了影响,同时也影响了相关的决策。对主观信息的分析与提取,已是自然语言处理等
普适计算环境的特点是以人为本,旨在为用户提供高效精确的、无处不在的个性化服务。为了达到这一目标,就需要对海量的、离散的原子事件进行自动智能分析,提取用户感兴趣的、可以
随着无线传感网络技术的发展,其应用范围日趋广泛。而协议作为无线传感网络通信的基础,其重要性显而易见,但由于无线传感网络运行环境的复杂性,协议的正确性很难得到保证。通常的