垂直搜索引擎技术的研究及实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:dfsdfsafdsfds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息社会中,如何在浩如烟海的信息中找到我们所需要的、有用的信息成为一个十分重要的问题,Web搜索引擎也因此应运而生,影响我们的生活。目前许多搜索引擎都使用基于关键字查询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。例如,在百度中搜索“搜索引擎”,找到相关网页约51,200,000篇,在google中找到14,600,000篇。搜索结果数量巨大,根本没办法全部浏览。并且其中大部分网页对用户是没有用的。由此可见,搜索引擎仅有广度,没有深度,是不能满足用户需求的。对这个问题的解决办法是建立垂直搜索引擎。垂直搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与综合搜索引擎截然不同的引擎类型。本文根据开源代码Lucene、Heritrix等进行垂直搜索引擎技术的研究,主要包括搜索引擎的架构组成,Lucene、Heritrix的架构组成,及如何构建垂直搜索引擎。本文首先介绍搜索引擎的历史,然后介绍搜索引擎的基本构成。接下来介绍Hritrix和Lucene的架构及主要部件。并对深度优先查找、广度优先查找算法、trie算法进行研究,提出用trie实现倒排索引的想法。最后结合实例介绍构建垂直搜索引擎的全过程。
其他文献
<正> 在法国,凡职员在10—499人之间,年营业额不超过1亿法郎的企业为中小企业。据1987年1月统计,法国共有企业6307705家,其中500人以上的大型工业集团只有2928家,而绝大部分
有机化学知识是历年高考必考内容之一,所占分值比例非常大。教师需要引导学生科学系统地进行针对性复习,学生熟练掌握解题的技巧和方法,方能得到复习的最佳效果。
<正> 1987年执行了116个中央研究发展项目,123个中央基础研究项目,450个科技进步推广方面的政府合同。 1987年底在国营工业安装了3700台生产自动化设备,比1986年增加22%。安装
【正】目前,语文教育的重点定位在工具教育、知识教育和技能的培养上,所以在实际教学中,主要注重学生写作、阅读、表达等技能的培养。实际上,语文教育不仅仅是语文技能的教育
<正> 一、科研管理体制捷中央一级科研管理机构有联邦国家科技与投资发展委员会和捷克斯洛伐克科学院。联邦国家科技与投资发展委员会在科研管理方面的职能是:评定和讨论科技
(一)丙型肝炎病毒美国加州的Chiron生物技术公司发现了一种血液中带有的肝炎病毒,称为丙型肝炎病毒,该公司并提供是否感染这一病毒的血液测定。这种丙型肝炎病毒(简称HCV)是
<正> 一、重视科学技术事业的发展 1967年,奥国民议会通过法案,决定成立“促进科研基金会”和“促进工业经济研究促进会”。在这20年中,二个基金会共资助了12000多个科研项目
华中师范大学图书馆特藏期刊回溯建库选择了非外包模式,取得了一定的成效,要进一步完善特藏期刊的回溯建库工作,还需要加强与其它图书馆回溯建库工作上的沟通合作,加强建库后
[摘要]结合上海市委党校图书馆利用“畅想之星”非书资源管理平台建设馆藏电子资源库的具体经验·本文阐述了建库的必要性,并详细论述电子资源平台软件选择和建库的具体方案,同时就建库的若干注意问题进行探讨。  [关键词]图书馆;电子资源;数据库  DOl:10.3969/j.issn.1008-0821.2010,06,014  [中图分类号)G250.74 [文献标识码]A [文章编号]1008—0
元模型思想在数字资源整合方面有着独到的作用,文章在分析常用资源整合方法的基础上,提出了基于元模型的数字资源整合方法。并结合实例,阐述了该方法的设计原理、建模过程和