面向特定领域的专业搜索引擎的架构与实现方法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:tomzhang155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,互联网络上的信息量正在以几何级数的增长速度增长,因此,对网络上信息的高效检索成为互联网发展必须要解决的问题,搜索引擎技术得到了特别的重视并且正在飞速的发展。目前,如Google、Baidu等综合型搜索引擎系统已经取得了极大的成功,但是,当使用综合型搜索引擎来检索专业内容时,往往找不到专家们需要的内容。因此,有必要研究并开发面向特定领域的面向特定领域搜索引擎系统来满足某一领域信息检索的需要。该文研究并设计了一个具有通用性的面向特定领域搜索引擎,若想改变应用领域,则只需修改领域词汇的词库文件。为了实现该面向特定领域搜索引擎系统,该文引入了综合型搜索引擎系统的架构模型,即网络蜘蛛、索引器和检索器,并且在该模型中增加了中文分词模块,信息过滤模块。该搜索引擎系统基于开源搜索系统Nutch和全文索引引擎Apache Lucene构建。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Nutch和Lucene的大量源码,并在此基础上做了改进和扩充。该文介绍了系统集成方案,并且详细讲解了中文分词器、信息过滤器、信息检索器以及用户接口的设计和实现技术,重点讨论了中文分词部分应用的正向最大匹配分词与逆向最大匹配分词相结合的分词算法。最后,该文介绍了该面向特定领域搜索引擎的相关性能数据以及实验验证结果。该文所设计的面向特定领域搜索引擎与现有的主流搜索引擎的主要不同体现在:首先是其面向领域的特性,其次是应用领域可定制的特性。相信该搜索引擎能为需要特定领域搜索的专家学者提供很大的方便和帮助。
其他文献
作为计算机学科的一个重要应用方向,生物特征识别技术正在成为一个蓬勃发展的研究领域,笔迹鉴定技术则是其中具有吸引力的一个方向。近年来,一些发达国家已把生物特征识别技术,从
随着数据时代的来临,大数据的分析、挖掘与可视化成为了信息技术发展的研究热点。数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来并进
基于工程图的三维形体重建技术是根据形体在二维投影视图中的几何信息和拓扑信息生成相应的三维形体,这是一个从低维到高维的构造过程,目前已成为CAD与CAM中的重要研究课题。
随着本地存储设备容量的增大,文件数量的增多,数据备份系统中的归档集规模也日益庞大。现有的数据备份系统,无论是开源还是商用,归档管理中都缺乏对归档文件按内容搜索的功能,用户
模式匹配技术广泛应用于生物信息学、网络搜索引擎、内容过滤防火墙、入侵检测系统等领域,是信息科学领域中重要的研究方向之一。随着计算机网络技术的飞速发展,网络中的信息
在提倡“普适计算”的今天,无线传感器网络作为一种新的信息获取方式和处理模式已成为国内外关注的热点。传感器网络中的节点被散布在人类无法接近或是接近可能有危险的区域,
基因预测是目前计算生物领域非常重要的一个研究课题。虽然目前许多基因预测工具达到了一定的准确率,但在这些工具的使用中,或是由于其方法本身的局限性,或是由于其使用的困难性
随着网络技术的飞速发展和广泛应用,计算机网络已经渗透到社会经济的各个领域,对社会经济的发展起着越来越重要的作用。与此同时,网络的规模日趋扩大,网络结构日趋复杂,以及
令G为一连通图,其顶点个数为v,整数0≤k≤v/2-1,若G有大小为k的对集,且G的每一个大小为k的对集都包含在G的一个完美对集中,则称G为k可扩的.若0≤n≤v-2,对于图G的任意大小为佗的顶点
图像模糊复原一直都是图像处理中研究的重点问题,随着移动摄像设备在人们生活中的普及,人们对解决拍摄器材抖动或拍摄运动目标所造成的图像模糊问题的需求越来越迫切。图像去