基于主题的搜索引擎的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：shopfloor

【摘要】

：

由于Web海量的信息处于不断的变化中，搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务，其局限性在于它试图索引全部Web信息并服务于所有主题的查询

【作者】

：

傅士光

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2007年期

【关键词】

：

主题搜索引擎中文分词网络蜘蛛 B+树索引 CLucene

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于Web海量的信息处于不断的变化中，搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务，其局限性在于它试图索引全部Web信息并服务于所有主题的查询请求。相比之下，主题搜索引擎只覆盖与特定主题相关的Web区域，这样它搜索的内容可以更深，搜索的周期可以更短，因此能满足用户对快速、准确的获取信息资源的要求。目前，基于主题的Web搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象。本文首先简要介绍了搜索引擎及其发展现状，分析了存在的优缺点；然后通过对当前通用搜索引擎技术的学习和研究，结合基于主题搜索引擎的特点，设计出了基于主题搜索引擎的各个模块和总体的架构；而后本文分三个章节详细分析、设计和实现了该搜索引擎的三大模块：基于规则的中文分词模块、基于主题的Web信息抓取和Web内容的存储与索引模块。它们构成了本文的核心部分。通过对基于规则的中文分词模块的设计和实现，创新性地将词典、词性、词频信息，改进的传统分词算法和中文文法筛选规则结合起来，从而大大提高了分词的正确率；通过对基于主题的Web信息抓取模块的设计和实现，在完成了基本的信息抓取的基础上，还利用动态Web信息抓取技术解决了Web2.0给传统信息抓取带来的困难；通过对Web内容的存储与索引模块的设计和实现，实现了文档数据的B+树索引存储，还通过对CLucene源码的修改和扩展，将CLucene索引模块结合进来，实现了扩展性较好、效率较高的中英文Web内容的索引和存储。在文章最后的总结也讨论了这些技术及其将来还需进一步研究的内容。

其他文献

无结构P2P网络下蠕虫及其防御策略研究

随着互联网的普及和宽带技术的发展,以P2P对等网络技术为核心的软件产品正在为越来越多的网民所接受和喜爱。自2000年开始,国内外多家P2P软件产品产品纷纷问世,其中以国外Nap

学位

P2P对等网络蠕虫无结构P2P节点SWM

关联规则与超团挖掘算法研究

数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。数据挖掘的主要目的是从数据集合中发现隐含的、事先未知的、对决策有潜在

学位

数据挖掘关联规则超团模式事务拆分交叉支持均衡法则

蚁群算法的研究及其在网络路由优化上的应用

蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法,该算法采用了正反馈并行自催化机制,具有较强的鲁棒性、优良的分布式计算机制、易于与其它方法结合

学位

蚁群算法QoS路由TSP单播组播多行为量子粒子群

智能ODN网管的研究与实现

随着社会信息化的不断深入，对网络带宽的要求与日俱增，而目前广泛使用的接入网技术如数字用户线路(xDSL，Digital Subscriber Line)、电缆调制解调器(CM,Cable Mode)的带宽已无法

学位

光配线网络智能特性光纤到户

基于颅骨的人脸建模技术研究及在法医面貌复原中的应用

人脸是人类最具表达能力的部分,其复杂的特征组成造成人脸建模一直是计算机图形学领域中一个极具挑战性的课题。基于颅骨的三维人脸建模技术是三维人脸建模技术的分支,主要应

学位

面貌复原CT数据网格变形径向基函数特征点标定

大规模语义数据的分析存储方案研究

随着语义Web和Linked Data运动的发展,语义数据规模变得越来越庞大、涉及的领域也越来越宽广,并且有的数据集已经出现多个版本的演变,这就使得大规模语义数据的分析和存储面

学位

本体指标本体版本演变RDF混合存储

固网支付平台的研究与实现

随着通信行业和计算机互联网的飞速发展，电子商务的活动范围不断扩大，电子支付系统成为近年来的研究热点。目前，市场已呈现多种支付方式，但大部分是基于互联网的实现方式或需银行

学位

固网支付平台面向服务架构排队系统数据加密

基于三维标量场拓扑分析的特征可视化——海洋特征结构的提取研究

计算机图形学中，三维标量场一直是可视化研究的重要应用领域，面对标量场中庞大的数据集，无论是科学研究还是经济需要，特征可视化都成为一个活跃的研究方向，三维标量场的拓扑分析方

学位

三维标量场可视化拓扑分析特征提取海洋水团

视频监控中运动目标检测与跟踪关键技术研究

视频监控中运动目标的检测与跟踪是计算机视觉和图像编码领域的重要研究项目之一,在军事、医学和科研等领域都有广泛的应用。运动目标检测与跟踪算法的设计直接影响跟踪效果

学位

目标检测背景估计码书目标跟踪特征匹配

半监督聚类算法及其应用研究

聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之

学位

数据挖掘聚类分析模糊C均值聚类极大熵聚类点密度加权半监督学习标签数据距离学习

基于主题的搜索引擎的研究与实现

与本文相关的学术论文