基于主题的搜索引擎的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:shopfloor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询请求。相比之下,主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。目前,基于主题的Web搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象。本文首先简要介绍了搜索引擎及其发展现状,分析了存在的优缺点;然后通过对当前通用搜索引擎技术的学习和研究,结合基于主题搜索引擎的特点,设计出了基于主题搜索引擎的各个模块和总体的架构;而后本文分三个章节详细分析、设计和实现了该搜索引擎的三大模块:基于规则的中文分词模块、基于主题的Web信息抓取和Web内容的存储与索引模块。它们构成了本文的核心部分。通过对基于规则的中文分词模块的设计和实现,创新性地将词典、词性、词频信息,改进的传统分词算法和中文文法筛选规则结合起来,从而大大提高了分词的正确率;通过对基于主题的Web信息抓取模块的设计和实现,在完成了基本的信息抓取的基础上,还利用动态Web信息抓取技术解决了Web2.0给传统信息抓取带来的困难;通过对Web内容的存储与索引模块的设计和实现,实现了文档数据的B+树索引存储,还通过对CLucene源码的修改和扩展,将CLucene索引模块结合进来,实现了扩展性较好、效率较高的中英文Web内容的索引和存储。在文章最后的总结也讨论了这些技术及其将来还需进一步研究的内容。
其他文献
随着互联网的普及和宽带技术的发展,以P2P对等网络技术为核心的软件产品正在为越来越多的网民所接受和喜爱。自2000年开始,国内外多家P2P软件产品产品纷纷问世,其中以国外Nap
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。数据挖掘的主要目的是从数据集合中发现隐含的、事先未知的、对决策有潜在
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法,该算法采用了正反馈并行自催化机制,具有较强的鲁棒性、优良的分布式计算机制、易于与其它方法结合
随着社会信息化的不断深入,对网络带宽的要求与日俱增,而目前广泛使用的接入网技术如数字用户线路(xDSL,Digital Subscriber Line)、电缆调制解调器(CM,Cable Mode)的带宽已无法
人脸是人类最具表达能力的部分,其复杂的特征组成造成人脸建模一直是计算机图形学领域中一个极具挑战性的课题。基于颅骨的三维人脸建模技术是三维人脸建模技术的分支,主要应
随着语义Web和Linked Data运动的发展,语义数据规模变得越来越庞大、涉及的领域也越来越宽广,并且有的数据集已经出现多个版本的演变,这就使得大规模语义数据的分析和存储面
随着通信行业和计算机互联网的飞速发展,电子商务的活动范围不断扩大,电子支付系统成为近年来的研究热点。目前,市场已呈现多种支付方式,但大部分是基于互联网的实现方式或需银行
计算机图形学中,三维标量场一直是可视化研究的重要应用领域,面对标量场中庞大的数据集,无论是科学研究还是经济需要,特征可视化都成为一个活跃的研究方向,三维标量场的拓扑分析方
视频监控中运动目标的检测与跟踪是计算机视觉和图像编码领域的重要研究项目之一,在军事、医学和科研等领域都有广泛的应用。运动目标检测与跟踪算法的设计直接影响跟踪效果
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之