站点搜索引擎的研究与实现

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:tianyou424
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息化进程的加快,越来越多的企业构建了自己的Web站点,通过站点向用户提供产品和服务信息。但伴随的问题是,随着Web信息资源的迅速增加,越来越丰富的信息呈现在用户面前,使得用户越来越难以获取其需要的资源,而仅仅通过浏览是不能高效获取信息的。站点搜索引擎可以很好地解决这个问题。本课题就是通过研究搜索引擎及其技术,构建一个面向Web站点的搜索引擎。本文首先介绍了站点搜索引擎现状,提出了站点搜索引擎研究的必要性。然后介绍了搜索引擎的分类和工作原理,并从信息搜集、信息处理和信息检索这三个组成部分分析和研究了搜索引擎的主要实现技术。在此基础之上对站点搜索引擎系统进行分析和设计,利用bot和Lucene工具包实现了该站点搜索引擎。该系统采用多线程技术实现了并行的信息采集程序;用倒排索引技术实现了Web信息索引库;最终向用户提供了文本、音乐和图片三类资源的检索服务。为了得到更优的页面检索结果,本系统提出了一种基于页面内容和URL链接深度相结合的页面优先度排序算法,并通过改进Lucene的基本排序算法加以实现。
其他文献
Internet规模的膨胀和多媒体业务在网络上的剧增,使Internet面临高速交换、服务质量保障、安全和移动性等方面的严峻挑战。由于基于现有网络的增强措施难以从根本上解决以上
非真实感绘制(NPR)从20世纪90年代中期开始逐渐成为计算机图形学的一个研究热点,是计算机技术和绘画艺术相结合的一个研究领域,指的是利用计算机生成不具有照片般真实感(PR),而
共引分析是引文分析中最具影响力的方法,它可以用来揭示科学结构的发展现状乃至变化情况,还可以进行前沿分析、领域分析、科研评价等,进而为宏观科技决策提供先行支持。共引
多媒体信息检索是当今计算机科学的一个研究热点。作为继声音、图像及视频之后的新一代多媒体形式,三维模型在诸多领域得到了广泛的应用。同时三维模型检索的研究方兴未艾,正
21世纪是一个信息的时代,信息已经成为一种重要的战略资源。信息的存储量越来越大,保护好重要的信息不被外泄,是事关国家与社会安全的重要课题。传统的信息保护通过手动加解密使
烟气发电系统是炼油厂的重油催化裂化工艺中重要的节能和再生能源环节,其可以利用余热发电的原理达到回收能量再生电能的目的。但是由于机械工艺等各方面的原因,烟气轮机机组会
作为实现“普适计算”的一种新型技术,融合了传感器技术、信息处理技术以及无线通信技术的无线传感器网络不仅催生了一系列新的应用,同时也带来了技术上的新需求和新挑战。由
木材在工农业等社会生产中有着广泛的应用,但是在其自然生长过程中往往因受到外界客观因素影响而有一些缺陷,这些木材缺陷正是影响木材质量评估的重要因素之一。因此,在对木
随着移动通信技术的不断发展和智能手机的日益普及,面向手机的各种增值业务成为当今关注的热点。面对个人电脑的即时消息业务作为互联网上最成功的应用之一,已经从传统的互联
学位