搜索算法与搜索引擎的研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:hezefgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web技术的飞速发展,Internet上的资源和信息急速膨胀,如何从海量信息中筛选出所需要的信息,并将信息按照其相关性排序,成为急需解决的问题。于是,为满足信息检索需求的搜索引擎技术便应运而生了。评价一个搜索引擎的两个指标是查全率和查准率。搜索引擎技术的探索才刚刚开始,许多问题亟待解决。随着web上的信息不断增长,隐藏信息和动态网页已成为web的一个重要组成部分,对这一类信息的挖掘必须从网络爬行器的研究入手,从而提高搜索引擎的查全率(Recall)。搜索引擎面临的另一个挑战是查准率(Precision),这个问题的解决策略主要从分词系统的结构和分词算法改进入手,进而提高分词的精度。本文从构成一个搜索引擎的基本架构入手,分析了各个部分的结构及原理,设计了一个可扩展的搜索引擎。首先本文研究了分词的基本步骤,对分词的基本算法包括MM算法、RMM算法、最佳匹配算法和N-最短路径切分算法作了详细分析,论证了统计方法在词串粗分和深切分中的作用。在此基础上,本文提出了在深切分层引入图切分方法的观点;提出了在粗切分前进行浅层的未登录词识别,对传统的基本分词架构作出了改进;提出了新的分词算法,即3-连通路径算法。其次,本文对WebCrawler作了深入分析,研究了组成WebCrawler的三个模块:协议模块、处理模块和策略模块。随后研究了文档文摘算法和网页评级PageRank策略,最后设计了一个可行的网络爬行子系统。再次,本文研究了组成搜索引擎的基本模块——文本解析子系统,对文本分析模块和索引器进行了探讨。最后,本文对上述系统进行了集成,并阐述构成一个完整的搜索引擎系统的方法,为搜索引擎的研究和开发提供了一个可行的框架。
其他文献
随着经济全球化进程的加快,现代物流对经济发展的重要性逐步为国人所认识,我国的物流产业正处于一个高速发展的时期。现代物流的根本宗旨是提高物流效率、降低物流成本、满足客
随着企业信息化进程的推进,企业内信息系统的应用越来越广泛,在完成业务功能的同时,这些系统的相互独立性也给管理和使用设置了障碍,企业需要一种能为企业提供组织、搜索和获取真
随着互联网的高速发展,越来越多的网络主机相连,网络服务需求已超过了网络的服务容量,对具有QoS(Quality of Service)服务的应用产生了严重的影响,如视频点播、IP电话等。为了增
随着社会主义市场经济的发展,作为“第三利润源泉”的物流对经济活动的影响日益明显,越来越引起了人们的重视,成为当前“最重要的竞争领域”,未来的市场竞争,物流将起着举足
本文的研究工作主要围绕支持概念设计的、将概念设计过程与详细绘图过程紧密结合在一起的二维CAD技术开展。它旨在引入全新的基于手绘草图的人机交互方式,使二维CAD系统能够更
网格技术是以资源共享为主要特征的下一代互联网技术。由于网格中的资源具有动态性、多样性、自治性等特点,网格资源调度问题已经成为网格研究的一个热点和难点问题。网格资源
数据库的压缩技术是数据压缩领域的一个重要研究分支。传统的数据库压缩方法基本都是按照流模式对数据库进行压缩处理,未考虑数据库数据的冗余分布,也没有考虑压缩后数据的存储
企业应用集成和电子商务等系统利用Web服务,在工作流技术的保障下,实现了企业间以及企业内的业务流程管理(BPM),使得整个互联网成为一个整合了各种服务的工作流程的有机整体。事
随着互联网技术的发展,如何实现灵活的企业应用集成一直是信息领域的核心问题,传统的EAI(Enterprise Application Integration)技术,均不能有效地使企业后台应用和企业外部的客
自从上世纪90年代初ASP概念出现以来,它就以其提高企业信息化水平和运作效率的惊人潜力吸引着众多关注。近年来,国内针对制造产业链和企业集群发展的需求,开发了一系列制造业信