基于统计分词改进算法的网络信息检索系统研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:frankyfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在对检索系统关键技术进行研究的基础上,主要实现了一个以统计分词改进算法为基础的网络信息检索系统。该系统通过网页内容提取技术对网页进行处理,形成纯文本形式,并通过中文自动分词技术对其进行分词处理,提取出特征索引词,提供给检索模块,实现对信息的检索。 对几种分词算法进行了详细介绍与研究,并在比较分析的基础上,提出了一种统计分词的改进算法,这种算法不仅可以提高未登录词的识别能力,同时引入了串匹配分词算法,降低了高频冗余词对文本特征索引词提取的干扰,为信息检索提供了良好的处理依据,增强了检索性能,改进分词算法本身也具有良好的扩展性和应用性。 介绍和比较了几种常见的检索模型,并在对它们进行研究分析的基础上,采用了较为成熟的布尔检索模型实现检索系统,并通过建立索引文件,加速了对表征文本内容的词组匹配,实现对信息进行检索的目的。 最后的试验结果表明,改进的分词算法,在准确率和召回率上,基本可以满足信息处理分词要求,而检索系统本身,也已达到一般信息检索的要求,并具有可扩展性和广泛应用性等特性。
其他文献
本论文遵循MPEG-4和DVB-S国际标准,从设计者的角度出发,对DVB-S HDTV机顶盒的关键模块进行了全面的分析。所有的软件都是基于uclinux实时操作系统。研究的目标是开发具有基本的
互联网技术的迅猛发展催生了海量的数据,越来越多以数据为中心的应用渗透到人们生活的方方面面。这些应用对存储系统提出了更高的要求。其中,如何为这些数据建立高效的索引成
随着生活水平的提高,家用电器成为普及性的消费品。虽然家电作为独立的个体,功能非常强大,但是家电之间普遍不具备沟通以及协调工作的能力。本文研究的家居设备控制系统,是将日常
自微处理器问世以来,随着工艺水平和处理器体系结构设计的发展,微处理器经历了从单核到双核,再到多核甚至众核的发展历程。多核多线程处理器已经成为当前主流微处理器。但是
现有黄页检索系统采用基于关键词的信息检索方式,对要检索的信息只是基于语法层面上字、词的简单匹配,缺乏对语义的表示、处理和理解等能力,也即缺乏必要的智能性,导致检索质量低
度量是工程技术领域中一个不可或缺的要素,随着软件工程领域的长足发展,度量技术也逐渐融入到软件工程领域,并成为良好软件工程的一个重要组成部分。软件度量有助于对软件工程开
自从Steve Cook证明了第一个NP完全问题以来,大量的NP完全问题不断被发现,而且很多问题具有重要的实际应用。比如,SAT问题是大规模集成电路自动布线和人工智能领域的关键问题
随着信息技术的发展和网络化经济的快速进步,企业之间的竞争变的更加激烈,而企业的信息化和WEB技术的广泛应用,导致海量数据充斥在各个企业的现有系统中,如何有效利用这些资源,并
CORBA(Common Object Request Broker Architecture,通用对象请求代理体系架构)技术是当前最具有影响力的分布对象计算技术。CORBA规范成为开放的、基于客户/服务器模式的、面
大数据计算和分析系统作为一种计算机科学发展到一定阶段的必然产物已经吸引了各行各业的关注。大数据的价值在于对海量数据的存储,另一方面在于对数据的分析和处理工作。海