基于统计分词改进算法的网络信息检索系统研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：frankyfeng

【摘要】

：

本文在对检索系统关键技术进行研究的基础上，主要实现了一个以统计分词改进算法为基础的网络信息检索系统。该系统通过网页内容提取技术对网页进行处理，形成纯文本形式，并通过中

【作者】

：

喻洁

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2007年期

【关键词】

：

网络信息检索中文自动分词布尔检索模型特征索引词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文在对检索系统关键技术进行研究的基础上，主要实现了一个以统计分词改进算法为基础的网络信息检索系统。该系统通过网页内容提取技术对网页进行处理，形成纯文本形式，并通过中文自动分词技术对其进行分词处理，提取出特征索引词，提供给检索模块，实现对信息的检索。对几种分词算法进行了详细介绍与研究，并在比较分析的基础上，提出了一种统计分词的改进算法，这种算法不仅可以提高未登录词的识别能力，同时引入了串匹配分词算法，降低了高频冗余词对文本特征索引词提取的干扰，为信息检索提供了良好的处理依据，增强了检索性能，改进分词算法本身也具有良好的扩展性和应用性。介绍和比较了几种常见的检索模型，并在对它们进行研究分析的基础上，采用了较为成熟的布尔检索模型实现检索系统，并通过建立索引文件，加速了对表征文本内容的词组匹配，实现对信息进行检索的目的。最后的试验结果表明，改进的分词算法，在准确率和召回率上，基本可以满足信息处理分词要求，而检索系统本身，也已达到一般信息检索的要求，并具有可扩展性和广泛应用性等特性。

其他文献

DVB-S HDTV机顶盒应用软件系统研究与设计

本论文遵循MPEG-4和DVB-S国际标准，从设计者的角度出发，对DVB-S HDTV机顶盒的关键模块进行了全面的分析。所有的软件都是基于uclinux实时操作系统。研究的目标是开发具有基本的

学位

数字电视机顶盒软件系统有限状态机模型

基于SSD的Key-Value系统优化策略研究与实现

互联网技术的迅猛发展催生了海量的数据,越来越多以数据为中心的应用渗透到人们生活的方方面面。这些应用对存储系统提出了更高的要求。其中,如何为这些数据建立高效的索引成

学位

Key-Value系统SSD压缩热点数据识别相关性检测内存映射文件

基于IPv6协议的嵌入式家居设备控制系统的研究

随着生活水平的提高，家用电器成为普及性的消费品。虽然家电作为独立的个体，功能非常强大，但是家电之间普遍不具备沟通以及协调工作的能力。本文研究的家居设备控制系统，是将日常

学位

家居设备控制系统IPv6协议嵌入式系统个性化服务家用电器

多核多线程处理器访存并行性分析与优化

自微处理器问世以来,随着工艺水平和处理器体系结构设计的发展,微处理器经历了从单核到双核,再到多核甚至众核的发展历程。多核多线程处理器已经成为当前主流微处理器。但是

学位

多核多线程存储控制器DRAM体冲突DRAMsim2Hash

基于语义Web的黄页系统研究

现有黄页检索系统采用基于关键词的信息检索方式，对要检索的信息只是基于语法层面上字、词的简单匹配，缺乏对语义的表示、处理和理解等能力，也即缺乏必要的智能性，导致检索质量低

学位

语义网领域本体语义检索信息检索系统

软件度量数据采集自动化的研究

度量是工程技术领域中一个不可或缺的要素，随着软件工程领域的长足发展，度量技术也逐渐融入到软件工程领域，并成为良好软件工程的一个重要组成部分。软件度量有助于对软件工程开

学位

软件度量数据集成中间件自动化软件工程

MSP问题NP完全性研究

自从Steve Cook证明了第一个NP完全问题以来,大量的NP完全问题不断被发现,而且很多问题具有重要的实际应用。比如,SAT问题是大规模集成电路自动布线和人工智能领域的关键问题

学位

MSP问题NP完全问题归结相变

基于数据挖掘的网络化制造企业CRM系统的研究

随着信息技术的发展和网络化经济的快速进步，企业之间的竞争变的更加激烈，而企业的信息化和WEB技术的广泛应用，导致海量数据充斥在各个企业的现有系统中，如何有效利用这些资源，并

学位

客户关系管理系统数据挖掘数据仓库制造企业

动态实时任务调度服务中关键技术的研究与实现

CORBA(Common Object Request Broker Architecture，通用对象请求代理体系架构)技术是当前最具有影响力的分布对象计算技术。CORBA规范成为开放的、基于客户/服务器模式的、面

学位

通用对象请求代理体系架构实时任务实时调度线程池调度算法

基于Hadoop平台的大数据预处理关键技术研究与实现

大数据计算和分析系统作为一种计算机科学发展到一定阶段的必然产物已经吸引了各行各业的关注。大数据的价值在于对海量数据的存储,另一方面在于对数据的分析和处理工作。海

学位

Hadoop大数据预处理文件系统

基于统计分词改进算法的网络信息检索系统研究

与本文相关的学术论文