基于单字的中文全文检索的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：user1944

【摘要】

：

　　本文就中文全文检索的不同算法模型，特别是基于分词和基于单字的不同全文检索算法进行了比较，分析了各自的优缺点和实现的难点，针对实际应用提出了一套不依赖于具体机器和操

【作者】

：

曲和政

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2005年期

【关键词】

：

全文检索倒排表存储结构检索效率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文就中文全文检索的不同算法模型，特别是基于分词和基于单字的不同全文检索算法进行了比较，分析了各自的优缺点和实现的难点，针对实际应用提出了一套不依赖于具体机器和操作系统的基于单字的中文全文检索系统的数据结构和算法模型。　　首先，描述了倒排表的工作原理。通过对其检索效率的详细分析找出了影响其检索速度的瓶颈所在，进而针对这些问题提出了后继倒排表的存储结构，从而提高了检索的效率。　　其次，用C++描述了如何开发一套完整的中文全文检索系统。为了便于灵活地对比各种索引压缩方案的性能，充分利用面向对象的多态性设计系统结构。用C++类封装各种索引的管理功能，类的内部实现对索引文件逻辑信息的组织和I/O，并向外部提供功能函数。　　最后，对针对后继倒排表存储结构的索引特点提出了存储空间和检索的优化方案。设计了一种可以反馈用户对检索结果满意程度的排序算法，从而提高了检索的查准率。

其他文献

网络电视终端与业务研究

随着嵌入式系统性能的不断提高，其应用领域也得到不断扩大。从最初的嵌入控制和计算单元，到如今甚至可以独立构成计算平台，这也给了科研人员更多的应用选择。进入21世纪以来

学位

嵌入式系统IPTV机顶盒终端业务网络电视

基于CORBA的电信管理网EML-NML接口实现技术研究

本文采用CORBA为通信模型、TMF814规范为信息模型实现EML-NML接口(接口的实现称为NI814)。并提出浮动接口技术实现接口和EMS的松散耦合框架，分析了该技术对组网复杂度、软件成

学位

电信管理网网络地址转换浮动接口组网成本

省级税务集中权限系统的设计与实现

本文详细分析了大集中工程在安全管理方面，特别是权限管理和访问控制方面的系统需求。作者研究了应用广泛的三个访问控制模型：DAC、MAC和RBAC模型，并且进一步研究了RBAC模型的管

学位

地方税务征收管理集中权限管理访问控制职能机构管理

基于改进T-RBAC模型的工作流安全框架研究与实现

随着电子信息技术的进步和企业软件规模的持续扩大,各种企业管理系统对于安全高效灵活的访问控制策略,提出了更高的要求。传统的访问控制模型,已不再适合逻辑更为复杂的企业

学位

T-RBAC工作流安全框架RBAC

基于S3C4510B的嵌入式教学开发系统软件设计

嵌入式系统(Embedded System)是以应用为中心、以计算机技术为基础,软硬件可裁剪,能满足应用系统对功能、可靠性、成本、体积、功耗等指标的严格要求的专用计算机系统。它可

学位

嵌入式系统移植ARMμCLinux

嵌入式浏览器的实现及GUI研究

随着信息技术的快速发展和互联网的广泛应用,支持网络连接的嵌入式系统已广泛应用于消费电子和通信领域;机顶盒、手机、PDA等嵌入式设备日益贴近人们的日常生活,嵌入式浏览器

学位

嵌入式浏览器图形系统JavaScript

计算机基础课考试辅助出题技术研究

本课题研究了客观题、Windows操作题和Office操作题三大类9种题型的题库建设及自动组卷。客观题主要考查学生对计算机基础课三门课程的基础知识与理论的掌握情况，而主观操作试

学位

试题库操作题面向对象成绩分析计算机

视频中运动目标跟踪的关键算法研究

视频目标跟踪技术在社会生活中随处可见其身影，视频目标跟踪技术作为人类视觉的延伸，在视频监控、人机交互、机器人导航以及自然灾害分析等方面都有广泛的应用。视频目标跟踪仍

学位

视频目标跟踪均值漂移算法加权直方图粒子滤波特征选择

基于VPN的业务信息系统和网络安全研究

本文研究了网络化业务信息系统的通信方式选择和网络安全问题，以降低网络成本的同时确保系统的安全。所做的工作主要有以下几个方面： 1、在查阅大量文献的基础上，比较了几种

学位

网络业务信息系统网络安全策略配置管理机制

基于非线性维数约减的模式识别

通过各种捕捉设备获取的多媒体数据通常是高维的，它们不适合通常在少量特征上能够准确分类的分类器。因此需要基于维数约减的特征抽取过程来去除或弱化那些不重要的特征，而保留

学位

模式识别非线性维数约减人脸识别特征提取IsomapLLE

基于单字的中文全文检索的研究与实现

与本文相关的学术论文