基于单字的中文全文检索的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:user1944
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文就中文全文检索的不同算法模型,特别是基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对实际应用提出了一套不依赖于具体机器和操作系统的基于单字的中文全文检索系统的数据结构和算法模型。   首先,描述了倒排表的工作原理。通过对其检索效率的详细分析找出了影响其检索速度的瓶颈所在,进而针对这些问题提出了后继倒排表的存储结构,从而提高了检索的效率。   其次,用C++描述了如何开发一套完整的中文全文检索系统。为了便于灵活地对比各种索引压缩方案的性能,充分利用面向对象的多态性设计系统结构。用C++类封装各种索引的管理功能,类的内部实现对索引文件逻辑信息的组织和I/O,并向外部提供功能函数。   最后,对针对后继倒排表存储结构的索引特点提出了存储空间和检索的优化方案。设计了一种可以反馈用户对检索结果满意程度的排序算法,从而提高了检索的查准率。
其他文献
随着嵌入式系统性能的不断提高,其应用领域也得到不断扩大。从最初的嵌入控制和计算单元,到如今甚至可以独立构成计算平台,这也给了科研人员更多的应用选择。 进入21世纪以来
本文采用CORBA为通信模型、TMF814规范为信息模型实现EML-NML接口(接口的实现称为NI814)。并提出浮动接口技术实现接口和EMS的松散耦合框架,分析了该技术对组网复杂度、软件成
本文详细分析了大集中工程在安全管理方面,特别是权限管理和访问控制方面的系统需求。作者研究了应用广泛的三个访问控制模型:DAC、MAC和RBAC模型,并且进一步研究了RBAC模型的管
随着电子信息技术的进步和企业软件规模的持续扩大,各种企业管理系统对于安全高效灵活的访问控制策略,提出了更高的要求。传统的访问控制模型,已不再适合逻辑更为复杂的企业
嵌入式系统(Embedded System)是以应用为中心、以计算机技术为基础,软硬件可裁剪,能满足应用系统对功能、可靠性、成本、体积、功耗等指标的严格要求的专用计算机系统。它可
随着信息技术的快速发展和互联网的广泛应用,支持网络连接的嵌入式系统已广泛应用于消费电子和通信领域;机顶盒、手机、PDA等嵌入式设备日益贴近人们的日常生活,嵌入式浏览器
本课题研究了客观题、Windows操作题和Office操作题三大类9种题型的题库建设及自动组卷。客观题主要考查学生对计算机基础课三门课程的基础知识与理论的掌握情况,而主观操作试
视频目标跟踪技术在社会生活中随处可见其身影,视频目标跟踪技术作为人类视觉的延伸,在视频监控、人机交互、机器人导航以及自然灾害分析等方面都有广泛的应用。视频目标跟踪仍
本文研究了网络化业务信息系统的通信方式选择和网络安全问题,以降低网络成本的同时确保系统的安全。所做的工作主要有以下几个方面: 1、在查阅大量文献的基础上,比较了几种
通过各种捕捉设备获取的多媒体数据通常是高维的,它们不适合通常在少量特征上能够准确分类的分类器。因此需要基于维数约减的特征抽取过程来去除或弱化那些不重要的特征,而保留