达梦数据库全文检索关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:vay_b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将全文检索内嵌在数据库管理系统中,将有助于用户对数据库表上的文本数据建立全文索引,进而可以灵活地检索到文本信息。   国产数据库管理系统达梦数据库实现了全文检索系统,但是此系统尚存在着索引膨胀率过高,索引填充时间较长等问题。出现这些问题的主要原因是索引结构的设计,分词器的断词粒度较细,无噪音词过滤能力等问题。针对这些问题,设计出解决问题的方法,在内存中合并、缓冲并压缩索引,加强分词器的断词能力和噪音词过滤机制。   为了增强对索引填充过程的控制能力,并进一步提高索引填充的速度,设计了异步多路的索引填充方法。为了扩大全文检索的适用范围,对多种索引源和多文档格式解析技术进行了分析。使用空间向量模型,给出了结果集打分排位的计算方法。   通过实验考察一些关键技术的最终效果。索引空间占用的实验表明索引的空间膨胀率达到了50%以下,较好地解决了索引空间膨胀率过高的问题;压缩对比实验,证实基于字节的变长整数压缩方法,在没有引起索引填充时间延长的情况下,能有效地对索引进行压缩,压缩率达到50%以上;异步多路的索引填充实验结果表明,并行索引数的增加并不会很理想地提高索引填充速度;使用改造后的空间向量模型,能较好地为检索结果进行打分排位,提高了检索效率。  
其他文献
我国的电子政务经过20多年的发展,得到了前所未有的发展。但仍然存在很多问题,如不同政府部门之间共享信息资源面临重复采集,数据命名、格式差异,部门间的数据不一致,技术多
电力行业在国民经济中占有重要的地位,随着电力系统的发展,越来越密织的电网,复杂的电力设备,使得电力行业的数据变得日益庞大且难于管理。如何将这些数据直观的显示在地图上,如何
目前,无线局域网大部分是基于IEEE802.11标准的,但是许多研究表明IEEE802.11标准存在诸如缺乏双向认证、存在弱密钥等安全问题。IEEE802.1x针对当前无线局域网出现的安全问题
随着Internet/Intranet快速发展,网络安全技术日益受到人们的重视。PKI(Public Key Infrastructure)是目前较为成熟的网络安全解决方案,它能够保障网络上各种应用的机密性、
微博作为Web2.0时代新生的网络应用形式,自诞生不久就以其惊人的影响力和急速攀升的用户数量在互联网业界引发了一场前所未有的“微革命”。与其他社交网络不同的是,微博不仅
嵌入式系统作为计算机应用的一个崭新领域,以其简洁、高效等优点越来越多地受到人们的关注,而要开发一个嵌入式应用系统,则需要嵌入式硬件、嵌入式操作系统及相应的开发工具
拼写校正是自然语言处理领域研究的一个热点。随着信息检索和文本处理系统的大规模应用,人工输入的文档中不可避免地包含拼写错误。对用户输入到搜索引擎中的查询或包含错误拼
随着互联网规模、用户数量以及业务量的增长,新型网络应用也不断涌现,这使得网络拥塞的状况愈加严重和复杂。拥塞控制是尽量避免拥塞以及在拥塞发生时进行有效控制并加以消除
随着控制技术和计算机技术的发展,尤其是Internet/Intranet技术的广泛应用,远程监控工业现场的生产情况已成为可能。实现现场控制层到信息层全面、无缝的信息集成,建立高效的
现代软件开发都要把整个系统按功能分解为小的单元,然后开发这些小单元,这些小的单元隐藏内部实现,对外提供接口,最后组合这些单元为整个系统,实现整个系统的功能。但是系统