高性能文本索引系统的设计与实现

来源 :中国科技论文 | 被引量 : 0次 | 上传用户:bosswhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。
其他文献
本体异质结聚合物太阳电池的活性层通常是由聚合物给体和富勒烯受体通过机械混合而成,活性层的聚合物和富勒烯分子从热力学角度倾向于各自聚集,由此形成的纳米微相分离结构是热
本文主要介绍xML相关语言,包括定义语言DTD和XML Schema、样式表语言XSL、样式表转换语言XSLT、文档格式化对象XML-FO、路径语言XPath链接语言XLink、指针语言XPointer、查询
随着互联网及其信息服务的快速增长,对于网络信息资源的获取越来越重要,而面向Web的文本挖掘技术的发展及应用对于解决这一问题将会起到极其重要的影响.通过分析文本自动分类
为了达到桥梁上部结构预应力混凝土强度和弹性模量双重控制的目标,有必要研究混凝土微结构随龄期的变化规律。本文利用X射线计算机断层扫描成像技术(CT技术)分别对7d与28d龄
目的探讨中医辨证护理对血液透析患者心理状态及生活质量的效果。方法选取2015年6月至2016年6月丹东市中心医院收治的118例血液透析患者,根据随机原则将患者分为对照组(n=59例
ACE(Adaptive Communication Environment)是可以自由使用、开放源码的面向对象(OO)框架,ACE提供了一组包括信号处理、进程间通信、共享内存管理、并发执行和同步等组件,本文