高性能文本索引系统的设计与实现

来源 :中国科技论文 | 被引量 : 0次 | 上传用户:bosswhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。
其他文献
本体异质结聚合物太阳电池的活性层通常是由聚合物给体和富勒烯受体通过机械混合而成,活性层的聚合物和富勒烯分子从热力学角度倾向于各自聚集,由此形成的纳米微相分离结构是热
本文主要介绍xML相关语言,包括定义语言DTD和XML Schema、样式表语言XSL、样式表转换语言XSLT、文档格式化对象XML-FO、路径语言XPath链接语言XLink、指针语言XPointer、查询
随着互联网及其信息服务的快速增长,对于网络信息资源的获取越来越重要,而面向Web的文本挖掘技术的发展及应用对于解决这一问题将会起到极其重要的影响.通过分析文本自动分类
目的:比较双时相门冬胰岛素(诺和锐30)和双时相人胰岛素(诺和灵30R)治疗2型糖尿病的有效性和安全性。方法:72例2型糖尿病患者,随机分为A组36例,注射诺和锐30;B组36例,注射诺和灵30R
针对大功率LED封装工艺流程中荧光粉颗粒出现沉淀的问题,基于斯托克斯定律,在忽略流体惯性力的情况下,通过耦合硅胶固化过程黏时曲线及荧光粉颗粒粒径分布函数建立了荧光粉颗
为了达到桥梁上部结构预应力混凝土强度和弹性模量双重控制的目标,有必要研究混凝土微结构随龄期的变化规律。本文利用X射线计算机断层扫描成像技术(CT技术)分别对7d与28d龄
目的探讨中医辨证护理对血液透析患者心理状态及生活质量的效果。方法选取2015年6月至2016年6月丹东市中心医院收治的118例血液透析患者,根据随机原则将患者分为对照组(n=59例
中国国家主席胡锦涛6月15日抵达俄罗斯进行国事访问,并出席第十五届圣彼得堡国际经济论坛。今年恰逢《中俄睦邻友好合作条约》签署10周年,在当今国际形势复杂多变、世界和平遭
ACE(Adaptive Communication Environment)是可以自由使用、开放源码的面向对象(OO)框架,ACE提供了一组包括信号处理、进程间通信、共享内存管理、并发执行和同步等组件,本文
目的:了解2009年本院下呼吸道非发酵菌的分布及耐药性分析,为临床合理选用抗生素提供依据。方法:细菌鉴定采用VITEK-32系统,用K-B法及VITEK32进行药敏试验。结果:2009年我院下呼